
作者 | Jamie Beach
編譯 | AI開發者
Top 5 Insights After I Spent 100 Days Learning About Artificial Intelligence
本文的作者是 Jamie Beach,在自學人工智能 100 天以后,他分享了自己對人工智能的 5 個感悟,以下是他的全文。
2019 年 1 月底,我突然意識到,我對人工智能的理解不足。它正日益影響著我們的每一天。人工智能保護我們的收件箱免受垃圾郵件的攻擊,它支持來自 Alexa 的天氣更新,它使亞馬遜能夠向我們推薦商品,讓 Netflix 給我們推薦電影。每次我們打開 twitter 或 facebook,都是人類與比我們更了解自己的人工智能的較量。但我是一個專業的技術人員,卻對人工智能的真正含義知之甚少。
《連線》雜志創辦人 Kevin Kelly 在一個名為「未來思考者(Future Thinkers)」的播客上接受采訪時,談到過 AI 相關的話題。他認為,我們的人工智能技術還處于起步階段,如果有人花一點時間學習人工智能和機器學習,超越只是了解的水平,他們會發現自己只是一小部分人中的一部分。那天下班回家后,我開始了為期 100 天的「人工智能學習潛水」。
我將需要學習的所有東西都進行了分類(https://trello.com/b/g1cS5K0O/100-days-of-ai)。由于在職,很難找到業余時間,但我確實在 100 天內完成了近 200 個小時的工作。我讀了 9 本書,上了 2 門 Coursera 課程(已經開始學習第三門課),聽了很多播客,看了盡可能多的輔助教程。
以下是我在那段時間總結出的 5 個觀點:
01.人工智能是舊的也是新的
人工智能這個詞并非出自某部科幻小說。1956 年,在達特茅斯學院的一個暑期研討會上,許多聰明人聚集在一起研究如何讓機器思考。在這次聚會中產生了「人工智能」這個概念。雖然這次會議并沒有研究出具有思維的機器人,但它帶來的思想和技術仍然是當今人工智能的基礎。
研討會之后,人們對人工智能的不同子領域的興趣增強。神經網絡似乎很有前途,但在當時這項技術一片空白,大多數研究最終放棄了這一概念。這個時期被稱為「AI 寒冬」,它持續了幾十年。然而,近年來,算力和可用數據的指數增長,加上深度學習的最新進展,極大地提高了機器學習的有效性。AI 被 Andrew Ng 等專家稱為「新的電力(new electricity)」。
02.人工智能等同于機器學習,但它不是終結者
「人工智能是用 powerpoint 完成的,機器學習是用 python 完成的(「AI is done in PowerPoint and machine learning in Python」)」
終結者,在流行文化中是超智能的縮影
人工通用智能(Artificial General Intelligence,簡稱 AGI)是一種假想的機器,它的思維方式和人類一樣, 比如終結者就是這種機器人。超智能是超越人類思維能力的機器(如果讀過 Nick Bostrom 的 Superintelligence,你可能會有點害怕它),但在現在,還沒有這樣的事物出現。到目前為止,AGI 只是一種幻想,它在未來,并且有點遙不可及。這并不意味著沒人在做這件事,這也不意味著像 Max Tegmark 和 Ray Kurzweil 這樣的聰明人不會廣泛地談論它并期待它。但目前人工智能的形式幾乎就是機器學習 —— 一個 AI 的子領域。
機器學習的基本原理如下:
第一步:把一個問題變成一個預測問題。換句話說,給定輸入參數(特征),預測結果。你可以預測一棟房子的價格,或者是拍攝時給定的攝像位置。
第二步:定義算法或者系統,做出決策。這里有很多方法,如線性回歸,神經網絡,深度學習,支持向量機,遞歸神經網絡,卷積神經網絡,生成性對抗網絡等等。每種算法都可以用于一種特殊的預測問題。要預測房屋成本,線性回歸模型就足夠了;預測電影劇本將使用一個遞歸神經網絡(RNN);預測不存在的人的面部圖像使用生成性對抗網絡(GAN)。
第三步:獲取大量的訓練數據。通常情況下,數據越多,效果越好。對于房價,要獲取數千行數據,其中包含這些房屋出售的特征和實際價格(標簽)。對于字符識別,需要獲取大量的字符圖片并相應地進行標注。
第四步:訓練模型。提供訓練數據,計算誤差,調整并重復,直到誤差最小化。梯度下降和反向傳播是這里的重要概念。
假設誤差已經達到最小,模型就可以接受新的特征,并預測結果。這個結果通常非常準確——比人類更精確。
03.沒有魔法,只有數學
我剛在谷歌上找到的公式
在開始這 100 天之前,我知道機器學習會涉及到數學,但我并不知道會需要多少數學知識。了解微積分和矩陣代數對任何人來說都是非常有益的,幸運的是,你不需要是數學專業的學生就可以學會這些,而且機器學習的框架也在不斷地迭代,變得越來越易用。
一些重要的框架,包括 Google 的 Tensorflow、Microsoft 的 ML.NET 和 PyTorch 為程序、數學和算法添加了抽象層。甚至還有額外的抽象層,比如于 Tensorflow 上面的 Keras。
此外,相關人員正通過提供機器學習模型作為一項服務,或創建自動化的程序(如 AutoML 和 Auto-Keras),使機器學習更加容易上手。
04.偏差是個大問題
「真正的安全問題是,如果我們給這些系統提供有偏差的數據,系統就會有偏差」——John Giannandrea。
機器學習中的偏差是個大問題。Amy Webb 的書「The Big Nine」中有好幾個章節都提到了這個問題。測試數據的全面性和多樣性是非常重要的,但這往往是缺乏的。
1956 年以來的「人工智能的奠基人」
Amy 使用 ImageNet 語料庫作為有固定偏差的例子,它里面有超過 1400 萬張標記圖片,其中一半以上是在美國產生作的。當然,ImageNet 并不是唯一一個有偏差的例子。
當一個數據集中包含了「護士」的女性形象或「首席執行官」的男性形象時會發生什么?當皮膚癌圖像數據只使用淺膚色樣本時會發生什么?如果這些模型真正進入我們的日常生活時,就會產生嚴重的后果。隨著 ML 模型的全民化繼續進行,我們往往在不知道用于訓練的測試數據是什么樣的情況下,就使用預先制作的模型,這種偏差持續存在,并可能放大。
研究人員很清楚這一問題,九大公司(G-MAFIA + BAT)都有和指導原則來說明減少工程文化偏差的必要性。但這不是故意的。沒有人會故意在模型中加入偏差,即使是出于善意,偏差也是不可避免的。
因此,我們都必須了解機器學習的工作原理,以及它是如何影響我們的——它是如何為 Twitter 和 Facebook 提供能量的,這些能量會攪動我們自己的神經元,從而影響我們對世界的看法。
05.機會如此之多
全球人工智能衍生業務價值預測(單位:十億美元),數據來源:Gartner(2018 年 4 月)
Kevin Kelly 是對的。我們還處在人工智能和機器學習的早期。是的,有很多應用程序已經滲透到我們的生活中,但仍然有很多很多的機會。
機器學習能夠、已經和將會徹底改變一切。在過去的 100 天里,我讀過的許多書中有一本叫「Manna」,作者是 Marshall Brian。這是一本科幻小說,它描述了一個近乎烏托邦的社會,機器和自動化承擔了所有的工作,人類可以隨心所欲地生活。不需要 AGI,只需要機器學習。這樣的生活離我們到底還有多遠?
我預見到未來 Instagram 名人和 YouTube 博主甚至都不是真實的,但卻擁有數以千萬計的追隨者,他們發布的內容完全由 GAN 和 RNN 生成。由機器學習驅動的新的娛樂模式將會誕生,從電影腳本到栩栩如生的超現實的三維模型都是由機器學習模型創建的。忘了面試工作吧。當你自己的個人數據記錄可以與所有當前職位空缺的公司數據檔案相匹配時,又何必費心呢?從癌癥治療到餐廳晚餐,再到實時生成的音樂,一切都可以使用 ML 個性化地產生。自動駕駛的出租車、基于 RNN 的文案服務、自動化服務協議、自動化法庭裁決、個性化生活改善策略、無人機交付、基于人工智能的投資,這些都是無止境的、有形的,而且幾乎都是目前的熱門領域。
人工智能和機器學習也可能在全文明水平上影響人類,幫助緩解存在的風險,如氣候變化、戰爭、疾病甚至小行星撞擊地球。
世界即將變得不同。我們可能會注意到這一點,也可能不會。人工智能將推動這一變化,而且它已經開始在我們身上蔓延。
正如 Kevin Kelly 所說,
未來發生得很慢,但會突然爆發(the future happens slowly and then all at once)。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25