
關于機器學習有這十大誤區,比如以為它不久后將變得超級智慧
機器學習過去往往發生在幕后:亞馬遜通過挖掘你的點擊和購買記錄來給你推薦新物品;谷歌通過挖掘你的搜索來投放廣告;臉書通過挖掘你的社交網絡來選擇給你展示不同的新鮮事。
然而機器學習現在已然登上了頭版頭條,成為了被熱烈討論的話題!機器學習算法可以駕駛車輛,可以翻譯演講,贏得危險邊緣游戲(哥倫比亞廣播公司益智問答游戲節目)!
我們不由自主會問:“他們到底能做什么不能做到什么?他們會是隱私、工作甚至是人類消失的開始呢?”大家對機器學習的關注固然很好,因為機器學習將會是塑造未來的主要推動力,但是這其中又有太多關于機器學習的錯誤觀念,我接下去要做的第一步就是糾正這些錯誤的觀念。讓我們快速瀏覽一下那些錯誤觀念。
機器學習只是在總結數據
事實上,機器學習的主要目的是預測未知。知道你過去看了什么電影只是一種推測你之后想看什么電影的方式;你的信用記錄預示了你會否按時付賬單。而對于機器人科學家,學習算法提出假設,改進假設,而只有假設提出的預測成真時才會相信這些假設。學習算法并不比科學家聰明,但卻有比科學家百萬倍快速的計算能力。
學習算法只是發現了事件之間的關聯
這是你對媒體口中機器學習的第一印象。一個非常著名的例子就是,谷歌搜索中關于“流感”搜索的增加是流感流行的跡象。當然這沒有錯,但是大多學習算法可以發現更豐富的信息,例如如果痣有著奇怪的形狀和顏色,并且在逐漸變大,那么這可能會是皮膚癌。
機器學習只能發現相關性,而無法發現因果關系
實際上,最流行的機器學習算法之一就是由嘗試不同的行為之后觀察行為的結果(本質上是發現因果關系)所組成的。比方說,電商網站可以嘗試不同呈現商品的方式,然后選擇其中能帶來最高購買量的方式。你可能不經意間已經參與了成千次這種實驗。因果關系甚至可以在一些無法進行實驗只能通過計算機處理之前記錄的數據的情形下被發現。
機器學習無法預測未見過的事件,也稱作“黑天鵝”效應
如果某些事之前從未發生過,那么預測它發生的概率必然為零,不然呢?相反,機器學習很擅長高精度地預測稀有事件。如果A是B發生的原因,B又是C發生的原因,那么A可能導致C發生,即便我們從未見過其發生過。每一天,垃圾郵件過濾器可以標記出剛剛捏造而成的垃圾郵件(之前未出現過)。像2008年發生的房地產危機實際上是被廣泛預測到了的,只不過不是那時大多數銀行所使用的是有缺陷的模型而已。
你有越多的數據,你越可能得到錯誤的模式
試想,國家安全局查看了越多的電話記錄,越可能把一個無辜的人標記為恐怖分子,因為他的通話記錄正好匹配了恐怖分子檢測的機制。對同一個體挖掘越多的屬性是會增加誤判的可能性,然而機器學習專家們是很善于把這種可能性降到最低的。另一方面,挖掘不同個體的同種屬性可以降低誤判風險,因為從中學習的規則有更多的依據。而且有些學習算法可以在不同個體之間找到某些模式,從而使檢測機制更加穩定。也許某人拍攝紐約市政府的視頻并不可疑,同時另外一個大量購買硝酸銨的人也不可疑;然而如果這兩個人之間有電話聯系,也許FBI就應該調查一下以保證他們之間不是在密謀爆炸襲擊了。
機器學習無視現存的知識
許多被機器學習滲透的領域里的專家質疑像機器學習這樣不需掌握任何領域知識的方法。真正的知識是一個長期推理與實驗的過程中累積下的,你無法靠在一個數據庫里跑一個原型算法而學到。但不是所有的學習算法都不使用領域知識;其中一些就會用數據去精煉已有的繁雜知識,使其變得十分精巧,進而呈現為計算機所能理解的形式。
計算機習得的模型人類無法理解
這自然會是一個引起人們關心的原因。如果一個學習算法是黑箱模型,那么我們怎么能相信它給出的推薦呢?某些模型卻是非常難理解,比如給機器學習帶來最大成功的深度神經網絡(從youtube的視頻里識別貓咪)。但其他大多模型都完全可以被理解,比如我們之前提到的診斷皮膚癌用到的方法。
以上所有的誤解都是負向的,它們認為機器學習的能力比實際上更有限。以下的則是過于正向的錯誤觀念:
越簡單的模型越準確
這個觀念有時來自“奧卡姆剃刀”,但只說了我們應該傾向于更簡單的模型卻沒有給出原因。簡單模型更可取是因為他們更易于解釋和推理。但是有時與數據相容的簡單假設比復雜模型更不準確。一些強有力的學習算法輸出模型看起來毫無理由的復雜,甚至還會繼續給復雜模型添加組件即便他們已經完美擬合了數據,但這也是它們比簡單模型更準確的原因。
機器學習發現的模式可以直接被采納
如果一個學習算法輸出了一條診斷皮膚癌的規則,并且極其準確(任何符合這個條件的痣都是皮膚癌),這也不意味著你應該相信它。對于數據微小的改動都會導致算法輸出同等精確卻非常不同的規則。只有那些對于數據中隨機擾動穩定的規則可以被相信,而不僅僅是作為預測的方式。
機器學習不久后會變成超級智慧
從每天人工智能發展的新聞來看,非常容易有一種感覺,計算機已經接近于像我們一樣可以看,說話,推理;不久后就會把我們拋棄在塵土里了。我們在人工智能的第一個五十年走了條長路,機器學習是其近來成功的主要原因,然而我們還有很長的路要走。計算機可以非常好的完成特定的任務,卻依然沒有通用智能,也還沒有人知道怎么去教它們。
好了,到這你已經知道機器學習有時比我們想象的更強力,有時卻不那么好。如何使我們更好運用機器學習也取決于我們!我們要對它們有更準確的理解!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25