熱線電話:13121318867

登錄
首頁精彩閱讀關于機器學習有這十大誤區,比如以為它不久后將變得超級智慧
關于機器學習有這十大誤區,比如以為它不久后將變得超級智慧
2018-05-17
收藏

關于機器學習有這十大誤區,比如以為它不久后將變得超級智慧

機器學習過去往往發生在幕后:亞馬遜通過挖掘你的點擊和購買記錄來給你推薦新物品;谷歌通過挖掘你的搜索來投放廣告;臉書通過挖掘你的社交網絡來選擇給你展示不同的新鮮事。

然而機器學習現在已然登上了頭版頭條,成為了被熱烈討論的話題!機器學習算法可以駕駛車輛,可以翻譯演講,贏得危險邊緣游戲(哥倫比亞廣播公司益智問答游戲節目)!

我們不由自主會問:“他們到底能做什么不能做到什么?他們會是隱私、工作甚至是人類消失的開始呢?”大家對機器學習的關注固然很好,因為機器學習將會是塑造未來的主要推動力,但是這其中又有太多關于機器學習的錯誤觀念,我接下去要做的第一步就是糾正這些錯誤的觀念。讓我們快速瀏覽一下那些錯誤觀念。

機器學習只是在總結數據

事實上,機器學習的主要目的是預測未知。知道你過去看了什么電影只是一種推測你之后想看什么電影的方式;你的信用記錄預示了你會否按時付賬單。而對于機器人科學家,學習算法提出假設,改進假設,而只有假設提出的預測成真時才會相信這些假設。學習算法并不比科學家聰明,但卻有比科學家百萬倍快速的計算能力。

學習算法只是發現了事件之間的關聯

這是你對媒體口中機器學習的第一印象。一個非常著名的例子就是,谷歌搜索中關于“流感”搜索的增加是流感流行的跡象。當然這沒有錯,但是大多學習算法可以發現更豐富的信息,例如如果痣有著奇怪的形狀和顏色,并且在逐漸變大,那么這可能會是皮膚癌。

機器學習只能發現相關性,而無法發現因果關系

實際上,最流行的機器學習算法之一就是由嘗試不同的行為之后觀察行為的結果(本質上是發現因果關系)所組成的。比方說,電商網站可以嘗試不同呈現商品的方式,然后選擇其中能帶來最高購買量的方式。你可能不經意間已經參與了成千次這種實驗。因果關系甚至可以在一些無法進行實驗只能通過計算機處理之前記錄的數據的情形下被發現。

機器學習無法預測未見過的事件,也稱作“黑天鵝”效應

如果某些事之前從未發生過,那么預測它發生的概率必然為零,不然呢?相反,機器學習很擅長高精度地預測稀有事件。如果A是B發生的原因,B又是C發生的原因,那么A可能導致C發生,即便我們從未見過其發生過。每一天,垃圾郵件過濾器可以標記出剛剛捏造而成的垃圾郵件(之前未出現過)。像2008年發生的房地產危機實際上是被廣泛預測到了的,只不過不是那時大多數銀行所使用的是有缺陷的模型而已。

你有越多的數據,你越可能得到錯誤的模式

試想,國家安全局查看了越多的電話記錄,越可能把一個無辜的人標記為恐怖分子,因為他的通話記錄正好匹配了恐怖分子檢測的機制。對同一個體挖掘越多的屬性是會增加誤判的可能性,然而機器學習專家們是很善于把這種可能性降到最低的。另一方面,挖掘不同個體的同種屬性可以降低誤判風險,因為從中學習的規則有更多的依據。而且有些學習算法可以在不同個體之間找到某些模式,從而使檢測機制更加穩定。也許某人拍攝紐約市政府的視頻并不可疑,同時另外一個大量購買硝酸銨的人也不可疑;然而如果這兩個人之間有電話聯系,也許FBI就應該調查一下以保證他們之間不是在密謀爆炸襲擊了。

機器學習無視現存的知識

許多被機器學習滲透的領域里的專家質疑像機器學習這樣不需掌握任何領域知識的方法。真正的知識是一個長期推理與實驗的過程中累積下的,你無法靠在一個數據庫里跑一個原型算法而學到。但不是所有的學習算法都不使用領域知識;其中一些就會用數據去精煉已有的繁雜知識,使其變得十分精巧,進而呈現為計算機所能理解的形式。

計算機習得的模型人類無法理解

這自然會是一個引起人們關心的原因。如果一個學習算法是黑箱模型,那么我們怎么能相信它給出的推薦呢?某些模型卻是非常難理解,比如給機器學習帶來最大成功的深度神經網絡(從youtube的視頻里識別貓咪)。但其他大多模型都完全可以被理解,比如我們之前提到的診斷皮膚癌用到的方法。

以上所有的誤解都是負向的,它們認為機器學習的能力比實際上更有限。以下的則是過于正向的錯誤觀念:

越簡單的模型越準確

這個觀念有時來自“奧卡姆剃刀”,但只說了我們應該傾向于更簡單的模型卻沒有給出原因。簡單模型更可取是因為他們更易于解釋和推理。但是有時與數據相容的簡單假設比復雜模型更不準確。一些強有力的學習算法輸出模型看起來毫無理由的復雜,甚至還會繼續給復雜模型添加組件即便他們已經完美擬合了數據,但這也是它們比簡單模型更準確的原因。

機器學習發現的模式可以直接被采納

如果一個學習算法輸出了一條診斷皮膚癌的規則,并且極其準確(任何符合這個條件的痣都是皮膚癌),這也不意味著你應該相信它。對于數據微小的改動都會導致算法輸出同等精確卻非常不同的規則。只有那些對于數據中隨機擾動穩定的規則可以被相信,而不僅僅是作為預測的方式。

機器學習不久后會變成超級智慧

從每天人工智能發展的新聞來看,非常容易有一種感覺,計算機已經接近于像我們一樣可以看,說話,推理;不久后就會把我們拋棄在塵土里了。我們在人工智能的第一個五十年走了條長路,機器學習是其近來成功的主要原因,然而我們還有很長的路要走。計算機可以非常好的完成特定的任務,卻依然沒有通用智能,也還沒有人知道怎么去教它們。

好了,到這你已經知道機器學習有時比我們想象的更強力,有時卻不那么好。如何使我們更好運用機器學習也取決于我們!我們要對它們有更準確的理解!


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢