熱線電話:13121318867

登錄
首頁精彩閱讀如何向小白介紹機器學習和數據挖掘_數據分析師
如何向小白介紹機器學習和數據挖掘_數據分析師
2014-12-21
收藏

如何向小白介紹機器學習數據挖掘_數據分析師

買芒果

嘴饞的你想吃芒果了,于是你走到水果攤,挑了幾個讓老板過過秤,然后你再根據芒果的斤兩付錢走人。

顯然,買芒果你當然是挑著最甜、最熟的來買(因為你是根據重量而不是質量來掏錢的)。怎么個挑法才靠譜呢?

對了,你奶奶說過,金黃色的要比淺黃的更甜些。于是你就做了一個簡單的規定:只挑金黃色的買,過磅、付錢、回家。就這么簡單?

不盡然。

生活沒那么簡單

拎著芒果回到了家,嘗了嘗,你發現有些很對口味,有些則馬馬虎虎。顯然,光憑你奶奶的智慧還是有所不足的。挑芒果不能只看顏色。

一番細品,再一番苦想之后,你得出了結論:那些大個兒的、金黃色的芒果一定是甜的,而那些小個兒的、金黃的就只有一半是甜的了。(比如,你買了 100 個黃燦燦的芒果,50 個個頭較大,50 個個頭一般,那么個頭大的那 50 個就都是甜的,個頭小的 50 個當中就平均只有 25 個是甜的了。)

你對自己的研究發現甚感滿意,想著下次買芒果的時候能更靠譜些。終于你又來到了水果市場,發現你最常去的那個水果攤已經見不著蹤影了。于是你就找了另一個攤檔,而他們的芒果又產自不同的地方。你撓撓頭,嘆了口氣:得了,“大個、金黃色的果子甜”的經驗在這又不適用了,一切從頭開始。嘗了一遍后,你發現那些小個的、淺黃的芒果是當中最甜的。

你的表妹大老遠的來看你,你決定給她整些美味的芒果嘗嘗。但她并不在乎果子甜不甜,而只關心是不是鮮嫩多汁。好吧,你又撓撓頭,在果攤嘗了一遍,發現越軟的越多汁。

這次,你到了另一個國度。這兒的芒果味道與家鄉的截然不同:綠色的竟然要比黃色的味道更棒。

你結了婚,發現她對芒果完全不感冒,而對蘋果很是喜歡。這回,你又跑去買蘋果去了。你又得學神農“遍嘗百果”,摸索蘋果的物理特征和味道之間都有怎樣的聯系——為了她,又有什么不可以的呢?滿滿的都是愛呀。

寫段電腦程序來幫忙

為什么不用電腦程序來幫你挑芒果(或蘋果)呢?你把規則寫了出來:

if (color is bright yellow and size is big and sold by favorite vendor): mango is sweet.
if (soft): mango is juicy.
etc.

這就是你挑芒果用到的規則了。把它發給你的弟弟,想必他也能幫你買到對你口味的芒果。

但問題在于,每回你在試驗之后得出了觀察結果,你都得把規則做一番修正。你還得明察秋毫地了解清楚都有那些因素在影響芒果的品質。如果問題復雜起來的話,你在上面耗費的心血甚至都有可能為你拿個“芒果科學”的 PhD 下來(如果有的話)。

但這樣的大閑人還真的不多。

寫個機器學習算法吧

機器學習算法是普通算法的進化版,它們讓你的程序變得“更聰明”,能從你提供的數據里自動學到東西。

你在市場上隨機選擇了某個品種的芒果(training data),把每個芒果的物理特征都寫進了一個表格——顏色、大小、形狀、產地、所屬果攤等(features),甜度、多汁程度、成熟度(output variables)也做了記錄。你把這些數據都放進了一個機器學習算法(classification/regression),然后這個算法就會自動從芒果的物理特征和品質之間得出一個相關性模型。

等到下一回你到市場的時候,你把在售的芒果的特征信息都收集起來,再扔進你的機器學習算法,它就會利用之前計算出來的模型來預測哪些芒果是甜的、熟的、以及/或多汁的了。該算法可能會使用和你曾經手寫的差不多的規則,也有可能使用的規則會更有相關性,不管怎樣,在很大程度上你都不用操太多心了。

現在,算法在手,你就可以挺直身板去買芒果去了。更重要的是,你的算法還能繼續演進(reinforcement learning),讀取更多的訓練數據,準確率也更高,每預測錯誤后再進行自我修正。更妙的是,你還能用同一個算法來訓練不同的模型,預測預測蘋果、橙子、香蕉、葡萄、櫻桃、西瓜什么的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢