
嘴饞的你想吃芒果了,于是你走到水果攤,挑了幾個讓老板過過秤,然后你再根據芒果的斤兩付錢走人。
顯然,買芒果你當然是挑著最甜、最熟的來買(因為你是根據重量而不是質量來掏錢的)。怎么個挑法才靠譜呢?
對了,你奶奶說過,金黃色的要比淺黃的更甜些。于是你就做了一個簡單的規定:只挑金黃色的買,過磅、付錢、回家。就這么簡單?
不盡然。
拎著芒果回到了家,嘗了嘗,你發現有些很對口味,有些則馬馬虎虎。顯然,光憑你奶奶的智慧還是有所不足的。挑芒果不能只看顏色。
一番細品,再一番苦想之后,你得出了結論:那些大個兒的、金黃色的芒果一定是甜的,而那些小個兒的、金黃的就只有一半是甜的了。(比如,你買了 100 個黃燦燦的芒果,50 個個頭較大,50 個個頭一般,那么個頭大的那 50 個就都是甜的,個頭小的 50 個當中就平均只有 25 個是甜的了。)
你對自己的研究發現甚感滿意,想著下次買芒果的時候能更靠譜些。終于你又來到了水果市場,發現你最常去的那個水果攤已經見不著蹤影了。于是你就找了另一個攤檔,而他們的芒果又產自不同的地方。你撓撓頭,嘆了口氣:得了,“大個、金黃色的果子甜”的經驗在這又不適用了,一切從頭開始。嘗了一遍后,你發現那些小個的、淺黃的芒果是當中最甜的。
你的表妹大老遠的來看你,你決定給她整些美味的芒果嘗嘗。但她并不在乎果子甜不甜,而只關心是不是鮮嫩多汁。好吧,你又撓撓頭,在果攤嘗了一遍,發現越軟的越多汁。
這次,你到了另一個國度。這兒的芒果味道與家鄉的截然不同:綠色的竟然要比黃色的味道更棒。
你結了婚,發現她對芒果完全不感冒,而對蘋果很是喜歡。這回,你又跑去買蘋果去了。你又得學神農“遍嘗百果”,摸索蘋果的物理特征和味道之間都有怎樣的聯系——為了她,又有什么不可以的呢?滿滿的都是愛呀。
為什么不用電腦程序來幫你挑芒果(或蘋果)呢?你把規則寫了出來:
if (color is bright yellow and size is big and sold by favorite vendor): mango is sweet.
if (soft): mango is juicy.
etc.
這就是你挑芒果用到的規則了。把它發給你的弟弟,想必他也能幫你買到對你口味的芒果。
但問題在于,每回你在試驗之后得出了觀察結果,你都得把規則做一番修正。你還得明察秋毫地了解清楚都有那些因素在影響芒果的品質。如果問題復雜起來的話,你在上面耗費的心血甚至都有可能為你拿個“芒果科學”的 PhD 下來(如果有的話)。
但這樣的大閑人還真的不多。
機器學習算法是普通算法的進化版,它們讓你的程序變得“更聰明”,能從你提供的數據里自動學到東西。
你在市場上隨機選擇了某個品種的芒果(training data),把每個芒果的物理特征都寫進了一個表格——顏色、大小、形狀、產地、所屬果攤等(features),甜度、多汁程度、成熟度(output variables)也做了記錄。你把這些數據都放進了一個機器學習算法(classification/regression),然后這個算法就會自動從芒果的物理特征和品質之間得出一個相關性模型。
等到下一回你到市場的時候,你把在售的芒果的特征信息都收集起來,再扔進你的機器學習算法,它就會利用之前計算出來的模型來預測哪些芒果是甜的、熟的、以及/或多汁的了。該算法可能會使用和你曾經手寫的差不多的規則,也有可能使用的規則會更有相關性,不管怎樣,在很大程度上你都不用操太多心了。
現在,算法在手,你就可以挺直身板去買芒果去了。更重要的是,你的算法還能繼續演進(reinforcement learning),讀取更多的訓練數據,準確率也更高,每預測錯誤后再進行自我修正。更妙的是,你還能用同一個算法來訓練不同的模型,預測預測蘋果、橙子、香蕉、葡萄、櫻桃、西瓜什么的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25