
數據科學能回答什么樣的問題
機器學習是數據科學的發動機。每種機器學習方法(也稱為算法)獲取數據,反復咀嚼,輸出結果。機器學習算法負責數據科學里最難以解釋又最有趣的部分。數學的魔法在此發生。
機器學習算法可以根據它們所回答的問題分成幾組。這種分組能夠在你提煉問題時幫助思考。
A類還是B類?
這組算法被稱為二類分類( two-class classification )。適用于任何有兩個可能選項的問題:是或否、開或關、吸煙或不吸煙、買或不買。許多數據科學問題看起來是這種形式,或者可以被組織成這種形式。這是最簡單也最常提到的數據科學問題。幾個典型的例子:
A類、B類、C類還是D類?
這組算法被稱作多類分類( multi-class classification )。如同名字所示,這組算法回答有多個可能答案的問題:哪種口味、哪個人、哪個部分、哪個公司、哪位候選人。大多數多類分類算法只是二類分類算法的延伸。一些典型例子如下:
是否異常?
這組算法進行異常檢測( anomaly detection )。它們識別出異常的數據點。如果仔細留意,你會發現異常檢測看起來像二元分類問題。問題可以用“是”或“否”來回答。不同之處時,二元分類假定你已經有一些“是”/“不是”的案例。異常檢測則不是這樣。當你所尋找的東西如此稀少(如設備失靈),以至于沒能收集太多有關案例時,異常檢測尤其有用。 當“不正?!卑喾N情況時(如信用卡詐騙),異常檢測也很有幫助。一些常見的異常檢測問題:
多少?
當你想求一個數字,而不是一個分級或類別,此時要用到的是回歸。
通常來說,回歸算法給出一個實值作為答案。答案可能會有小數或負數。對于一些問題,尤其是以“多少個”開頭的問題,負數需要被解讀為0,分數要取近似整數。
多類分類作為回歸問題
有時看似多元分類的問題事實上比較適合做回歸。比如,“哪個新聞故事對讀者來說更有趣?”看似在詢問類別——新聞故事清單里的一個條目。然而,問題可以重新組織成“對于讀者來說,清單上的每個故事在多大程度上有趣?”給每篇文章一個數字作為分數。之后就是一個簡單的識別最高分文章問題。這種類型的問題通常以排名或比較形式出現。
二類分類作為回歸問題
并不奇怪,二元分類也可以被轉述為回歸問題。(事實上,一些算法私下把所有二元分類問題轉化為回歸。)當一個案例可能屬于A或B,或有一定幾率屬于任意一方時,這種方法尤其有幫助。當答案可能為部分的“是”或“否”,可能是“開”也可能是“關”,回歸能夠體現這種情況。這種問題通常由“多大可能”或“多大比例”開頭:
你可能已經猜到,二元分類、多類分類、異常檢測和回歸全部是緊密相關的。它們屬于同一個延伸的家庭,監督學習。它們有許多相同之處,問題通常能被修改為不止一種形式。它們的共性是,它們都是通過一組加了標簽的樣本建立(被稱作“訓練”的過程),之后它們能對于無標簽的樣本賦予值或類別(被稱作“打分”的過程)。
無監督學習和增強學習的算法家族則有完全不同的數據科學問題。
數據是如何構成?
有關數據如何構成的問題屬于無監督學習。有許多技術試圖提煉數據的結構。其中一組算法進行聚類,也被稱作分塊、分組、聚群、分隔等。它們試圖把一個數據集分為一些直覺式的區塊。聚類與監督學習的不同之處,是沒有數字或名稱可以告訴你數據點屬于哪個類別,這些分組代表什么,或應該有多少個組。如果監督學習是在夜空群星中挑選出星球,那么聚類就是在構造星座。聚類試圖把數據分成自然的“叢”,以便作為分析師的人類能更輕易地向他人解釋。聚類一貫依賴于一個緊密度或相似性的定義,如智商差異、相同基因對或鳥瞰直線距離。聚類問題都試著把數據分解成近乎一致的群組。
另一組無監督學習算法叫維度歸約(dimensionality reduction)技術。維度歸約是另一種簡化數據的方式,讓數據能更容易傳播,更快速計算,更容易存儲。
在根本上,維度歸約都是在創造一種描述數據點的簡易方法。一個簡單的例子是GPA學分績點。一個大學生的學術能力,由數十個課程的數百場考試和數千個作業衡量。每個作業在某種程度上反映學生在多大程度上理解課程資料,但一個完整的作業清單任何招聘者來說都消化不了。幸運的是,你可以創造一個簡易方法把所有分數平均在一起??窟@個大型的簡化可以蒙混過關,因為在一項作業/課程表現突出的學生通常在其他作業/課程依然如此。通過使用學分績點而不是整個清單,豐富性無疑會受到損失。 比如,你不會知道是否這學生更擅長數學/英文,以及是否她在編程家庭作業中比隨堂測驗表現更好。但卻收獲了簡單,使得談論和比較學生能力變得容易許多。
維度歸約相關問題大多有關傾向于共同變化的因素。
如果目標是總結、簡化、壓縮或提煉一些數據,要選用的工具就是維度歸約和聚類。
我現在該做什么?
第三個機器學習算法家族重視采取行動。它們被稱為增強學習(reinforcement learning)算法?;貧w算法能預測出明天的最高氣溫是37°C,但它無法決定對此做些什么。增強學習算法邁向下一步并選擇一種行為,如,趁天氣還涼爽提前為辦公樓高層降溫。
增強學習的靈感最早來源于老鼠和人類大腦如何對獎懲做出反應。它們采取行動,努力獲得能帶來最高獎勵的行為。你提供給它們一系列可能的選項。它們需要對于某個行為獲得反饋,判斷此行為是好或中性或大錯特錯。
通常增強學習算法很適合需要在無人類監督下做出許多小決策的自動化系統。電梯、供熱、降溫和燈光系統是不錯的選擇。增強學習最初是被開發用于控制機器人,以便所有東西能夠自動,不管是偵察無人機還是真空吸塵器。增強學習回答的問題一貫關于該采取什么行為,盡管這行為通常是由機器執行。
增強學習通常需要比其他算法做更多努力,因為它與系統的其他部分緊密相連。這里的優勢是多數增強學習算法可以在沒有數據的情況下開始工作。它們在運行中收集數據,從嘗試和錯誤中學習。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25