
作者 | Pranay Dave
CDA 數據分析師原創作品,轉載需授權
毫無疑問,Kaggle是非常適合學習數據科學的平臺。許多數據科學家在Kaggle上投入了大量時間。
但同時,你不應該只依靠Kaggle來學習數據科學技能。
以下就是當中的原因:
1.數據科學不僅僅是預測
Kaggle主要針對預測相關的問題。然而許多現實問題是與預測無關的。
例如,許多公司都想知道用戶流失的最常見途徑。這些類型的問題需要了解不同的數據類型和用戶接觸點,例如web導航、計費、客服中心交互、商店訪問等問題。同時還需要識別重要事件,例如超額計費或導航錯誤。在確定所有事件后,你需要應用路徑算法來了解導致用戶流失的常見路徑。解決這類問題不能僅靠預測算法,而需要能夠根據事件構建時間線的算法。
同樣,解決許多其他問題也需要預測之外的技能。能夠解決預測性問題是很強大的,但作為數據科學家你需要解決多種類型的問題?,F實情況中有更多類型的問題需要解決,因此你不能僅局限于Kaggle,還需要用其他技能解決現實的數據科學挑戰。
2.無法提高圖算法方面的技能
社交網絡分析、影響預測、社區分析、欺詐網絡分析等,這些有趣的分析問題都是數據科學家需要解決。解決這類問題需要有關圖形算法的知識,如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。
網絡或社區類型問題在Kaggle中很少見。解決圖形和網絡方面問題需要節點和鏈接相關數據,而Kaggle中大多數數據并不是這種形式的。
當然,你可以將問題轉換為使用圖算法,但這種情況很少。Kaggle上缺少這類的比賽,這也表明了于數據科學家日常需要解決問題的巨大差距。
3.無法提高算法可解釋性
算法的可解釋性越來越重要。你可以使用高大上的方法和最復雜的算法,但如果無法解釋算法是怎樣得到預測的,在企業中這將是一個大問題。這種說不清緣由的算法被稱為“黑匣子”算法。
使用黑盒算法存在一定的隱患,而且也可能造成法律方面的問題。假設,你開發了一種非常精確的算法集合來預測信用風險。在投入生產時,它將用于預測信貸風險。其中有些人的信用得分會很低,被拒絕貸款的人有權知道他們申請被拒的原因。如果算法無法提供解釋,則可能會產生法律問題。
在Kaggle比賽中,獲勝者是基于準確性,而不是基于可解釋性。這意味著比賽中數據科學家可以使用復雜的算法來保證高準確性,而不必關心可解釋性。這種方法能夠贏得比賽,但在企業的數據科學項目中就行不通了。
4.缺少投資回報率的分析環節
公司正在加大數據科學技能方面的投入。他們希望數據科學項目能夠提供投資回報率。通常,成功的分析項目需要數據科學算法與投資回報率緊密相關。
其中一個例子是預測性維護,其中能夠對設備故障進行預測。假設設備的故障率為10%,那么你需要派維護人員去進行檢查嗎?可能并不需要。但如果故障率為95%,那是肯定需要的。
然而在實際情況中,故障率通常為55%,63%等,這時就不確定了。如果公司派維護人員檢查所有這些設備,則可能產生巨大的成本。如果不派人檢查,則會有很大的設備故障風險。
那么故障率的閾值應該是多少呢?這時就需要計算投資回報率了。因此非常需要數據科學家給出當中的閾值,從而幫助公司確定相關決策。
Kaggle并不涉及這方面的分析,而只專注預測,并不考慮如何把數據科學結果應用于投資回報率。
5.不會涉及到模擬和優化問題
關于模擬和優化算法,比如系統動態仿真、基于代理模擬或蒙特卡羅模擬等應該是所有數據科學家的必備技能。金融優化、路線優化、定價等許多問題都是數據科學家需要解決的問題。
以價格預測為例,你可以使用機器學習,根據季節、日期、地點、競爭對手價格等數據來預測產品價格。但機器學習算法預測的價格是否是最優價格?也許不是。為了確定最優價格,你首先要確定優化目標。
優化目標可以設為利潤優化。在這種情況下,你需要確定提供最佳利潤的價格范圍。為了留住用戶,這樣的價格不能設太高。同時,為了保持良好的利潤率,也不應該太低。
因此,你需要通過優化算法來確定最佳價格范圍。如果預測價格在價格范圍內,那么機器學習的結果是可以接受的,否則應被拒絕。
在Kaggle上,通常不會給出利潤優化等優化目標。因此,當中涉及的問題仍然局限于機器學習,而并沒有探索優化方面的問題。
6.無法體驗模型部署和操作
假設你的模型在Kaggle排行榜位居前列。然而部署模型是完全另外一回事,這是在Kaggle上無法體驗的。
生產部署模型會涉及到docker、kubernetes等技術。雖然數據科學家并不需要成為docker和kubernetes方面的專家,但至少要能夠熟練使用。很多情況下,數據科學家需要用docker創建評分管道。
操作和部署還包括定期監控模型性能,并在必要時采取改進措施。假設有一個產品推薦模型。你在某個時間點觀察到,由于推薦而導致銷售額下降。那么問題是出在模型上嗎?還是其他方面呢?
數據科學家需要參與到模型部署環節,從而獲得獲得真實而豐富的體驗。
結語
數據科學家需要涉及算法可解釋性、投資回報率評估、優化等技能。在這一系列問題中,你將解決各種有趣的現實問題,從而更全面的提高數據科學相關技能。
對于數據科學家而言,不要僅局限于Kaggle,而是要從其他角度解決不同類型的數據科學問題。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25