
許多“如何將科學數據化”的課程和文章,包括我自己的課程和文章,都傾向于強調統計學、數學和編程等基本技能。然而,最近,我通過自己的經歷注意到,這些基本技能很難轉化為實際技能,從而使你能夠就業。
因此,我想創建一個唯一列表,其中包含實用技能,這些技能將使您具有工作能力。
我談到的前四項技能對任何數據科學家來說都是絕對關鍵的,無論你是什么專業的。以下技能(5-11)都是重要的技能,但用法會因你的專業而異。
例如,如果你最有統計基礎,你可能會花更多的時間在推斷統計上。相反,如果你對文本分析更感興趣,你可能會花更多的時間學習NLP,或者如果你對決策科學感興趣,你可能會專注于解釋性建模。你明白重點了。
說到這里,讓我們深入研究一下我認為最實用的11項數據科學技能:
學習如何編寫健壯的SQL查詢,并在像Airflow這樣的工作流管理平臺上調度它們,將使您成為一名數據科學家,這是第1點的原因。
為什么?原因有很多:
因此,作為數據科學家,您必須是SQL方面的專家。沒有例外。
資源
無論您是在構建模型、探索要構建的新特性,還是在進行深度挖掘,您都需要知道如何處理數據。
數據爭論意味著將數據從一種格式轉換為另一種格式。
特征工程是數據爭論的一種形式,但具體指從原始數據中提取特征。
如何操作數據并不重要,不管是使用Python還是SQL,但您應該能夠隨心所欲地操作數據(當然,在可能的參數范圍內)。
資源
當我說“版本控制”時,我特別指的是GitHub和Git。Git是世界上使用的主要版本控制系統,GitHub本質上是一個基于云的文件和文件夾存儲庫。
雖然Git不是一開始學習的最直觀的技能,但對于幾乎每一個與編碼相關的角色來說,了解它是必不可少的。為什么?
花時間學習GIT。它會帶你走很遠的!
建造一個視覺上令人驚嘆的儀表板或一個精確度超過95%的復雜模型是一回事。但是如果你不能把你的項目的價值傳達給其他人,你就不會得到你應得的認可,最終,你的職業生涯就不會像你應該做的那樣成功。
講故事指的是你“如何”交流你的見解和模型。從概念上來說,如果你想一本圖畫書,洞察力/模型就是圖畫,而“講故事”指的是連接所有圖畫的敘述。
在科技界,講故事和交流是被嚴重低估的技能。從我職業生涯中所見,這種技能是大三學生與大四學生和經理人之間的區別。
構建回歸和分類模型(即預測模型)并不是你總是要做的事情,但如果你是一名數據科學家,雇主會希望你知道這一點。
即使這不是你經常做的事情,也是你必須擅長的事情,因為你希望能夠構建高性能的模型。在我的職業生涯中,到目前為止,我只生產了兩個機器學習模型,但它們都是對業務產生重大影響的關鍵任務模型。
因此,您應該很好地理解數據準備技術、增強算法、超參數調優和模型評估度量。
資源
許多機器學習算法在很長一段時間內被認為是“黑箱”,因為不清楚這些模型是如何基于各自的輸入得出預測的。這種情況現在正在改變,因為廣泛采用了可解釋的機器學習技術,如SHAP和Lime。
SHAP和LIME是兩種技術,它們不僅告訴您每個特征的特征重要性,還告訴您對模型輸出的影響,類似于線性回歸方程中的系數。
使用SHAP和LIME,您可以創建解釋性模型,也可以更好地交流預測模型背后的邏輯。
資源
a/B測試是一種實驗形式,您可以比較兩個不同的組,根據給定的指標,看看哪個組表現更好。
A/B測試可以說是企業界最實用、應用最廣泛的統計概念。為什么?A/B測試允許您將100s或1000s的小改進組合在一起,從而隨著時間的推移產生重大的變化和改進。
如果您對數據科學的統計方面感興趣,A/B測試對于理解和學習是必不可少的。
資源
就我個人而言,我在職業生涯中沒有使用過集群,但它是數據科學的核心領域,每個人至少都應該熟悉。
集群是有用的,原因有很多。您可以找到不同的客戶細分,您可以使用聚類來標記未標記的數據,您甚至可以使用聚類來為模型找到截止點。
下面是一些參考資料,介紹了您應該了解的最重要的集群技術。
資源
雖然我一生中還沒有構建過推薦系統,但它是數據科學中最實際的應用之一。推薦系統之所以如此強大,是因為它們有能力推動收入和利潤。事實上,亞馬遜聲稱在2019年,由于他們的推薦系統,他們的銷售額提高了29%。
因此,如果您曾經在一家公司工作,其中的用戶必須做出選擇,并且有許多選項可供選擇,推薦系統可能是一個有用的應用程序。
NLP,或自然語言處理,是人工智能的一個分支,專注于文本和語音。與機器學習不同,我認為NLP還遠未成熟,這正是它如此有趣的原因。
NLP有很多用例…
總的來說,NLP是數據科學世界中一個非常有趣和有用的利基領域。
資源
最近,數據科學家采用了度量開發的職責,因為表面度量依賴于1)數據來計算度量和2)代碼來計算和輸出度量。
度量開發涉及幾個方面:
我希望這有助于指導你的學習,并給你一些未來一年的方向。有很多東西要學,所以我肯定會選擇幾個聽起來對你來說最有趣的技能,然后從那里開始。
請記住,這更多的是一篇由軼事經驗支持的固執己見的文章,所以從這篇文章中獲取你想要的東西。但我一如既往地祝你在學習上取得最好的成績!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25