
作者:Roll
本文為「心中有數」CDA征文作品
小學時,
老師經常問:“你長大以后想當什么?”
我說,我想當一名科學家。
工作后,
領導經常問:“你的職業規劃是什么?”
我說,我想做一名數據科學家。
一直以來,我在思索著什么是數據科學家?
直到 CDA 給了我標準,數據科學家是同時具備研究數據本質的科學知識和應用數據科學的領域知識,從數據中獲取信息并能解決問題的專家。
在 CDA LEVELⅢ 人才標準中,數據科學家具體指負責企業級商業數據科研項目的高端人才,能利用數據來改進產品、推動業務,并進行整體架構的大數據治理與項目管理,帶領團隊在該商業領域進行前瞻性研究和戰略布局。
從業近10年,我從事過定量分析、數據分析、數據挖掘、算法研究等崗位,做過項目,帶過團隊,考過很多證書,在行業期刊發過論文,也參加過很多數據建模競賽,一直在朝著數據科學家的路上努力拼搏。
有時候想寫些經驗總結,提筆卻不知從何寫起。剛好近期收到CDA“心中有數”的征文通知,我決定以“數據科學家成長之路”為題總結過去10年工作學習的歷程,記錄下努力奮斗的時光,與數據同仁們共勉,同時也以此為起點,繼續我的數據科學家修煉之路。
數據科學家的成長之路是在披荊斬棘中砥礪前行,一筆筆的公式推導、一行行的算法代碼、一點點的業務積累,一個個的項目實踐,匯聚成了數據人的職業素養,成就數據人的價值所在。
我的第一份工作是在上海一家咨詢公司從事數據分析師,這一階段我使用DB2、MySQL、Shell、VBA、SAS、Spss等工具,做過ETL、報表設計、數據集市、數據建模等工作。項目上我負責過人民銀行征信中心征信報告異常查詢監測數據挖掘子項目,用K-Means聚類、決策樹、時間序列分析ARIMA等識別出機構及用戶的異常查詢行為;負責過某城商行銀行信用卡信用評分模型,使用Logistic預測客戶違約概率;參與過某股份制銀行信用卡存量客戶經營、商城產品個性化推薦、集團客戶交叉銷售等項目,用到了Apriori、C5.0、KNN、Adaboost等算法,同時在平安銀行信用卡、人行征信中心做過SAS Base培訓。
隨著互聯網公司崛起,大數據技術、機器學習算法等在項目實踐中取得很好應用效果,數據工作者迎來新的發展機遇。大多數的數據從業人員都希望能夠進入互聯網公司,發揮自己的一技之長,當然我也不例外。2015年,在眾多OFFER中,我選擇了互聯網金融公司作為我的第二份工作,開始“玩轉大數據”。
期間,我參與了公司大數據中心的籌建,負責過精準營銷團隊、算法建模團隊。在R盛行的時候,我開始自學R語言編程, 多次參加R語言會議,與R語言大佬們討論最前沿的算法及應用場景。然而在實際工作過程中R語言安裝很多依賴包,且內存管理、運行速度和效率等缺點突出。
因此從2016年開始我逐步轉向使用Python和Spark,使用Scikit-learn、Tensorflow等算法框架構建機器學習模型,使用Hive、Hbase等大數據工具處理TB級數據量。我承擔公司標簽體系構建、客戶分層模型、反欺詐模型、精準營銷模型、消費信貸產品信用評分模型等項目,也做過數據寬表、數據架構、營銷活動效果分析、隨機立減算法設計、年度賬單數據開發、書寫分析報告及匯報材料等工作。
在掌握大數據技術、建模工具之后,到了2017年我想尋求穩定,在特定行業內深耕細作,勵志成為行業內的數據科學家。在獲得京東金融、百融、阿里、銀行等多個OFFER,因為家庭原因我選擇回到家鄉工作,在一家城商行從事信用卡數據建模工作,當前已參與信用卡A、B、C評分卡構建,以及客戶標簽體系建設、信用卡資產估值等工作。
在學校實驗室里和實際工作中做數據建模項目還是有所不同的,學校里主要是練習算法以及如何調參,工作中業務理解、特征工程顯得更為重要。在數據挖掘業內,經常聽到有人說“Garbage in, Garbage out(垃圾進,垃圾出)”,用不好或不對的數據去做分析,會產生糟糕或是無用的結論。也就是說,數據和特征決定了模型的上限,而算法只是逼近這個上限而已。
對于即將入坑或已入坑的數據分析師,最重要的是找準定位。
我比較認同CDA的數據人才認證體系,從LEVEL Ⅰ到LEVEL Ⅲ必備技能、知識點以及定位都比較接地氣。當然除了掌握必備的技能外,還要熟悉業務知識以及學習做事的方法,在項目中不斷鍛煉自己提升自己。機會總是留給有準備的人,只有掌握技能、理解業務,同時具備解決問題的思維方法,才能獨立承擔數據挖掘及數據分析項目。正是由于堅持不斷地學習,我才能在短時間內獨立負責項目,同時還要感謝領導們對我的幫助。
為了鼓勵員工持證上崗或者提升技能,許多單位都有證書獎勵,尤其是銀行等金融機構。在行內征求證書獎勵意見時,我成功將CDA證書推薦進獎勵范圍,推薦理由是在數字化轉型過程中,數字化人才梯隊建設是首要任務,而CDA證書等級體系完美的詮釋了如何去培養數字化人才隊伍。
從2017年開始,我陸續考取了銀行、證券、基金、期貨等金融從業證書,通過考試獲評統計師、中級經濟師職稱,同時考取工信部高級數據分析師、Python技術應用工程師(高級)、大數據技術應用工程師(高級)、人工智能應用工程師(高級)等證書,在2019年CDA第十一屆認證考試中我通過客觀題和項目案例答辯,正式成為CDA LEVEL Ⅲ數據科學家持證人,次年12月通過FRM一級,目前正在積極備戰FRM二級。
得益于之前的項目經驗和知識積累,我僅僅花了1個月時間復習就通過上機考試。結合我多次考證經歷,現將備考經驗總結如下。
首先是緊扣考綱,抓住重點。根據考試范圍準備備考書籍、視頻課、模擬題等材料,搜集前輩們的備考經驗,以便制定計劃。認真研讀考綱,在有限時間內對于考綱要求的要掌握,考綱不要求可以選擇放棄。
從2020年開始CDA的考綱有所變化,LEVEL Ⅲ新考綱變得相對容易,也更聚焦數據挖掘和機器學習,因此要緊扣考綱,重點學習數據挖掘技術、數據處理與特征處理、自然語言處理、機器學習算法等內容,吃透書中內容。
其次是制定計劃,有序復習。
可以將備考分為三個階段:
一是基礎階段,將書中知識通讀、消化,大綱中的每一部分形成腦圖,便于自己系統掌握,這一階段可以嘗試做些練習題,鞏固知識點。
二是強化階段,進行專題突破,針對第一階段沒有掌握的重要知識點重點學習,同時重做第一階段的錯題以及弄清楚解題思路。
三是沖刺復習,查缺補漏,根據考綱形成整體的思維腦圖,覆蓋所有考點。
最后是調整心態,積極備考。要以平常心積極應對考試,這一階段可以嘗試模擬考試時間練習??碱}。
我參加的是CDA第十一屆考試,考試時間為2019年12月29日。因為我和我愛人都沒有去過武漢,因而將考點選擇武漢,考完后先登黃鶴樓、再游戶部巷、吃完熱干面、又食武昌魚,雄偉的長江大橋、美麗的武漢大學、人流熙攘的江漢路步行街,穿梭在武漢的大街小巷,享受著武漢的特色美景。很不幸的是考完后過了2周就是武漢疫情爆發期,而我幸運的逃過一劫,相信疫情以后的武漢會越來越好,有機會我將攜家人再去武漢一游。
接著說說我的項目案例經歷,在通過第一階段考試后,CDA老師會發一封郵件,附件里有項目案例要求和數據以及答辯的注意事項等。在拿到案例后,我認真研讀了項目說明、項目分析要求和評估方式等。我的案例題目是假新聞預測模型的建置及預測,由于對假新聞識別問題比較陌生,在做項目案例過程中我瀏覽大量的國內外相關的文本挖掘前沿論文,歸納出案例的解決方法。
項目過程中70%時間花在特征工程上,包括特征使用方案、特征獲取方案、特征處理方案和特征監控方案,具體框架見下圖。
最終建立貝葉斯、BP神經網絡、SVM、隨機森林、XGBoost的分類模型,同時以詞嵌入作為特征,建立CNN、LSTM、RNN等深度學習算法預測模型。
機器學習模型
深度學習模型
我的項目答辯老師是李御璽老師,李御璽老師和藹認真,認真聽完了我的答辯,給予了細致耐心的評價,希望我在文本特征構造多做工作,比如可以從作者偏好、情感分析、實體分析(人名、地名、組織等)、政治敏感等視角分析,增加模型預測精準度。
在完成項目案例過程中可以說受益頗多,整個項目我花了差不多20天的時間,閱讀了30多篇文章,寫了2000多行Python代碼,用了兩臺電腦去做文本特征提取,項目案例用到了機器學習、深度學習和文本挖掘多種算法。通過這次項目案例實戰,我學到了很多前言的算法,尤其是文本特征提取的方法,同時對機器學習、深度學習和文本挖掘有了全面深入的認識。
順應全球信息化的發展趨勢,我國開啟“數字中國”戰略。在此戰略背景下,各行各業已經進入數字化轉型的角逐期,未來的社會需要更多復合型的技術人才,尤其是對大數據科學家的需求將激增。
身為銀行人,在數字化轉型戰略下,數據從業者大有可為,未來我將繼續在信用卡行業,推進數據科學在營銷、風控、產品、管理、服務、合作等方面的應用落地,致力于成為信用卡行業的數據科學家。
身為數據人,堅持初心與使命,今天取得的成績并不是終點,而是攀登更高峰的起點。面對未來的機遇與挑戰,一方面努力工作,一方面堅持學習,盡管我已經取得CDA LEVEL Ⅲ 數據科學家證書,但是我深知要成為真正的數據科學家還有很長的路要走。
未來可期,未完待續……
作者簡介
Roll,統計學碩士,統計師職稱,CDA LEVEL Ⅲ數據科學家持證人
在數據分析行業深耕十年有余,現為某城商行數據建模高級經理。同時為工信部高級數據分析師、PythonSASR語言高級編程師。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24