
CDA數據分析師 出品
作者:王真達
CDA LEVEL II 持證人
編輯:Mika
掃描二維碼
觀看完整分享視頻
大家好,今天跟大家帶來一個分享,主題是關于我如何從文科生轉行為數據挖掘工程師的。
主要內容分成以下三塊:
首先看到第一部分的內容,也就是我的轉行歷程。
我高中那會兒讀的是文科,大學期間學習了社會學專業。在本科期間,我也接觸過一些統計學的知識,線性代數等知識也學過,但當時對這些學科將來的用途并不是很清楚。
參加工作后,最初我從事產品運營的相關工作。在工作過程中,我接觸到了數據分析相關的內容。當時我感覺自己工作內容比較雜,也沒有拿得出來的技能。
我認為數據分析很有前景,無論是文科生還是理科生都可以學,學起來也比較有趣,內容不枯燥,所以我漸漸開始學習數據分析。
這里我列了幾個對我比較關鍵的節點,這些對我未來的工作有了較大的影響。
首先就是學數據挖掘,用的是SPSS Modeler。比較容易上手,入門也比較簡單。SPSS Modeler雖然很好用,但其實很多時候不能滿足數據清洗的一些需求,也有一些劣勢,比如算法更新很慢,只有比較常規的算法,如果想用比較先進的算法,還是開源的軟件提供的比較多。
之后我學習了Python,比較容易上手,語法也比較簡潔。通過大量練習掌握了爬蟲、數據清洗、數據可視化等技能點。Python基本能滿足日常工作的需求。
第三個節點是我學習了SQL和統計知識。SQL本身基礎的知識不是特別復雜,然后主要靠練習,包括統計的一些知識,這也是我在之后的工作中不斷學習的。
目前我目前從事的是數據挖掘的相關工作,接下來講一下工作中所需要的一些技能。
這部分可以分為硬技能和軟技能。
硬技能
硬技能這里我分為理論基礎、算法能力、分析工具和通用工具。下面具體來看一看。理論基礎中統計知識是不可或缺的。后面的概率論、線性代數、微積分其實是跟偏算法相關。
算法方面主要需要一些機器學習跟深度學習的算法。比如分類、回歸、聚類等一些比較基礎的算法。
不同于算法工程師對算法的要求會比較高,像偏業務的數據挖掘的崗位,對算法的要求沒那么高。你能夠做到理解算法的基本原理跟應用場景,能夠應用工具去實現它,能夠解讀算法最后的結果,也就差不多了,對數學的要求也并不太高。
關于深度學習,現在數據挖掘等算法崗也相對內卷,如果你不會也不了解深度學習就有點說不過去了,這方面可以了解一下。還需要掌握一些工具庫,現在深度學習的工具庫比較多,也有一些比較簡便的工具庫能協助實現相關的功能。
然后看到分析工具。其實目前主要用的也就是SQL跟Python,主要是看你公司的數據量,如果數據量不是很大的話,基礎的一些SQL知識就夠了,可能關系數據庫就可以了,包括在單機里面,去運行Python也可以的;但是如果公司的數據量特別大的話,比如我目前是在Hadoop的平臺做一些數據分析跟數據挖掘。如果本身的數據量就比較大,可能會用到Hive數據倉庫等。
再看到建模工具,目前其實主流是Python,還有集成了Pyspark,這是用得比較多的。然后建模的話,考慮到數據量Python在80%的情況上都是夠用的。
關于通用工具,Excel跟PPT都是比較基礎的。下面這個Shell是開發工具,很多時候會涉及到一些開發的工作,比如說標簽表的開發,然后就會用到Shell結合ETL自動化平臺,調用需要的腳本進行自動化的運行。就相當于是每天它會自動的跑一些腳本,而不需要去手工或者是在單機操作,這些都是在平臺上面自動完成的。
軟技能
軟技能這塊簡單看一下,包括像業務的理解,比如你進入任何一個行業,你前幾個月會多花時間了解該行業的業務表,業務涉及的一些內容,核心的盈利業務是哪些。還有一些通用的能力,比如溝通、匯報能力等,因為你經常會需要將模型和分析報告講給別人聽,因此這些能力也是十分重要的。還有學習能力。數據行業的迭代比較快,需要有持續學習的能力。
下面來講一個電信產品的項目案例,在此之前讓看一下目前會涉及到的主要模型。
這邊將用戶生命周期劃分為這樣幾塊:第一、新用戶獲取階段;第二、入網期;第三、成長期;第四、成熟期;第五、衰退期。
在不同的時期會有不同的模型。當然要根據具體的業務,就不同行業可能它的業務不一樣,但是用戶生命周期都是類似的。都需要獲取用戶,用戶在平臺上成長,包括會有成熟到衰退的生命周期,會有一個曲線。比如在新用戶獲取這邊,會有很多像家庭圈模型等類型。
下面介紹一下入網期中天翼看家這個模型。它是一個看家的智能設備,一般在農村比較多,安裝在家里,在外務工的人群就可以通過它看到家里老人和小孩的情況。
還有一類是滿意度的模型。這邊核心關注就是三塊,第一塊是像這種開源的營銷模型。第二塊是用于節流的,減少損失的離網模型。第三種是提升用戶滿意度的模型。
電信產品辦理預測模型
整體模型的建置分為以下4個步驟,第一個步驟是數據的準備;第二個步驟是模型的構建;第三個是預測感知,也就是模型預測;第四個是結果應用。
首先第一點是基于產品營銷模型,也就是基于客戶的一些產品數據,還有行為數據、消費數據等維度,從而去構造樣本空間。
樣本空間包括特征空間,樣本空間就是正負樣本。正樣本就是已經辦理,比如說11月已經辦理的用戶作為正樣本,同時這個月沒有辦理的用戶都可以作為負樣本。接著進行抽樣,構造樣本空間。
特征工程也就是特征構造,基于客戶的一些基本屬性信息,還有套餐信息,包括產品訂購的信息,包括消費信息。其實還有很多其他維度的信息,比如說瀏覽內容、訪問軌跡、位置信息等都可以考慮進來。
構造產品預測模型可分為這樣幾塊。將數據分割成訓練集,測試集跟驗證集。測試集本身應該是在下一步構造的,指的是沒有用戶的標簽,需要預測其將來的標簽,給每個用戶打標簽。
在訓練集里劃分成訓練集跟測試集,訓練集用于訓練模型,驗證集用于修正模型。
接著看到數據探索,這部分會進行一些統計分析,還有每個變量跟目標變量之間的關系,這些都都需要做一些探索。模型的話,當時是用了幾種集成模型做建置,進行模型間對比,最后輸出模型的重要特征。
然后第三步對用戶辦理預測。對未辦理的用戶拿過來,輸入剛才訓練的模型,預測出其對產品營銷的辦理可能會響應的概率。最后輸出的就是用戶是否會辦理的產品,以及辦理的產品的預測概率值。從而根據預測概率值,劃定閾值。比如說想營銷響應概率在40%以上的用戶,這時就可以將這些用戶篩選出來,然后最后生成關聯標簽,交給營銷平臺,做營銷派單,之后做一些短信或電話觸達。最后可以針對轉化進行跟蹤,以上就是該項目的整體流程。
下面分步驟講一下模型的情況。首先是模型的背景,目前已辦理天翼看家用戶的規模,建置模型的預期等目標。
樣本選擇方面,已辦理的作為正樣本,接觸過沒辦理的作為負樣本,這里正負樣本有些不均衡。針對這種樣本不均衡的數據,可以采用采樣的技術。
下面是關于取數的問題。取數會有一個時間窗口的問題,在這邊會分成訓練數據跟測試數據,假設預測變量y是10月到11月,訓練數據的x就要往前取。這里是要看用戶過去的行為,可能會對將來產生什么影響。所以訓練特征要往前取,比如看用戶在7到10月的通話行為。
下面是關于模型特征的一些構建。
這邊是分了很多,比如技術信息、家庭結構、消費行為、行為偏好、地域特點等因素。
建模過程方面,也是一些常規的流程。比如數據清洗中,錯誤值的填充,錯誤值的處理。離群值可以使用蓋帽法進行處理,對于套餐價值量可以進行離群值的處理。然后空值的填補,比如說像分類變量連續性變量,可以用一些統計方法或模型方法來做。
數據編碼這塊,對于連續性變量可以去做一些分箱,在字段分箱之后,看一下對目標變量是否有一些顯著的影響。建模調參方面,對模型參數進行調整,選擇最佳模型。
接著我們看到模型評估。
模型評估會輸出混淆矩陣,行是實際值,實際有沒有辦理,列可能是預測值,預測它有沒有辦理。營銷比較關注的是命中率,也就是說預測差不多有8000多個人會辦理這個產品,但實際上辦理了多少,這里實際辦理有6000多,所以命中率是68%。預測得準不準非常重要。
之后會跟蹤營銷活動的轉化率。
預測用戶可能是比較高概率的用戶,在將來的一段時間可能是一到兩個月,預測家裝的用戶中的加裝比例,也就是營銷活動的轉化的情況。
再看到地域特點部分。
比如說農村用戶家裝的是33萬,城市用戶家裝是9萬多。這里看到百分比,農村占比70%,其實是遠遠超過城市的。在城市這個群體中,家裝概率是2.58%,然后在農村這個群體中,它加裝的概率是9.82%??梢钥吹?,如果營銷農村這個區域,響應概率來說相對會比較高。
以上就是我分享的內容了,希望對大家能有所幫助。
更多考試介紹及備考福利請點擊:CDA 認證考試中心官網
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25