熱線電話：13121318867

登錄

首頁學生感言作為文科生，我是如何轉行數據挖掘工程師的 | CDA持證人分享

作為文科生，我是如何轉行數據挖掘工程師的 | CDA持證人分享

2024-08-13

收藏

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

CDA數據分析師出品

作者：王真達

CDA LEVEL II 持證人

編輯：Mika

掃描二維碼

觀看完整分享視頻

大家好，今天跟大家帶來一個分享，主題是關于我如何從文科生轉行為數據挖掘工程師的。

主要內容分成以下三塊：

第一部分講一下我作為文科生轉行數據挖掘的歷程；
第二部分是關于目前從事數據挖掘，主要針對商業數據挖掘所需要掌握的一些技能；
第三部分講一下我之前做的一個產品，關于電信產品營銷的模型建置整體的流程。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

01、文科生轉行數據挖掘工程師的歷程

首先看到第一部分的內容，也就是我的轉行歷程。

我高中那會兒讀的是文科，大學期間學習了社會學專業。在本科期間，我也接觸過一些統計學的知識，線性代數等知識也學過，但當時對這些學科將來的用途并不是很清楚。

參加工作后，最初我從事產品運營的相關工作。在工作過程中，我接觸到了數據分析相關的內容。當時我感覺自己工作內容比較雜，也沒有拿得出來的技能。

我認為數據分析很有前景，無論是文科生還是理科生都可以學，學起來也比較有趣，內容不枯燥，所以我漸漸開始學習數據分析。

這里我列了幾個對我比較關鍵的節點，這些對我未來的工作有了較大的影響。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

首先就是學數據挖掘，用的是SPSS Modeler。比較容易上手，入門也比較簡單。SPSS Modeler雖然很好用，但其實很多時候不能滿足數據清洗的一些需求，也有一些劣勢，比如算法更新很慢，只有比較常規的算法，如果想用比較先進的算法，還是開源的軟件提供的比較多。

之后我學習了Python，比較容易上手，語法也比較簡潔。通過大量練習掌握了爬蟲、數據清洗、數據可視化等技能點。Python基本能滿足日常工作的需求。

第三個節點是我學習了SQL和統計知識。SQL本身基礎的知識不是特別復雜，然后主要靠練習，包括統計的一些知識，這也是我在之后的工作中不斷學習的。

02、從事數據挖掘技能需求

目前我目前從事的是數據挖掘的相關工作，接下來講一下工作中所需要的一些技能。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

這部分可以分為硬技能和軟技能。

硬技能

硬技能這里我分為理論基礎、算法能力、分析工具和通用工具。下面具體來看一看。理論基礎中統計知識是不可或缺的。后面的概率論、線性代數、微積分其實是跟偏算法相關。

算法方面主要需要一些機器學習跟深度學習的算法。比如分類、回歸、聚類等一些比較基礎的算法。

不同于算法工程師對算法的要求會比較高，像偏業務的數據挖掘的崗位，對算法的要求沒那么高。你能夠做到理解算法的基本原理跟應用場景，能夠應用工具去實現它，能夠解讀算法最后的結果，也就差不多了，對數學的要求也并不太高。

關于深度學習，現在數據挖掘等算法崗也相對內卷，如果你不會也不了解深度學習就有點說不過去了，這方面可以了解一下。還需要掌握一些工具庫，現在深度學習的工具庫比較多，也有一些比較簡便的工具庫能協助實現相關的功能。

然后看到分析工具。其實目前主要用的也就是SQL跟Python，主要是看你公司的數據量，如果數據量不是很大的話，基礎的一些SQL知識就夠了，可能關系數據庫就可以了，包括在單機里面，去運行Python也可以的；但是如果公司的數據量特別大的話，比如我目前是在Hadoop的平臺做一些數據分析跟數據挖掘。如果本身的數據量就比較大，可能會用到Hive 數據倉庫等。

再看到建模工具，目前其實主流是Python，還有集成了Pyspark，這是用得比較多的。然后建模的話，考慮到數據量Python在80%的情況上都是夠用的。

關于通用工具，Excel跟PPT都是比較基礎的。下面這個Shell是開發工具，很多時候會涉及到一些開發的工作，比如說標簽表的開發，然后就會用到Shell結合ETL自動化平臺，調用需要的腳本進行自動化的運行。就相當于是每天它會自動的跑一些腳本，而不需要去手工或者是在單機操作，這些都是在平臺上面自動完成的。

軟技能

軟技能這塊簡單看一下，包括像業務的理解，比如你進入任何一個行業，你前幾個月會多花時間了解該行業的業務表，業務涉及的一些內容，核心的盈利業務是哪些。還有一些通用的能力，比如溝通、匯報能力等，因為你經常會需要將模型和分析報告講給別人聽，因此這些能力也是十分重要的。還有學習能力。數據行業的迭代比較快，需要有持續學習的能力。

03、項目實操流程-電信產品案例分享

下面來講一個電信產品的項目案例，在此之前讓看一下目前會涉及到的主要模型。

這邊將用戶生命周期劃分為這樣幾塊：第一、新用戶獲取階段；第二、入網期；第三、成長期；第四、成熟期；第五、衰退期。

在不同的時期會有不同的模型。當然要根據具體的業務，就不同行業可能它的業務不一樣，但是用戶生命周期都是類似的。都需要獲取用戶，用戶在平臺上成長，包括會有成熟到衰退的生命周期，會有一個曲線。比如在新用戶獲取這邊，會有很多像家庭圈模型等類型。

下面介紹一下入網期中天翼看家這個模型。它是一個看家的智能設備，一般在農村比較多，安裝在家里，在外務工的人群就可以通過它看到家里老人和小孩的情況。

還有一類是滿意度的模型。這邊核心關注就是三塊，第一塊是像這種開源的營銷模型。第二塊是用于節流的，減少損失的離網模型。第三種是提升用戶滿意度的模型。

電信產品辦理預測模型

整體模型的建置分為以下4個步驟，第一個步驟是數據的準備；第二個步驟是模型的構建；第三個是預測感知，也就是模型預測；第四個是結果應用。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

首先第一點是基于產品營銷模型，也就是基于客戶的一些產品數據，還有行為數據、消費數據等維度，從而去構造樣本空間。

樣本空間包括特征空間，樣本空間就是正負樣本。正樣本就是已經辦理，比如說11月已經辦理的用戶作為正樣本，同時這個月沒有辦理的用戶都可以作為負樣本。接著進行抽樣，構造樣本空間。

特征工程也就是特征構造，基于客戶的一些基本屬性信息，還有套餐信息，包括產品訂購的信息，包括消費信息。其實還有很多其他維度的信息，比如說瀏覽內容、訪問軌跡、位置信息等都可以考慮進來。

構造產品預測模型可分為這樣幾塊。將數據分割成訓練集，測試集跟驗證集。測試集本身應該是在下一步構造的，指的是沒有用戶的標簽，需要預測其將來的標簽，給每個用戶打標簽。

在訓練集里劃分成訓練集跟測試集，訓練集用于訓練模型，驗證集用于修正模型。

接著看到數據探索，這部分會進行一些統計分析，還有每個變量跟目標變量之間的關系，這些都都需要做一些探索。模型的話，當時是用了幾種集成模型做建置，進行模型間對比，最后輸出模型的重要特征。

然后第三步對用戶辦理預測。對未辦理的用戶拿過來，輸入剛才訓練的模型，預測出其對產品營銷的辦理可能會響應的概率。最后輸出的就是用戶是否會辦理的產品，以及辦理的產品的預測概率值。從而根據預測概率值，劃定閾值。比如說想營銷響應概率在40%以上的用戶，這時就可以將這些用戶篩選出來，然后最后生成關聯標簽，交給營銷平臺，做營銷派單，之后做一些短信或電話觸達。最后可以針對轉化進行跟蹤，以上就是該項目的整體流程。

下面分步驟講一下模型的情況。首先是模型的背景，目前已辦理天翼看家用戶的規模，建置模型的預期等目標。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

樣本選擇方面，已辦理的作為正樣本，接觸過沒辦理的作為負樣本，這里正負樣本有些不均衡。針對這種樣本不均衡的數據，可以采用采樣的技術。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

下面是關于取數的問題。取數會有一個時間窗口的問題，在這邊會分成訓練數據跟測試數據，假設預測變量y是10月到11月，訓練數據的x就要往前取。這里是要看用戶過去的行為，可能會對將來產生什么影響。所以訓練特征要往前取，比如看用戶在7到10月的通話行為。

下面是關于模型特征的一些構建。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

這邊是分了很多，比如技術信息、家庭結構、消費行為、行為偏好、地域特點等因素。

建模過程方面，也是一些常規的流程。比如數據清洗中，錯誤值的填充，錯誤值的處理。離群值可以使用蓋帽法進行處理，對于套餐價值量可以進行離群值的處理。然后空值的填補，比如說像分類變量連續性變量，可以用一些統計方法或模型方法來做。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

數據編碼這塊，對于連續性變量可以去做一些分箱，在字段分箱之后，看一下對目標變量是否有一些顯著的影響。建模調參方面，對模型參數進行調整，選擇最佳模型。

接著我們看到模型評估。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

模型評估會輸出混淆矩陣，行是實際值，實際有沒有辦理，列可能是預測值，預測它有沒有辦理。營銷比較關注的是命中率，也就是說預測差不多有8000多個人會辦理這個產品，但實際上辦理了多少，這里實際辦理有6000多，所以命中率是68%。預測得準不準非常重要。

之后會跟蹤營銷活動的轉化率。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

預測用戶可能是比較高概率的用戶，在將來的一段時間可能是一到兩個月，預測家裝的用戶中的加裝比例，也就是營銷活動的轉化的情況。

再看到地域特點部分。

作為文科生，我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

比如說農村用戶家裝的是33萬，城市用戶家裝是9萬多。這里看到百分比，農村占比70%，其實是遠遠超過城市的。在城市這個群體中，家裝概率是2.58%，然后在農村這個群體中，它加裝的概率是9.82%?？梢钥吹?，如果營銷農村這個區域，響應概率來說相對會比較高。

以上就是我分享的內容了，希望對大家能有所幫助。

更多考試介紹及備考福利請點擊：CDA 認證考試中心官網

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數據挖掘特征數據分析 SQL 深度學習數據清洗模型評估聚類

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇面試數據分析崗，怎么做到有備無患？（CDA學員案例分析）

下一篇三十歲跨行跳槽數據分析工作，我是如何做到的？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊