熱線(xiàn)電話(huà):13121318867

登錄
首頁(yè)學(xué)生感言作為文科生,我是如何轉行數據挖掘工程師的 | CDA持證人分享
作為文科生,我是如何轉行數據挖掘工程師的 | CDA持證人分享
2024-08-13
收藏



作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

CDA數據分析師 出品

作者:王真達

CDA LEVEL II 持證人

編輯:Mika

掃描二維碼

觀(guān)看完整分享視頻


大家好,今天跟大家帶來(lái)一個(gè)分享,主題是關(guān)于我如何從文科生轉行為數據挖掘工程師的。

主要內容分成以下三塊:

  • 第一部分講一下我作為文科生轉行數據挖掘的歷程;
  • 第二部分是關(guān)于目前從事數據挖掘彼城,主要針對商業(yè)數據挖掘所需要掌握的一些技能奈辰;
  • 第三部分講一下我之前做的一個(gè)產(chǎn)品,關(guān)于電信產(chǎn)品營(yíng)銷(xiāo)的模型建置整體的流程。
作為文科生亮曹,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

01、文科生轉行數據挖掘工程師的歷程

首先看到第一部分的內容,也就是我的轉行歷程。

我高中那會(huì )兒讀的是文科,大學(xué)期間學(xué)習了社會(huì )學(xué)專(zhuān)業(yè)。在本科期間,我也接觸過(guò)一些統計學(xué)的知識,線(xiàn)性代數等知識也學(xué)過(guò),但當時(shí)對這些學(xué)科將來(lái)的用途并不是很清楚装屈。

參加工作后,最初我從事產(chǎn)品運營(yíng)的相關(guān)工作。在工作過(guò)程中,我接觸到了數據分析相關(guān)的內容。當時(shí)我感覺(jué)自己工作內容比較雜,也沒(méi)有拿得出來(lái)的技能隔富。

我認為數據分析很有前景间坐,無(wú)論是文科生還是理科生都可以學(xué)酱慧,學(xué)起來(lái)也比較有趣沫反,內容不枯燥婉趟,所以我漸漸開(kāi)始學(xué)習數據分析。

這里我列了幾個(gè)對我比較關(guān)鍵的節點(diǎn),這些對我未來(lái)的工作有了較大的影響。

作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

首先就是學(xué)數據挖掘俱尼,用的是SPSS Modeler叮贩。比較容易上手孟盅,入門(mén)也比較簡(jiǎn)單液南。SPSS Modeler雖然很好用赔桌,但其實(shí)很多時(shí)候不能滿(mǎn)足數據清洗的一些需求,也有一些劣勢薪缆,比如算法更新很慢,只有比較常規的算法,如果想用比較先進(jìn)的算法,還是開(kāi)源的軟件提供的比較多。

之后我學(xué)習了Python,比較容易上手,語(yǔ)法也比較簡(jiǎn)潔。通過(guò)大量練習掌握了爬蟲(chóng)祖癣、數據清洗數據可視化等技能點(diǎn)。Python基本能滿(mǎn)足日常工作的需求。

第三個(gè)節點(diǎn)是我學(xué)習了SQL和統計知識。SQL本身基礎的知識不是特別復雜,然后主要靠練習蝌悉,包括統計的一些知識陡文,這也是我在之后的工作中不斷學(xué)習的普乔。

02、從事數據挖掘技能需求

目前我目前從事的是數據挖掘的相關(guān)工作,接下來(lái)講一下工作中所需要的一些技能落萎。

作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

這部分可以分為硬技能和軟技能枪芒。

硬技能

硬技能這里我分為理論基礎绣洼、算法能力、分析工具和通用工具颇乎。下面具體來(lái)看一看歪今。理論基礎中統計知識是不可或缺的。后面的概率論、線(xiàn)性代數婴洼、微積分其實(shí)是跟偏算法相關(guān)惋砂。

算法方面主要需要一些機器學(xué)習深度學(xué)習的算法磅轻。比如分類(lèi)、回歸间其、聚類(lèi)等一些比較基礎的算法。

不同于算法工程師對算法的要求會(huì )比較高,像偏業(yè)務(wù)的數據挖掘的崗位,對算法的要求沒(méi)那么高肌鼎。你能夠做到理解算法的基本原理跟應用場(chǎng)景区岗,能夠應用工具去實(shí)現它,能夠解讀算法最后的結果伐歇,也就差不多了,對數學(xué)的要求也并不太高探赫。

關(guān)于深度學(xué)習,現在數據挖掘等算法崗也相對內卷,如果你不會(huì )也不了解深度學(xué)習就有點(diǎn)說(shuō)不過(guò)去了,這方面可以了解一下屿竹。還需要掌握一些工具庫,現在深度學(xué)習的工具庫比較多,也有一些比較簡(jiǎn)便的工具庫能協(xié)助實(shí)現相關(guān)的功能掘盗。

然后看到分析工具。其實(shí)目前主要用的也就是SQL跟Python诀艰,主要是看你公司的數據量,如果數據量不是很大的話(huà)屯仗,基礎的一些SQL知識就夠了奄础,可能關(guān)系數據庫就可以了,包括在單機里面,去運行Python也可以的拙饲;但是如果公司的數據量特別大的話(huà),比如我目前是在Hadoop的平臺做一些數據分析跟數據挖掘规脸。如果本身的數據量就比較大,可能會(huì )用到Hive數據倉庫等。

再看到建模工具,目前其實(shí)主流是Python置赔,還有集成了Pyspark揖帕,這是用得比較多的晓拖。然后建模的話(huà),考慮到數據量Python在80%的情況上都是夠用的。

關(guān)于通用工具,Excel跟PPT都是比較基礎的。下面這個(gè)Shell是開(kāi)發(fā)工具龟虎,很多時(shí)候會(huì )涉及到一些開(kāi)發(fā)的工作,比如說(shuō)標簽表的開(kāi)發(fā)正驻,然后就會(huì )用到Shell結合ETL自動(dòng)化平臺作儿,調用需要的腳本進(jìn)行自動(dòng)化的運行。就相當于是每天它會(huì )自動(dòng)的跑一些腳本,而不需要去手工或者是在單機操作,這些都是在平臺上面自動(dòng)完成的。

軟技能

軟技能這塊簡(jiǎn)單看一下,包括像業(yè)務(wù)的理解,比如你進(jìn)入任何一個(gè)行業(yè),你前幾個(gè)月會(huì )多花時(shí)間了解該行業(yè)的業(yè)務(wù)表,業(yè)務(wù)涉及的一些內容,核心的盈利業(yè)務(wù)是哪些。還有一些通用的能力,比如溝通、匯報能力等艰躺,因為你經(jīng)常會(huì )需要將模型和分析報告講給別人聽(tīng),因此這些能力也是十分重要的柔些。還有學(xué)習能力。數據行業(yè)的迭代比較快,需要有持續學(xué)習的能力。

03、項目實(shí)操流程-電信產(chǎn)品案例分享

下面來(lái)講一個(gè)電信產(chǎn)品的項目案例阁簸,在此之前讓看一下目前會(huì )涉及到的主要模型。

這邊將用戶(hù)生命周期劃分為這樣幾塊:第一、新用戶(hù)獲取階段;第二海蔽、入網(wǎng)期;第三、成長(cháng)期;第四氛改、成熟期;第五、衰退期。

在不同的時(shí)期會(huì )有不同的模型。當然要根據具體的業(yè)務(wù)子历,就不同行業(yè)可能它的業(yè)務(wù)不一樣,但是用戶(hù)生命周期都是類(lèi)似的。都需要獲取用戶(hù)姑子,用戶(hù)在平臺上成長(cháng),包括會(huì )有成熟到衰退的生命周期,會(huì )有一個(gè)曲線(xiàn)栈顷。比如在新用戶(hù)獲取這邊,會(huì )有很多像家庭圈模型等類(lèi)型。

下面介紹一下入網(wǎng)期中天翼看家這個(gè)模型。它是一個(gè)看家的智能設備,一般在農村比較多棕痢,安裝在家里,在外務(wù)工的人群就可以通過(guò)它看到家里老人和小孩的情況。

還有一類(lèi)是滿(mǎn)意度的模型。這邊核心關(guān)注就是三塊,第一塊是像這種開(kāi)源的營(yíng)銷(xiāo)模型。第二塊是用于節流的,減少損失的離網(wǎng)模型吨争。第三種是提升用戶(hù)滿(mǎn)意度的模型炉攀。

電信產(chǎn)品辦理預測模型

整體模型的建置分為以下4個(gè)步驟,第一個(gè)步驟是數據的準備;第二個(gè)步驟是模型的構建;第三個(gè)是預測感知穴墅,也就是模型預測;第四個(gè)是結果應用。

作為文科生夯尽,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

首先第一點(diǎn)是基于產(chǎn)品營(yíng)銷(xiāo)模型,也就是基于客戶(hù)的一些產(chǎn)品數據,還有行為數據斤杏、消費數據等維度,從而去構造樣本空間。

樣本空間包括特征空間,樣本空間就是正負樣本故碱。正樣本就是已經(jīng)辦理,比如說(shuō)11月已經(jīng)辦理的用戶(hù)作為正樣本执峰,同時(shí)這個(gè)月沒(méi)有辦理的用戶(hù)都可以作為負樣本摄乒。接著(zhù)進(jìn)行抽樣,構造樣本空間。

特征工程也就是特征構造柳刮,基于客戶(hù)的一些基本屬性信息弯减,還有套餐信息,包括產(chǎn)品訂購的信息,包括消費信息究恤。其實(shí)還有很多其他維度的信息淹摧,比如說(shuō)瀏覽內容、訪(fǎng)問(wèn)軌跡、位置信息等都可以考慮進(jìn)來(lái)倔剩。

構造產(chǎn)品預測模型可分為這樣幾塊。將數據分割成訓練集,測試集跟驗證集。測試集本身應該是在下一步構造的,指的是沒(méi)有用戶(hù)的標簽,需要預測其將來(lái)的標簽,給每個(gè)用戶(hù)打標簽。

在訓練集里劃分成訓練集跟測試集,訓練集用于訓練模型,驗證集用于修正模型。

接著(zhù)看到數據探索,這部分會(huì )進(jìn)行一些統計分析,還有每個(gè)變量跟目標變量之間的關(guān)系,這些都都需要做一些探索。模型的話(huà)抛猫,當時(shí)是用了幾種集成模型做建置辨迷,進(jìn)行模型間對比,最后輸出模型的重要特征

然后第三步對用戶(hù)辦理預測。對未辦理的用戶(hù)拿過(guò)來(lái),輸入剛才訓練的模型,預測出其對產(chǎn)品營(yíng)銷(xiāo)的辦理可能會(huì )響應的概率免绿。最后輸出的就是用戶(hù)是否會(huì )辦理的產(chǎn)品张峰,以及辦理的產(chǎn)品的預測概率值。從而根據預測概率值,劃定閾值。比如說(shuō)想營(yíng)銷(xiāo)響應概率在40%以上的用戶(hù),這時(shí)就可以將這些用戶(hù)篩選出來(lái),然后最后生成關(guān)聯(lián)標簽,交給營(yíng)銷(xiāo)平臺薪尉,做營(yíng)銷(xiāo)派單,之后做一些短信或電話(huà)觸達。最后可以針對轉化進(jìn)行跟蹤,以上就是該項目的整體流程。

下面分步驟講一下模型的情況嗽从。首先是模型的背景,目前已辦理天翼看家用戶(hù)的規模,建置模型的預期等目標。

作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

樣本選擇方面,已辦理的作為正樣本,接觸過(guò)沒(méi)辦理的作為負樣本,這里正負樣本有些不均衡。針對這種樣本不均衡的數據,可以采用采樣的技術(shù)。

作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

下面是關(guān)于取數的問(wèn)題乒槽。取數會(huì )有一個(gè)時(shí)間窗口的問(wèn)題汪汰,在這邊會(huì )分成訓練數據跟測試數據矿奄,假設預測變量y是10月到11月,訓練數據的x就要往前取褒额。這里是要看用戶(hù)過(guò)去的行為,可能會(huì )對將來(lái)產(chǎn)生什么影響。所以訓練特征要往前取,比如看用戶(hù)在7到10月的通話(huà)行為穿桃。

下面是關(guān)于模型特征的一些構建。

作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

這邊是分了很多,比如技術(shù)信息、家庭結構、消費行為苇蜡、行為偏好、地域特點(diǎn)等因素毅肮。

建模過(guò)程方面叙甸,也是一些常規的流程恕等。比如數據清洗中,錯誤值的填充玻喧,錯誤值的處理。離群值可以使用蓋帽法進(jìn)行處理津菩,對于套餐價(jià)值量可以進(jìn)行離群值的處理。然后空值的填補你雌,比如說(shuō)像分類(lèi)變量連續性變量,可以用一些統計方法或模型方法來(lái)做碉克。

作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

數據編碼這塊,對于連續性變量可以去做一些分箱,在字段分箱之后,看一下對目標變量是否有一些顯著(zhù)的影響。建模調參方面,對模型參數進(jìn)行調整镜朋,選擇最佳模型。

接著(zhù)我們看到模型評估

作為文科生纱注,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

模型評估會(huì )輸出混淆矩陣,行是實(shí)際值,實(shí)際有沒(méi)有辦理,列可能是預測值,預測它有沒(méi)有辦理。營(yíng)銷(xiāo)比較關(guān)注的是命中率,也就是說(shuō)預測差不多有8000多個(gè)人會(huì )辦理這個(gè)產(chǎn)品,但實(shí)際上辦理了多少,這里實(shí)際辦理有6000多毡湖,所以命中率是68%斥蓉。預測得準不準非常重要输涕。

之后會(huì )跟蹤營(yíng)銷(xiāo)活動(dòng)的轉化率。

作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

預測用戶(hù)可能是比較高概率的用戶(hù),在將來(lái)的一段時(shí)間可能是一到兩個(gè)月,預測家裝的用戶(hù)中的加裝比例高喊,也就是營(yíng)銷(xiāo)活動(dòng)的轉化的情況雳纱。

再看到地域特點(diǎn)部分。

作為文科生,我是如何轉行<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>工程師的 | CDA持證人分享

比如說(shuō)農村用戶(hù)家裝的是33萬(wàn),城市用戶(hù)家裝是9萬(wàn)多榜隐。這里看到百分比毅人,農村占比70%,其實(shí)是遠遠超過(guò)城市的婿着。在城市這個(gè)群體中,家裝概率是2.58%乞蛆,然后在農村這個(gè)群體中住练,它加裝的概率是9.82%》鹕耄可以看到,如果營(yíng)銷(xiāo)農村這個(gè)區域,響應概率來(lái)說(shuō)相對會(huì )比較高讥企。

以上就是我分享的內容了,希望對大家能有所幫助。



更多考試介紹及備考福利請點(diǎn)擊:CDA 認證考試中心官網(wǎng)



數據分析咨詢(xún)請掃描二維碼

最新資訊
更多
客服在線(xiàn)
立即咨詢(xún)