CDA數據分析師 出品
作者:王真達
CDA LEVEL II 持證人
編輯:Mika
掃描二維碼
觀(guān)看完整分享視頻
大家好,今天跟大家帶來(lái)一個(gè)分享,主題是關(guān)于我如何從文科生轉行為數據挖掘工程師的。
主要內容分成以下三塊:
首先看到第一部分的內容,也就是我的轉行歷程。
我高中那會(huì )兒讀的是文科,大學(xué)期間學(xué)習了社會(huì )學(xué)專(zhuān)業(yè)。在本科期間,我也接觸過(guò)一些統計學(xué)的知識,線(xiàn)性代數等知識也學(xué)過(guò),但當時(shí)對這些學(xué)科將來(lái)的用途并不是很清楚装屈。
參加工作后,最初我從事產(chǎn)品運營(yíng)的相關(guān)工作。在工作過(guò)程中,我接觸到了數據分析相關(guān)的內容。當時(shí)我感覺(jué)自己工作內容比較雜,也沒(méi)有拿得出來(lái)的技能隔富。
我認為數據分析很有前景间坐,無(wú)論是文科生還是理科生都可以學(xué)酱慧,學(xué)起來(lái)也比較有趣沫反,內容不枯燥婉趟,所以我漸漸開(kāi)始學(xué)習數據分析。
這里我列了幾個(gè)對我比較關(guān)鍵的節點(diǎn),這些對我未來(lái)的工作有了較大的影響。
首先就是學(xué)數據挖掘俱尼,用的是SPSS Modeler叮贩。比較容易上手孟盅,入門(mén)也比較簡(jiǎn)單液南。SPSS Modeler雖然很好用赔桌,但其實(shí)很多時(shí)候不能滿(mǎn)足數據清洗的一些需求,也有一些劣勢薪缆,比如算法更新很慢,只有比較常規的算法,如果想用比較先進(jìn)的算法,還是開(kāi)源的軟件提供的比較多。
之后我學(xué)習了Python,比較容易上手,語(yǔ)法也比較簡(jiǎn)潔。通過(guò)大量練習掌握了爬蟲(chóng)祖癣、數據清洗、數據可視化等技能點(diǎn)。Python基本能滿(mǎn)足日常工作的需求。
第三個(gè)節點(diǎn)是我學(xué)習了SQL和統計知識。SQL本身基礎的知識不是特別復雜,然后主要靠練習蝌悉,包括統計的一些知識陡文,這也是我在之后的工作中不斷學(xué)習的普乔。
目前我目前從事的是數據挖掘的相關(guān)工作,接下來(lái)講一下工作中所需要的一些技能落萎。
這部分可以分為硬技能和軟技能枪芒。
硬技能
硬技能這里我分為理論基礎绣洼、算法能力、分析工具和通用工具颇乎。下面具體來(lái)看一看歪今。理論基礎中統計知識是不可或缺的。后面的概率論、線(xiàn)性代數婴洼、微積分其實(shí)是跟偏算法相關(guān)惋砂。
算法方面主要需要一些機器學(xué)習跟深度學(xué)習的算法磅轻。比如分類(lèi)、回歸间其、聚類(lèi)等一些比較基礎的算法。
不同于算法工程師對算法的要求會(huì )比較高,像偏業(yè)務(wù)的數據挖掘的崗位,對算法的要求沒(méi)那么高肌鼎。你能夠做到理解算法的基本原理跟應用場(chǎng)景区岗,能夠應用工具去實(shí)現它,能夠解讀算法最后的結果伐歇,也就差不多了,對數學(xué)的要求也并不太高探赫。
關(guān)于深度學(xué)習,現在數據挖掘等算法崗也相對內卷,如果你不會(huì )也不了解深度學(xué)習就有點(diǎn)說(shuō)不過(guò)去了,這方面可以了解一下屿竹。還需要掌握一些工具庫,現在深度學(xué)習的工具庫比較多,也有一些比較簡(jiǎn)便的工具庫能協(xié)助實(shí)現相關(guān)的功能掘盗。
然后看到分析工具。其實(shí)目前主要用的也就是SQL跟Python诀艰,主要是看你公司的數據量,如果數據量不是很大的話(huà)屯仗,基礎的一些SQL知識就夠了奄础,可能關(guān)系數據庫就可以了,包括在單機里面,去運行Python也可以的拙饲;但是如果公司的數據量特別大的話(huà),比如我目前是在Hadoop的平臺做一些數據分析跟數據挖掘规脸。如果本身的數據量就比較大,可能會(huì )用到Hive數據倉庫等。
再看到建模工具,目前其實(shí)主流是Python置赔,還有集成了Pyspark揖帕,這是用得比較多的晓拖。然后建模的話(huà),考慮到數據量Python在80%的情況上都是夠用的。
關(guān)于通用工具,Excel跟PPT都是比較基礎的。下面這個(gè)Shell是開(kāi)發(fā)工具龟虎,很多時(shí)候會(huì )涉及到一些開(kāi)發(fā)的工作,比如說(shuō)標簽表的開(kāi)發(fā)正驻,然后就會(huì )用到Shell結合ETL自動(dòng)化平臺作儿,調用需要的腳本進(jìn)行自動(dòng)化的運行。就相當于是每天它會(huì )自動(dòng)的跑一些腳本,而不需要去手工或者是在單機操作,這些都是在平臺上面自動(dòng)完成的。
軟技能
軟技能這塊簡(jiǎn)單看一下,包括像業(yè)務(wù)的理解,比如你進(jìn)入任何一個(gè)行業(yè),你前幾個(gè)月會(huì )多花時(shí)間了解該行業(yè)的業(yè)務(wù)表,業(yè)務(wù)涉及的一些內容,核心的盈利業(yè)務(wù)是哪些。還有一些通用的能力,比如溝通、匯報能力等艰躺,因為你經(jīng)常會(huì )需要將模型和分析報告講給別人聽(tīng),因此這些能力也是十分重要的柔些。還有學(xué)習能力。數據行業(yè)的迭代比較快,需要有持續學(xué)習的能力。
下面來(lái)講一個(gè)電信產(chǎn)品的項目案例阁簸,在此之前讓看一下目前會(huì )涉及到的主要模型。
這邊將用戶(hù)生命周期劃分為這樣幾塊:第一、新用戶(hù)獲取階段;第二海蔽、入網(wǎng)期;第三、成長(cháng)期;第四氛改、成熟期;第五、衰退期。
在不同的時(shí)期會(huì )有不同的模型。當然要根據具體的業(yè)務(wù)子历,就不同行業(yè)可能它的業(yè)務(wù)不一樣,但是用戶(hù)生命周期都是類(lèi)似的。都需要獲取用戶(hù)姑子,用戶(hù)在平臺上成長(cháng),包括會(huì )有成熟到衰退的生命周期,會(huì )有一個(gè)曲線(xiàn)栈顷。比如在新用戶(hù)獲取這邊,會(huì )有很多像家庭圈模型等類(lèi)型。
下面介紹一下入網(wǎng)期中天翼看家這個(gè)模型。它是一個(gè)看家的智能設備,一般在農村比較多棕痢,安裝在家里,在外務(wù)工的人群就可以通過(guò)它看到家里老人和小孩的情況。
還有一類(lèi)是滿(mǎn)意度的模型。這邊核心關(guān)注就是三塊,第一塊是像這種開(kāi)源的營(yíng)銷(xiāo)模型。第二塊是用于節流的,減少損失的離網(wǎng)模型吨争。第三種是提升用戶(hù)滿(mǎn)意度的模型炉攀。
電信產(chǎn)品辦理預測模型
整體模型的建置分為以下4個(gè)步驟,第一個(gè)步驟是數據的準備;第二個(gè)步驟是模型的構建;第三個(gè)是預測感知穴墅,也就是模型預測;第四個(gè)是結果應用。
首先第一點(diǎn)是基于產(chǎn)品營(yíng)銷(xiāo)模型,也就是基于客戶(hù)的一些產(chǎn)品數據,還有行為數據斤杏、消費數據等維度,從而去構造樣本空間。
樣本空間包括特征空間,樣本空間就是正負樣本故碱。正樣本就是已經(jīng)辦理,比如說(shuō)11月已經(jīng)辦理的用戶(hù)作為正樣本执峰,同時(shí)這個(gè)月沒(méi)有辦理的用戶(hù)都可以作為負樣本摄乒。接著(zhù)進(jìn)行抽樣,構造樣本空間。
特征工程也就是特征構造柳刮,基于客戶(hù)的一些基本屬性信息弯减,還有套餐信息,包括產(chǎn)品訂購的信息,包括消費信息究恤。其實(shí)還有很多其他維度的信息淹摧,比如說(shuō)瀏覽內容、訪(fǎng)問(wèn)軌跡、位置信息等都可以考慮進(jìn)來(lái)倔剩。
構造產(chǎn)品預測模型可分為這樣幾塊。將數據分割成訓練集,測試集跟驗證集。測試集本身應該是在下一步構造的,指的是沒(méi)有用戶(hù)的標簽,需要預測其將來(lái)的標簽,給每個(gè)用戶(hù)打標簽。
在訓練集里劃分成訓練集跟測試集,訓練集用于訓練模型,驗證集用于修正模型。
接著(zhù)看到數據探索,這部分會(huì )進(jìn)行一些統計分析,還有每個(gè)變量跟目標變量之間的關(guān)系,這些都都需要做一些探索。模型的話(huà)抛猫,當時(shí)是用了幾種集成模型做建置辨迷,進(jìn)行模型間對比,最后輸出模型的重要特征。
然后第三步對用戶(hù)辦理預測。對未辦理的用戶(hù)拿過(guò)來(lái),輸入剛才訓練的模型,預測出其對產(chǎn)品營(yíng)銷(xiāo)的辦理可能會(huì )響應的概率免绿。最后輸出的就是用戶(hù)是否會(huì )辦理的產(chǎn)品张峰,以及辦理的產(chǎn)品的預測概率值。從而根據預測概率值,劃定閾值。比如說(shuō)想營(yíng)銷(xiāo)響應概率在40%以上的用戶(hù),這時(shí)就可以將這些用戶(hù)篩選出來(lái),然后最后生成關(guān)聯(lián)標簽,交給營(yíng)銷(xiāo)平臺薪尉,做營(yíng)銷(xiāo)派單,之后做一些短信或電話(huà)觸達。最后可以針對轉化進(jìn)行跟蹤,以上就是該項目的整體流程。
下面分步驟講一下模型的情況嗽从。首先是模型的背景,目前已辦理天翼看家用戶(hù)的規模,建置模型的預期等目標。
樣本選擇方面,已辦理的作為正樣本,接觸過(guò)沒(méi)辦理的作為負樣本,這里正負樣本有些不均衡。針對這種樣本不均衡的數據,可以采用采樣的技術(shù)。
下面是關(guān)于取數的問(wèn)題乒槽。取數會(huì )有一個(gè)時(shí)間窗口的問(wèn)題汪汰,在這邊會(huì )分成訓練數據跟測試數據矿奄,假設預測變量y是10月到11月,訓練數據的x就要往前取褒额。這里是要看用戶(hù)過(guò)去的行為,可能會(huì )對將來(lái)產(chǎn)生什么影響。所以訓練特征要往前取,比如看用戶(hù)在7到10月的通話(huà)行為穿桃。
下面是關(guān)于模型特征的一些構建。
這邊是分了很多,比如技術(shù)信息、家庭結構、消費行為苇蜡、行為偏好、地域特點(diǎn)等因素毅肮。
建模過(guò)程方面叙甸,也是一些常規的流程恕等。比如數據清洗中,錯誤值的填充玻喧,錯誤值的處理。離群值可以使用蓋帽法進(jìn)行處理津菩,對于套餐價(jià)值量可以進(jìn)行離群值的處理。然后空值的填補你雌,比如說(shuō)像分類(lèi)變量連續性變量,可以用一些統計方法或模型方法來(lái)做碉克。
數據編碼這塊,對于連續性變量可以去做一些分箱,在字段分箱之后,看一下對目標變量是否有一些顯著(zhù)的影響。建模調參方面,對模型參數進(jìn)行調整镜朋,選擇最佳模型。
接著(zhù)我們看到模型評估。
模型評估會(huì )輸出混淆矩陣,行是實(shí)際值,實(shí)際有沒(méi)有辦理,列可能是預測值,預測它有沒(méi)有辦理。營(yíng)銷(xiāo)比較關(guān)注的是命中率,也就是說(shuō)預測差不多有8000多個(gè)人會(huì )辦理這個(gè)產(chǎn)品,但實(shí)際上辦理了多少,這里實(shí)際辦理有6000多毡湖,所以命中率是68%斥蓉。預測得準不準非常重要输涕。
之后會(huì )跟蹤營(yíng)銷(xiāo)活動(dòng)的轉化率。
預測用戶(hù)可能是比較高概率的用戶(hù),在將來(lái)的一段時(shí)間可能是一到兩個(gè)月,預測家裝的用戶(hù)中的加裝比例高喊,也就是營(yíng)銷(xiāo)活動(dòng)的轉化的情況雳纱。
再看到地域特點(diǎn)部分。
比如說(shuō)農村用戶(hù)家裝的是33萬(wàn),城市用戶(hù)家裝是9萬(wàn)多榜隐。這里看到百分比毅人,農村占比70%,其實(shí)是遠遠超過(guò)城市的婿着。在城市這個(gè)群體中,家裝概率是2.58%乞蛆,然后在農村這個(gè)群體中住练,它加裝的概率是9.82%》鹕耄可以看到,如果營(yíng)銷(xiāo)農村這個(gè)區域,響應概率來(lái)說(shuō)相對會(huì )比較高讥企。
以上就是我分享的內容了,希望對大家能有所幫助。
更多考試介紹及備考福利請點(diǎn)擊:CDA 認證考試中心官網(wǎng)
數據分析咨詢(xún)請掃描二維碼
掌握數據分析原理并從理論到實(shí)踐全面解析蘸仓,需要系統地學(xué)習和應用多個(gè)領(lǐng)域的知識和技能。以下是詳細的步驟和建議: 1. 建立基礎知 ...
2024-10-12在現代數據分析領(lǐng)域哮当,擁有一個(gè)強大且高效的集成開(kāi)發(fā)環(huán)境(IDE)是至關(guān)重要的。PyCharm,作為一款功能強大的Python IDE赴屿,在數據分 ...
2024-10-12在當今信息化社會(huì )中,數據無(wú)處不在,而數據模型(Data Model)則是理解和管理這些數據的關(guān)鍵工具。數據模型是對現實(shí)世界數據特征 ...
2024-10-121.統計學(xué)簡(jiǎn)介 聽(tīng)說(shuō)你已經(jīng)被統計學(xué)勸退,被Python唬住……先別著(zhù)急劃走,看完這篇再說(shuō)! 先說(shuō)結論果派,大多數情況下的學(xué)不會(huì )都不是知 ...
2024-10-124. 區間估計 還以為你被上節課的內容唬住了~終于等到你,還好沒(méi)放棄! 本節我們將說(shuō)明兩個(gè)問(wèn)題:總體均值 的區間估計和總體比例 ...
2024-10-12大數據分析是當今世界一些最重要行業(yè)進(jìn)步背后的推動(dòng)力,包括醫療、政府和金融等領(lǐng)域。了解更多關(guān)于如何處理大數據以及開(kāi)始時(shí)使用 ...
2024-10-12作者:魚(yú)仔 某中廠(chǎng)老兵|CDA2級持證人|數據踐行者 作為一名數據分析師诈胜,很多人都會(huì )問(wèn),數據分析師究竟是干什么的税弃?這個(gè)職 ...
2024-10-12作者:魚(yú)仔 某中廠(chǎng)老兵|CDA2級持證人|數據踐行者 作為一名數據分析師,你可能會(huì )被朋友或同事問(wèn)到:“數據分析師到底是干 ...
2024-10-12在大數據領(lǐng)域,有幾個(gè)職業(yè)路徑特別值得關(guān)注细疚,因為它們不僅需求量大,而且薪資水平較高,發(fā)展前景廣闊会狡。以下是一些值得關(guān)注的大數 ...
2024-10-12大數據(Big Data)是指數據量巨大、類(lèi)型多樣、處理速度快的數據集合鹰觅。這個(gè)概念通常與數據的四個(gè)主要特征相關(guān),即所謂的“4V”: ...
2024-10-12大數據管理與應用專(zhuān)業(yè)是一個(gè)跨學(xué)科的專(zhuān)業(yè),結合了管理學(xué)、經(jīng)濟學(xué)佩攒、統計學(xué)和計算機科學(xué)等多個(gè)學(xué)科的知識,旨在培養能夠適應大數 ...
2024-10-12大數據分析師教程 大數據分析師教程-Hadoop安裝與HDFS、MapReduce實(shí)驗:集群網(wǎng)絡(luò )配置暑苍、JDK安裝洛续、無(wú)密碼登錄ssh 新建虛擬機集群邏 ...
2024-10-12作為數據分析師從業(yè)者,獲得CDA(Certified Data Analyst)認證可以為你的職業(yè)發(fā)展帶來(lái)多方面的好處: 專(zhuān)業(yè)技能提升:CDA認證涉 ...
2024-10-11CDA認證在多個(gè)行業(yè)和公司中都非常受歡迎,尤其是在需要數據分析和數字化轉型的領(lǐng)域。根據搜索結果蠕祟,以下是一些特別歡迎CDA認證的 ...
2024-10-11獲得CDA認證后,規劃職業(yè)發(fā)展路徑時(shí),可以考慮以下幾個(gè)方向: 技術(shù)深化:繼續深化數據分析技能,學(xué)習Python、R等編程語(yǔ)言,以及 ...
2024-10-11在備考過(guò)程中伐蒋,平衡工作和學(xué)習是非常重要的,以避免過(guò)度疲勞和壓力過(guò)大。以下是一些建議坯淮,可以幫助你更有效地管理時(shí)間和精力: ...
2024-10-11為了制定一個(gè)有效的CDA備考計劃漂彤,你可以遵循以下步驟: 了解考試要求:首先,你需要了解CDA考試的大綱和要求。根據搜索結果味蛹,你 ...
2024-10-11大數據分析師證書(shū) 針對不同知識,掌握程度的要求分為【領(lǐng)會(huì )】瑟让、【熟知】、【應用】三個(gè)級別谁朵,考生應按照不同知識要求進(jìn)行學(xué)習。 ...
2024-10-11數據分析作為一個(gè)跨學(xué)科領(lǐng)域建圆,吸引了來(lái)自不同專(zhuān)業(yè)背景的學(xué)生和從業(yè)者。隨著(zhù)數據在各個(gè)行業(yè)的重要性不斷增加,數據分析專(zhuān)業(yè)的畢業(yè) ...
2024-10-10數據分析在當今的商業(yè)和科學(xué)領(lǐng)域中扮演著(zhù)至關(guān)重要的角色。隨著(zhù)數據量的不斷增長(cháng)音比,Python作為一種強大而靈活的編程語(yǔ)言,已經(jīng)成為 ...
2024-10-10