
數據分析行業薪資的秘密,你想知道的都在這里(二)
第二部分:職位信息清洗及數據提取
數據分析師的收入怎么樣?哪些因素對于數據分析的薪資影響最大?哪些行業對數據分析人才的需求量最高?我想跳槽,應該選擇大公司大平臺還是初創的小公司?按我目前的教育程度,工作經驗,和掌握的工具和技能,能獲得什么樣水平的薪資呢?
我們使用python抓取了2017年6月26日拉鉤網站內搜索“數據分析”關鍵詞下的450條職位信息。通過對這些職位信息的分析和建模來給你答案。
本系列文章共分為五個部分,分別是數據分析職位信息抓取,數據清洗及預處理,數據分析職位分布分析,數據分析薪資影響因素分析,以及數據建模和薪資預測。這是第二篇:職位信息清洗及數據提取。
第二篇文章是對獲取的數據進行清洗,預處理和特征提取。在第一篇文章中我們抓取了拉勾網的450條職位信息及職位描述。但這些信息無法直接用于數據分析,我們需要對抓取到的信息進行清洗,規范現有數據的格式,提取信息中的數據及特征,為后續的數據分析和建模做準備。下面開始介紹苦逼的
數據清洗流程介紹。
數據清洗前的準備工作
首先是開始前的準備工作,導入所需要的庫文件,包括常用的numpy和pandas庫用于計算平均薪資以及對字符進行分列等操作,正則表達式re庫用于字符的查找和替換操作,結巴分詞庫jieba用于對職位描述進行分詞操作,自然語言處理nltk庫用于計算職位描述的文字豐富度指標,還有KMeans用于對平均
薪資進行聚類操作。
導入我們之前抓取并保存的數據表,并查看數據表的維度以及各字段名稱。后面我們會經常使用這些字段名稱。
職位信息清洗及預處理
開始對職位信息的各個字段進行清洗和預處理,主要清洗的內容包括文本信息提取和處理,內容搜索和替換,字段內的空格處理,數值信息提取和計算,英文字母統一大小寫等等。我們將先展示清洗前的原始字段,然后在展示清洗后的新字段內容。
行業字段清洗及處理
第一個清洗的字段是行業字段,抓取到的行業字段比較混亂,有些只有一個行業名稱,有些則有兩級的行業名稱。我們保留行業字段第一部分的信息,對有兩部分行業名稱的字段取前一個。
由于行業名稱之間有的以頓號分割,有的以逗號分割,我們先將所有的分隔符統一為逗號,然后對這個字段進行分列。并將分列后的字段重新拼接回原數據表中。
以下是清洗后的行業字段。
融資階段字段清洗及處理
第二個清洗的字段是融資階段字段,抓取下來的原始信息中對融資階段進行了雙重標識,例如成長型(A輪)。由于第一個標識”成長型”定義比較寬泛,我們提取第二個括號中的標識。
首先建立一個字典,將數據表中融資階段的每一條信息與字典中的Key進行查找。如果融資階段信息中包含字典中的任何一個key,我們就把這個key對應的value記錄下來。
職位名稱字段清洗及處理
第三個清洗的字段是職位名稱,這里我們要提取職位里的title信息。沒有title信息的都統一歸為其他。具體方法是將每個職位名稱與現有的title列表逐一判斷,如果職位名稱中含有title關鍵字就被劃分到這個類別下。否則被歸為其他類。
薪資范圍字段清洗及處理
第四個清洗的字段是薪資范圍。抓取到的數據中薪資范圍是一個區間值,比較分散,無法直接使用。我們對薪資范圍進行清洗,去掉無關的信息并只保留薪資上限和下限兩個數字,然后使用這兩個數字計算出平均薪資值。
職位信息中的數據提取
在職位描述字段中,包含了非常詳細和豐富的信息。比如數據分析人才的能力要求和對各種數據分析工具的掌握程度等。我們對這個字段的一些特征進行指標化,對有價值的信息進行提取和統計。
職位描述字段中的數據提取
第五個清洗的字段是職位描述,準確的說從職位描述字段中提取信息。職位描述中包含了大量關于職位信息,工作內容,和個人能力方面的信息,非常有價值。但無法直接拿來使用。需要進行信息提取。我們將對職位描述字段進行三方面的信息提取。
第一是提取職位描述中對于個人能力的要求,換句話說就是數據分析人員使用工具的能力。我們整理了10個最常見的數據分析工具。來看下每個職位描述中都出行了哪些工具名稱。由于一些工具間存在可替代性,所以每個職位描述中可能會出現多個工具的名稱。沒出現一個工具名稱,我們就會在相應的工具下表示1,如果沒有出現則標識為0。
職位描述所使用的字數統計
第二是計算職位描述所使用的字數,我們猜測初級簡單的工作描述會比較簡單,而高級復雜的工作描述則會更復雜一些。因此職位描述中不同的字數里也可能隱藏著某種信息或關聯。
職位描述的詞匯豐富度統計
第三是計算職位描述中的文字豐富度指標。和前面的字數統計一樣。初級職位所對應的工作會相對簡單,在描述上也會比較簡單。高級職位則可能需要更詳細的和負責的描述。因此文字豐富度指標上也會更高一些。
對數據分析的薪資進行聚類
完成清洗和數據提取后,平均薪資已經比薪資范圍要具體的多了,但仍然比較離散。我們對這些平均薪資進行聚類來支持后面的建模和預測工作。以下是具體的代碼和聚類結果。我們將類別標簽添加到原始數據表中。
聚類后平均薪資被分為三個類別,第1類是薪資均值為19.3K的區間,分類標記為0。第二類是薪資均值為8.2K的區間,分類標記為1,。第三類是薪資均值為32.1的區間,分類標記為3。
查看清洗及處理后的數據表
到這里我們完成了對450個職位信息的字段清洗和數據提取工作。下面我們再來查看下數據表的維度,名稱以及數據表中的數據。在下一篇文章中我們將使用這個數據表對數據分析職位的分布情況以及薪資的影響因素進行分析,并通過建模對薪資收入進行預測。
本篇文章我們對抓取到的職位信息進行了清洗和數據提取。數據清洗是一個苦逼的工作,但卻是分析和建模過程中必不可少的一個步驟。經過清洗后我們就可以對職位數據進行分析和建模了,后面的文章中我們將從職位需求分布和薪資影響因素兩個方面進行分析,并在最后對數據分析行業的薪資進行建模,對薪資分類和具體的薪資值進行預測。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25