
數據分析師:避免低質量數據的5個方法
數據科學家的最怕的是低質量的數據。因為哪怕你發明出世界上最聰明的算法,這些算法碰到低質量數據便毫無用處。正如我們常說的,“垃圾數據入,垃圾數據出”。
我最近在為一個大型的石油天然氣公司工作。為 提升煉油廠的安全性,我協助他們采用一個更加基于風險的檢驗策略。為了能夠最好地運用這種策略,我們需要把風險完全量化。我們想使用歷史檢驗數據來確定需 要更多關注的高風險區域。但是因為人們對于現有的歷史數據并沒有信心,這個方法便行不通。這是一個數據從業者經常面對的挑戰。為了讓你的數據科學良好地運 作,你需要有一些避免低質量數據的方法。
1.清潔數據源
一個清潔的數據源是非常重要的。一個本來就相對干凈的房子,清理起來會比較輕松。數據清理也是一個道理。
在石油天然氣客戶那里,我發現了許多數據采集 的問題。比如說,在數據庫中,你可能發現2015年管道厚度的讀數比2012年的讀數大。雖然我不是一個物理學家,但是我相當肯定管道厚度不會隨著時間而 增長。當初當我們看到一個如此可疑的數據,我們并沒有從根本上做出一個原因的分析。但是這的確是值得詳細調查的。這就是我所說的從源頭清理數據。相對于其 他的數據清理方法,我偏愛清潔數據源這種方法。因為它的清潔效果是任何其他方法的10倍。
2.建立標準答案
在你能夠認定什么是高質量數據前,你必須知道高數據質量是什么樣子。雖然在一些案例中,這是不可能的。譬如說在管道測量這個例子中,就不可能確切知道三年之后管會道薄多少。這也正是你測量它的原因。但在一些案例中,你可以知道高質量的數據是什么樣子的。
你最好有一個標準答案。特別當你在用統計學的方法確定數據質量時候,一個簡單的單一樣本T檢驗,就可以告訴你數據的質量如何。
當你在利用公司Email服務器進行員工情緒的數據挖掘時,你的算法應該排除所有進入服務器的垃圾郵件。在這種情況下,垃圾郵件十分明顯,所以你也能夠很明顯地看出哪些是非垃圾郵件,而這就是標準答案的作用。
3.謹記完整性規則
完整性規則是清理數據的必須條件
我曾經在一間大型的技術公司工作,公司主要業 務是構建政府交易的客戶注冊表。這些客戶注冊表是4到5個數據源的客戶主數據。為集成每一個數據源,我們會見了產品的擁有者,詢問了他們關于數據的 ACD(增加、修改、刪除)屬性情況。然后,我們在它們的數據表中建立ACD審計日志去觀察實際上發生了什么事情 。結果,在幾乎所有的案例中,總有一些不應該刪除的數據從表中被刪除,并且總有數據被插入到本應是靜態的表中。
考慮數據沒有損壞時,你的數據中運用的邏輯法則,然后建立審計腳本,在有違背規則情況發生的時候,你可以得到及時的通知。例如,如果有一個外鍵指向一個不存在的主鍵,你就可以及時發現這個問題。
4.采用專家系統
如果不涉及定量的風險評策略不能讓石油天然氣 的客戶滿意,我們會和專家們商量,看我們是否可以重復他們在分析數據前進行數據清洗的過程。這是一個專家系統,它是一個基于規則的復制,復制一個人類專家 如何去介定好的數據質量。一個專家系統可以良好地運作,只要如下條件:1)你有真正的專家(提示:檢查他們的結果并且忽略他們的職位)。2)他們可以清楚 地解釋他們所做的一切。3)他們所做的可以轉換為明確的規則。
理論都是背后內容的簡化,所以需要小心,你的專家可能很難向你解釋他們所做的事。正如同向一個小學生解釋如何開車,并不是那么容易的事。
5.在你的兵工廠中加上機器學習能力這個工具
使用機器學習能力去清理你將會用作機器學習的 數據,聽起來有點繞。但它確實可行。你要設立兩種系統:一個用于清理,而另一個用于分析。你需要確保它們的解決方案空間獨立,因為這是兩個不相同的問題。 教會計算機學習清潔數據是什么樣的,這個方法是完全可行的,特別是當你有標準答案的時候。
只依靠計算機,利用它的機器學習能力去清洗輸 入數據并不能讓我安心。因為哪怕是在機器學習能力如此發達的今天,你都永遠不能完全了解清洗算法究竟能在多大程度上發揮作用。就好像亞馬遜的機器,它的確 很好,但它推薦給我的電影卻不合我心意。然而,即使如此,在你的兵工廠中儲存上這種工具依舊是有利無害的。
小結:
我講述了五個方法用來確保你不會因為垃圾數據破壞你的數據科學努力。一些戰術可以馬上使用,一些需要時間去開發。
你應該認真對待只輸入高質量的數據到你的數據算法這一原則。否則,你很快會看到你的數據科學團隊將被質量問題所困擾。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25