
大數據分析的道與術:數據分析常犯的6類錯誤
夏天雪糕銷量越好,游泳溺水的事件也越多,是不是雪糕中某種成分對人影響的后果呢?簡單的思考后就會發現,是因為氣溫越高,雪糕銷量會越高,同時溫度越高,去河里游泳的孩子就越多,溺水事件也就越多,雪糕銷量和溺水是關聯關系,而并非因果關系。
上面的例子很簡單,也很容易被識破,但在實際的數據分析中,關聯和因果并不是那么容易區分。再舉一例:
某廣告公司分析人員發現:每月廣告投入越高的用戶,越不容易流失,而廣告投入低的用戶群則很容易流失,從而得出結論:“高投入會降低客戶流失率,建議銷售引導客戶提高首月廣告投入,從而降低新客流失率”。而實際情況是,新客戶初期的投入常常都比較少,看廣告有了效果之后,才會逐步擴大廣告投放預算,投入高的客戶流失率低是因為認可廣告投放效果,而不是因為花的錢多。
關聯性很容易判斷,如何判斷是否是因果關系呢?因果符合下面的特征:
1.兩個事件是關聯的,就是說總是同時出現
2.原因在前,結果在后
3.原因消除的話,結果也消除
因果關系需要設計相對嚴謹的對照來證明,更多的時候需要靠經驗來判斷,這時候更注意要謹慎下結論。
2. 不匹配的比較例:美國與西班牙戰爭爆發后,不少美國人不愿意參軍,坦誠是因為怕死,針對這種情況,美國軍方做了一份統計報告來勸說大家參軍:“可靠數據統計,美國海軍的死亡率是 0.9%,而同期紐約市民的死亡率是 1.6%”,潛臺詞非常明顯,如果懼怕死亡更應該參軍,因為在軍營中比呆在紐約更安全。這個例子乍看起來很有道理,如果你仔細琢磨,就會發現其中的陰謀:比較的對象不一樣!如果仔細查閱,就會發現,美國海軍死亡名單基本都是健康的青年小伙,而紐約市民的死亡名單大多是老弱病殘,這兩份數據放在一起顯然不合適。
在做數據比較的時候,需要選取合適的比較對象,以便更準確地認知和發現結論,在數據分析中,一般選取的比較對象有以下幾類:
自身歷史
與歷史同期相比,比如去年同期或上個季度。
同行競品
合理預期
與之前產品發展的預期相比,比如:A 產品的研發,比預期收入提高 10%
同質對照組
A/B Test 結果的對比
3. 基于個案的認知每當勸說朋友戒煙時,朋友總會拿出這個段子:
不抽煙不喝酒,63歲–林彪
不抽煙只喝酒,73歲–周恩來
只抽煙不喝酒,83歲–毛澤東
既抽煙又喝酒,93歲–鄧小平
吃喝嫖賭樣樣有,103歲–張學良沒有任何壞習慣,一生做好事–23歲,雷鋒
無論抽不抽煙,一個人都可能在各個年齡下死亡,從宏觀的統計上分析,抽煙的人的壽命平均比不抽煙的人小 5 歲,而上面舉出的個例,則無法說明問題
4. 精挑細選的數據維度例:一所藝術院校,男生校服只有褲子款式,而女生有褲子和裙子兩種款式,經統計得知 75% 的女生選擇裙子,25% 的女生選擇褲子,今天你進入校園,遠遠看到一個穿褲子的同學,他是男生的概率更高,還是女生的概率更高?憑感覺得到的答案是男生概率高,因為所有的男生都穿褲子款式,而只有 25% 的女生選擇褲子款式。這個例子中忽略了一個重要的數據:男生和女生的人數。
如果告訴你,該學校共 1000 人, 900 人是女生,100 人是男生,結果是什么?
女生選褲子的有 900*25% = 225 人
男生選褲子的有 100 人
很顯然,這種情況下,這個人是女性的概率更高。在普通人看來,往往會有男女各占一半的經驗誤解。所以,在一些情況下,隱藏了部分數據就是說謊。
5. 過多腦補的推理在一個冬日的晚上,產品流量出現下跌,經過一番分析,得出原因:天氣太冷,網民因為手冷而不愿意上網,提前上床睡覺,所以流量下跌。在一個冬日的晚上,產品流量出現上漲,經過一番分析,得出原因:天氣太冷,網民愿意出門,只好在家窩著上網,所以流量上漲。該案例背后的信息是:一個結果可能有多個原因可以解釋,“大忽悠”往往引導人們只去相信其中的一個,整個推理過程沒有對應的細節數據輔助。
6. 先入為主的偏見
先別往下看,這幅圖的內容是什么?
你可能覺得這幅圖太過模糊和抽象,一時也看不出是什么,如果告訴你說,這是一只斑點狗,很多人就會恍然大悟,覺得確實是一只斑點狗。這里隱藏了一個重要的心理學理念:
你腦子里想的是什么,你就會去尋找什么,你將會得到你期盼的結果 —— 勃朗寧該理念有個通俗的說法是“人們只會看見他們愿意看見的事情”。
在數據分析中,雖然很難不帶任何“先入為主”的觀點,但依然要追求追求客觀分析的態度,也要適時根據數據去觀察和反思,不斷修正自己的觀點。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25