
數據分析這點事:如何看懂數據 用好數據
先聲明一下,按照傳統的定義,我還真不是數據分析高手,各種關聯算法,只會最簡單的一種(話說不少場合還算管用);各種挖掘技術,基本上一竅不通;各種牛逼的數據分析工具,除了最簡單的幾個免費統計平臺之外,基本上一個都不會用。所以,各種高手高高手請隨意BS,或自行忽略。這里說點高手不說的。
從微博段子說起,微博上關于數據分析有兩個段子,我經常當作案例講:
第一個段子,說某投資商對某企業所屬行業有興趣,要做背景調查,甲是技術流,一周分析各種網上數據,四處尋找行業材料,天天熬夜,終于寫出一份報告;乙是人脈流,和對方高管喝了次酒,請對方核心人員吃了頓飯,所有內幕數據全搞定,問誰的方法是對的;
第二個段子,某電商發現競爭對手淘寶店,周收入突然下降了30%,但是隔周后又自然恢復,中間毫無其他異?,F象,于是老板讓分析師分析,苦逼的分析師辛苦數日,做各種數學模型,總算找到勉強的理由自圓其說,老板讀畢,雖說不能讓人信服,卻也沒有更合理的解釋,某日,見對手老板,閑聊此事,“你們某段時間怎么突然收入下降?”“嗨,別提了,丈母娘去世了,回家奔喪,公司放羊了?!崩习寤腥淮笪?。
兩個段子,第一個段子,微博上一邊倒的說,苦逼分析沒有人脈有用;第二個段子類似,一邊倒的認為,人脈的消息比苦逼分析管用多了。但是我想說的是,這個解讀絕對是錯的!
先說第一個段子,其實網絡不乏這種“人脈達人”,特別是媒體圈,一些所謂的“IT名記”或者“著名評論家、分析師”和各種互聯網大佬稱兄道弟,天天秘聞不斷,但是呢?他們從不研究產品,不分析用戶,所以,他們知道了數據,卻不懂數據背后是什么,更不知道什么是重要的,什么是次要的,我有時會批評身邊這樣的朋友,別天天覺得自己知道幾個互聯網大佬的花邊新聞,就當自己是資深業內人士了,正因為掌握這些東西又覺得炫耀,才反而忽視了真正有價值的信息和有價值的數據。這就是為什么混網絡媒體的,見過市面的各種達人,在互聯網創業浪潮里,幾乎沒有成功幾率的真實原因,自以為人脈廣泛,無所不知,其實正因為缺乏最基本的數據背景分析,所以才是看上去什么都懂,細究下其實什么都不懂。請記住一點,除非你是富二代,官二代,銜著金鑰匙出生,那不在我的討論范圍里,否則,沒有苦逼的經歷,就沒有牛逼的成就。
我常訂閱一些著名分析師的微博,他們透露的數據往往是很有價值的(這是我訂閱的原因),但是他們的解讀通常是慘不忍睹的,這就是只看表象的惡果,而且隨便翻看一下他們的數據解讀,可以說他們的數據感和數據認知貧乏到可笑,甚至缺乏最基本的數據校核和考證的能力,他們拿到了某公司核心數據又怎樣?沒經歷過苦逼的分析,他們其實什么都看不到。
第二個段子同理,如果不是持續有效的數據跟蹤,怎么能得出下降30%的結論,這一數據結論與人脈得到的消息相互驗證,才會得到完整真實的結果,否則僅僅是閑聊,你怎能知道對方企業管理對業績影響的范疇,苦逼的分析也許一時沒有人脈的消息管用,但是你所得到的對數據的認知和積累,是人脈永遠不會給你的。
所以,再次強調,基本的數據跟蹤和日常的數據感養成,絕不是可以忽略和無視的。人脈情報可以成為數據解讀重要的信息來源,但是絕不能喧賓奪主,替代基本的數據分析工作。
下面說一下數據感,什么是數據感?就是別人說一個數據出來,你會琢磨一下這個是否符合常理,與你日常的數據觀測經驗是否一致,如果不一致,那么可能的理由是哪些? 比如12306號稱一天幾十億次點擊,如果你有數據感,第一眼就會質疑這個“點擊”定義的合理性;比如曾經有人說某國內圖片分享網站一天多少億訪問量,第一眼就知道這個“訪問量”定義是有歧義的,(事后官方解釋是圖片加載量,這個和訪問量差異幾十倍。) 數據感需要不斷的培養,和基本的邏輯(比如你應該知道中國有多少網民,每天有多少人上網,一個大概什么類型,什么排名的網站會覆蓋網民的比例是多少),以及善于利用各種工具,我以前在巨頭公司,得益于公司巨大的數據資源,可以看到很多互聯網的核心數據;但是離開后,才發現,其實互聯網上公開可獲取的數據途徑是非常多的,而且善于利用的話非常有效。每天去查詢一些感興趣的數據,經過一段時間積累,想沒有數據感都難。
作為公司或團隊負責人,怎么培養員工的數據感,我其實也有一個建議,平時可以搞一些小的競猜,比如團隊集體競猜新產品或產品改版上線后的日活躍用戶,或者pv數字,或者收入數據,等等;然后看誰的最準,一種是懲罰制,最不準的請最準的喝奶茶,吃冰淇淋;另一種不懲罰,最準的累計積分后公司可以發一些獎品鼓勵,這樣下去大家的數據感就會在日常培養起來,而且對團隊的氣氛培養也有幫助。
數據感之后,談數據分析的方法,我的建議是,不炫技,不苛求技術復雜度,最簡單的數據,所包含的信息往往是最有價值的,而很多人恰恰這一步都沒做好,就總想著弄一堆挖掘算法;數據的價值在于正確的解讀,而不是處理算法的復雜度,切不可喧賓奪主。 大公司的kpi制度,往往會產生偏差,比如技術工程師的評定,要講究“技術復雜度”、“技術領先性”,直接導致簡單的事情沒人肯做,最基本的工作不認真做!所以往往是大公司的分析工程師,為了評高級工程師,非要簡單問題復雜化,四則運算就搞定的事情一定要弄一套詭異的算法,最終非但浪費了資源,消耗了時間,而且往往由于工程師對業務理解的漠視,對應的產品人員又對算法的陌生,導致了嚴重的理解歧義,從而出現各種誤讀。
下面說關鍵,數據解讀,正確的數據解讀,是所有數據分析工作最關鍵的一步,這一步錯了,前面的所有努力都是白搭,然后,往往很多人簡單的以為“數據會說話”,他們認為把數據處理完一擺就ok了,所以我看到很多知名分析師拿著正確的數據信口胡謅;而更有甚者,顯然是故意的行為,一個非常非常著名的、口碑極佳的跨國企業,曾經就同一份很酷的數據,在不同的場合下,為了市場公關的需求,做出不同的解讀;這簡直就是道德問題了。
數據解讀,不能是為了迎合誰,要遵循數據的本質,要遵循科學的邏輯,要有想象力(配合求證),可能有時候也需要依賴人脈關系所獲得的情報,(這個也有很多典型范例),這個具體再怎么說可能我也說不清楚,說幾個反面例子也許更容易理解。
1、因果關聯錯誤,或忽略關鍵因素,A和B的數據高度相關,有人就片面認為A影響了B,或者B影響了A;但是,有時候真實原因是C同時影響了A和B,有時候C被忽略掉了。
2、忽略沉默的大多數,特別是網上投票,調查,極易產生這種偏差,參與者往往有一定的共同訴求,而未參與者往往才是主流用戶。
3、數據定義錯誤,或理解歧義,在技術與市場、產品人員溝通中產生信息歧義,直接導致所處理的數據和所需求的數據有偏差,結果顯著不正確。
4、強行匹配;不同公司,不同領域的數據定義可能不一致,在同一個公司內或領域內做對比,往往沒有問題,大家對此都很習慣,卻有評論家不懂裝懂,強行將不同定義的數據放在一起對比做結論,顯著失真;海外著名金融機構在分析中國頁游和端游市場就連續犯這類錯誤。
5、忽略前提;有些數據結論是基于某種前提,符合某種特定場景下得出的,但是解讀者有意或無意忽略前提,將結論擴大化,顯著誤讀。
6、忽略交互;在商業模式改造和產品改進,往往都會出這類問題,最簡單說,你游戲中的道具降價,對收入的影響是增還是減?如果忽略交互,僅僅依賴于數據推算,當然是減,但是實際呢?做運營的都知道。
7、缺乏常識;如果對一些重要的紀念日,節日,或者網購節不了解,那去處理有關數據顯然就不知所云了。做行業報告更是如此,很難想像對行業不了解的人能做出怎樣的報告。
8、無視樣本偏差;我們通常做數據調研,是基于樣本數據,而采樣過程本身很難做到完全的公平和分散,樣本偏差要控制在合理范疇內,即便無法控制,在結論中也需要標注;這才是嚴謹的數據解讀,對樣本偏差視而不見,甚至為了某種宣傳目的刻意尋找偏差的樣本,都不可能做出好的數據結論。
那么, 數據處理也多說一點,雖說是個技術活,但是有些不那么技術的事情,也必須做到位才行;很多時候,我看到一個數據,不符合我的預期,我第一反應,是了解數據來源和處理邏輯,我們通常面對的數據,包括大量的干擾,噪音數據,以及一些識別上容易產生歧義甚至誤判的數據,這都是需要處理的,很多時候工程師只關心算法層面、效率層面,不愿意也不關心這些東西,所得出的數據結論失真度就非常高,越是大公司,這種情況越普遍;在我效力的巨頭公司時,這樣的范例非常多,處理方法其實很簡單,多看看源數據,對中間的噪音和干擾數據正確識別標注,對容易誤判的數據進行二次判定,全是苦力活,沒啥技術含量,但是這是必須的。
最后,很多人想知道我怎么看數據,或者想問我,他們每天看很多數據,不知道怎么去看,我其實有很簡單的三板斧,一學就會,一用就靈,對常見的數據場景,可解決絕大部分日常需求。 簡單說就是“對比,細分,溯源” 六字真言,沒了。
對比,數據放在那里,是沒意義的,你說你游戲周流失率80%,啥情況?不知道,你問我我也不知道。對比起來才知道。
一是橫比,你拿出50款游戲來比,別人平均流失率90%,你80%,你游戲還不錯勒,別人要平均流失65%,你80%,這就有問題了。
二是縱比,和自己時間軸比,你兩個月前1.0版本流失率90%,你現在80%,有進步么,你要是兩個月前是50%,現在80%,好好反思嘍。
所以,我特別強調,在通常企業數據監控,顯示一大屏數據的界面上,對比特征要最大體現,比如所有同比下降超過多少比例的一概紅色體現,所有上升多少比例的一概綠色體現,公司運營狀況一目了然。
細分,數據出現對比異常,你當然想知道原因,那就需要細分了。
細分先分緯度,再分粒度,什么是緯度?你按照時間去分,就是時間緯度,按照地區去分,就是地區緯度,按照來路去分,就是來路緯度,按照受訪去分,就是受訪緯度;你說今天網站訪問量漲了5%,咋回事不知道,你細分一看,大部分網頁都沒漲,某個頻道某個活動頁漲了300%,這就清楚了,這就是細分最簡單的范例,其實很多領域都通用。 粒度是什么,你時間緯度,是按照天,還是按照小時?這就是粒度差異,你來路緯度,是來路的網站,還是來路的url,這就是粒度的差異;這樣可以將對比的差異值逐級鎖定,尋找原因。
溯源,有時候我對比,細分鎖定到具體緯度,具體粒度了,依然沒有結論,怎么辦,溯源,依據鎖定的這個緯度和粒度作為搜索條件,查詢所涉及的源日志,源記錄,然后基于此分析和反思用戶的行為,往往會有驚人的發現,我們正是基于這一邏輯發現過產品的一些缺陷,而且你不斷通過這個方式分析數據,對用戶行為的理解也會逐步加深。
其實,這個話題還有很多延伸,比如,如何看一個年輕人有沒有數據分析潛質;以及如何培養數據分析和產品分析人才,等等,不過,就這樣吧。今天說的不少了,我水平有限,吃飯的就這幾招,而且又老又笨,大家都會了我離下崗也不遠了,您就湊活看吧。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25