
數據處理流程和數據分析方法
大數據分析這件事用一種非技術的角度來看的話,就可以分成金字塔,自底向上的是三個部分,第一個部分是數據采集,第二個部分是數據建模,第三個部分是數據分析,我們來分別看一下。
【數據采集】
首先來說一下數據采集,我在百度干了有七年是數據相關的事情。我最大的心得——數據這個事情如果想要更好,最重要的就是數據源,數據源這個整好了之后,后面的事情都很輕松。
用一個好的查詢引擎、一個慢的查詢引擎無非是時間上可能消耗不大一樣,但是數據源如果是差的話,后面用再復雜的算法可能都解決不了這個問題,可能都是很難得到正確的結論。
我覺得好的數據處理流程有兩個基本的原則,一個是全,一個是細。
● 全:就是說我們要拿多種數據源,不能說只拿一個客戶端的數據源,服務端的數據源沒有拿,數據庫的數據源沒有拿,做分析的時候沒有這些數據你可能是搞歪了。另外,大數據里面講的是全量,而不是抽樣。不能說只抽了某些省的數據,然后就開始說全國是怎么樣??赡苡行┦》浅L厥?,比如新疆、西藏這些地方它客戶端跟內地可能有很大差異的。
● 細:其實就是強調多維度,在采集數據的時候盡量把每一個的維度、屬性、字段都給它采集過來。比如:像 where、who、how 這些東西給它替補下來,后面分析的時候就跳不出這些能夠所選的這個維度,而不是說開始的時候也圍著需求。根據這個需求確定了產生某些數據,到了后面真正有一個新的需求來的時候,又要采集新的數據,這個時候整個迭代周期就會慢很多,效率就會差很多,盡量從源頭抓的數據去做好采集。
【數據建模】
有了數據之后,就要對數據進行加工,不能把原始的數據直接報告給上面的業務分析人員,它可能本身是雜亂的,沒有經過很好的邏輯的。
這里就牽扯到數據建框,首先,提一個概念就是數據模型。許多人可能對數據模型這個詞產生一種畏懼感,覺得模型這個東西是什么高深的東西,很復雜,但其實這個事情非常簡單。
我春節期間在家干過一件事情,我自己家里面家譜在文革的時候被燒教了,后來家里的長輩說一定要把家譜這些東西給存檔一下,因為我會電腦,就幫著用電腦去理了一下這些家族的數據這些關系,整個族譜這個信息。
我們現實是一個個的人,家譜里面的人,通過一個樹型的結構,還有它們之間數據關系,就能把現實實體的東西用幾個簡單圖給表示出來,這里就是一個數據模型。
數據模型就是對現實世界的一個抽象化的數據的表示。我們這些創業公司經常是這么一個情況,我們現在這種業務,一般前端做一個請求,然后對請求經過處理,再更新到數據庫里面去,數據庫里面建了一系列的數據表,數據表之間都是很多的依賴關系。
比如,就像我圖片里面展示的這樣,這些表一個業務項發展差不多一年以上它可能就牽扯到幾十張甚至上百張數據表,然后把這個表直接提供給業務分析人員去使用,理解起來難度是非常大的。
這個數據模型是用于滿足你正常的業務運轉,為產品正常的運行而建的一個數據模型。但是,它并不是一個針對分析人員使用的模型。如果,非要把它用于數據分析那就帶來了很多問題。比如:它理解起來非常麻煩。
另外,數據分析很依賴表之間的這種格子,比如:某一天我們為了提升性能,對某一表進行了拆分,或者加了字段、刪了某個字短,這個調整都會影響到你分析的邏輯。
這里,最好要針對分析的需求對數據重新進行解碼,它內容可能是一致的,但是我們的組織方式改變了一下。就拿用戶行為這塊數據來說,就可以對它進行一個抽象,然后重新把它作為一個判斷表。
用戶在產品上進行的一系列的操作,比如瀏覽一個商品,然后誰瀏覽的,什么時間瀏覽的,他用的什么操作系統,用的什么瀏覽器版本,還有他這個操作看了什么商品,這個商品的一些屬性是什么,這個東西都給它進行了一個很好的抽象。這種抽樣的很大的好處很容易理解,看過去一眼就知道這表是什么,對分析來說也更加方便。
在數據分析方,特別是針對用戶行為分析方面,目前比較有效的一個模型就是多維數據模型,在線分析處理這個模型,它里面有這個關鍵的概念,一個是維度,一個是指標。
維度比如城市,然后北京、上海這些一個維度,維度西面一些屬性,然后操作系統,還有 IOS、安卓這些就是一些維度,然后維度里面的屬性。
通過維度交叉,就可以看一些指標問題,比如用戶量、銷售額,這些就是指標。比如,通過這個模型就可以看來自北京,使用 IOS 的,他們的整體銷售額是怎么樣的。
這里只是舉了兩個維度,可能還有很多個維度??傊?,通過維度組合就可以看一些指標的數,大家可以回憶一下,大家常用的這些業務的數據分析需求是不是許多都能通過這種簡單的模式給抽樣出來。
四、數據分析方法
接下來看一下互聯網產品采用的數據分析方法。
對于互聯網產品常用的用戶消費分析來說,有四種:
(1) 第一種是多維事件的分析,分析維度之間的組合、關系。
(2)第二種是漏斗分析,對于電商、訂單相關的這種行為的產品來說非常重要,要看不同的渠道轉化這些東西。
(3)第三種留存分析,用戶來了之后我們希望他不斷的來,不斷的進行購買,這就是留存。
(4)第四種回訪,回訪是留存的一種特別的形式,可以看他一段時間內訪問的頻次,或者訪問的時間段的情況
【方法 1:多維事件分析法】
首先來看多維事件的分析,這塊常見的運營、產品改進這種效果分析。其實,大部分情況都是能用多維事件分析,然后對它進行一個數據上的統計。
1. 【三個關鍵概念】
這里面其實就是由三個關鍵的概念,一個就是事件,一個是維度,一個是指標組成。
l 事件就是說任何一個互聯網產品,都可以把它抽象成一系列事件,比如針對電商產品來說,可抽象到提交、訂單、注冊、收到商品一系列事件用戶行為。
l 每一個事件里面都包括一系列屬性。比如,他用操作系統版本是否連 wifi;比如,訂單相關的運費,訂單總價這些東西,或者用戶的一些職能屬性,這些就是一系列維度。
l 基于這些維度看一些指標的情況。比如,對于提交訂單來說,可能是他總提交訂單的次數做成一個指標,提交訂單的人數是一個指標,平均的人均次數這也是一個指標;訂單的總和、總價這些也是一個指標,運費這也是一個指標,統計一個數后就能把它抽樣成一個指標。
2. 【多維分析的價值】
來看一個例子,看看多維分析它的價值。
比如,對于訂單支付這個事件來說,針對整個總的成交額這條曲線,按照時間的曲線會發現它一路在下跌。但下跌的時候,不能眼睜睜的看著它,一定要分析原因。
怎么分析這個原因呢?常用的方式就是對維度進行一個拆解,可以按照某些維度進行拆分,比如我們按照地域,或者按照渠道,或者按照其他一些方式去拆開,按照年齡段、按照性別去拆開,看這些數據到底是不是整體在下跌,還是說某一類數據在下跌。
這是一個假想的例子——按照支付方式進行拆開之后,支付方式有三種,有用支付寶、阿里 PAY,或者用微信支付,或者用銀行看內的支付這三種方式。
通過數據可以看到支付寶、銀行支付基本上是一個沉穩的一個狀態。但是,如果看微信支付,會發現從最開始最多,一路下跌到非常少,通過這個分析就知道微信這種支付方式,肯定存在某些問題。
比如:是不是升級了這個接口或者微信本身出了什么問題,導致了它量下降下去了?
【方法 2:漏斗分析】
漏斗分析會看,因為數據,一個用戶從做第一步操作到后面每一步操作,可能是一個雜的過程。
通過這個漏斗,就能分析一步步的轉化情況,然后每一步都有流失,可以分析不同的渠道其轉化情況如何。比如,打廣告的時候發現來自百度的用戶漏斗轉化效果好,就可能在廣告投放上就在百度上多投一些。
【方法 3:留存分析】
比如,搞一個地推活動,然后來了一批注冊用戶,接下來看它的關鍵行為上面操作的特征,比如當天它有操作,第二天有多少人會關鍵操作,第 N 天有多少操作,這就是看它留下來這個情況。
【方法 4:回訪分析】
回訪就是看進行某個行為的一些中度特征,如對于購買黃金這個行為來說,在一周之內至少有一天購買黃金的人有多少人,至少有兩天的有多少人,至少有 7 天的有多少人,或者說購買多少次數這么一個分布,就是回訪回購這方面的分析。
上面說的四種分析結合起來去使用,對一個產品的數據支撐、數據驅動的這種深度就要比只是看一個宏觀的訪問量或者活躍用戶數就要深入很多。
五、運營分析實踐
下面結合個人在運營和分析方面的實踐,給大家分享一下。
【案例 1:UGC 產品】
首先,來看 UGC 產品的數據分析的例子??赡軙治鏊脑L問量是多少,新增用戶數是多少,獲得用戶數多少,發帖量、減少量。
諸如貼吧、百度知道,還有知乎都屬于這一類的產品。對于這樣一個產品,會有很多數據指標,可以從某一個角度去觀察這個產品的情況。那么,問題就來了——這么多的指標,到底要關注什么?不同的階段應該關注什么指標?這里,就牽扯到一個本身指標的處理,還有關鍵指標的問題。
【案例 2:流失用戶召回】
這種形式可能對其他產品就很有效,但是對我們這個產品來說,因為我們這是一個相對來說目標比較明確并且比較小眾一點的差別,所以這個投放的效果可能就沒那么明顯。
在今年元旦的時候,因為之前申請試用我們那個產品已經有很多人,但是這里面有一萬人我們給他發了帳號他也并沒有回來,我們過年給大家拜拜年,然后去匯報一下進展看能不能把他們撈過來一部分。
這是元旦的時候我們產品的整體用戶情況,到了元旦為止,9月25號發布差不多兩三個月時間,那個時候差不多有 1490 個人申請試用了我們這個產品。但是,真正試用的有 724 個,差不多有一半,另外一半就跑了,就流失了。
我們就想把這部分人抽出來給他們進行一個招回活動,這里面流失用戶我們就可以把列表導出來,這是我們自己的產品就有這樣的功能。有人可能疑惑我們怎么拿到用戶的這些信息呢?
這些不至于添加,因為我們申請試用的時候就讓他填一下姓名、聯系方式,還有他的公司這些信息。對于填郵箱的我們就給發郵件的,對于發手機號的我們就給他發短信,我們分析這兩種渠道帶來的效果。
先說總體,總體我們發了 716 個人,這里面比前面少了一點,我把一些不靠譜的這些信息人工給它干掉了。接下來,看看真正有 35 個人去體驗了這個產品,然后 35 個人里面有 4 個人申請接入數據。
因為我們在產品上面做了一個小的改進,在測試環境上面,對于那些測試環境本身是一些數據他玩一玩,玩了可能感興趣之后就會試一下自己的真實數據。這個時候,我們上來有一個鏈接引導他們去申請接入自己的數據,走到這一步之后就更可能轉化成我們的正式客戶。
這兩種方式轉化效果我們其實也很關心,招回的效果怎么樣,我們看下面用紅框表示出來,郵件發了 394 封。最終有 32 個人真正過來試用了,電話手機號322 封,跟郵件差不多,但只有 3 個過來,也就是說兩種效果差了 8 倍。
這其實也提醒大家,短信這種方式可能許多人看短信的比較少。當然,另一方面跟我們自己產品特征有關系,我們這個產品是一個 PC 上用起來更方便的一個產品。許多人可能在手機上看到這個鏈接也不方便點開,點開之后輸入帳號也麻煩一點。所以,導致這個效果比較差。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25