
數據工作的本質:從業務中來,到業務中去
數據工作就組成結構和流程來說還是比較簡單的,因為這個工作本來就很年輕,分工還沒有很細??傮w來講,我把數據工作看成相互連接的三部分:取數、理數、用數,這是一個閉環。用數的需求會驅動取數工作,并對取數工作提出具體操作性要求。
1.取數
取數工作解決的是數據源的問題,具體來講是由下面的一系列工作組成:
設計并實現產品中取數的方法和規則
產品運行過程中,實時的或周期性的從產品端獲取數據。
傳輸、接收、校驗數據
格式化歸檔存儲數據。
經過取數工作后,就形成了由業務運行產生的原始數據。原始數據是極其豐富的,有很多種分類方法,而從用戶的觀點來看可以大致分為兩種。一種是用戶意識到的主動提供的,如注冊數據,發表的文字等;另一種是用戶不容易意識到的被動提供的,如上網IP地址,操作動作(像PC上的鼠標移動,手機上的滑動)。
之所以用這個數據工作者不常用的維度來分類原始數據是想提醒產品經理在產品設計時也需要一點數據思維。能采用第二種方式得到數據,就不用第一種方式去麻煩用戶。
2.理數
整理數據。這一步并不是必須的,尤其對初創企業來說,直接用原始數據是更經常的事。一方面因為初創時期的業務重點還不在于數據問題,另一方面也因為一些原始數據是結構化的,直接入數據庫的,已經能用,比如用戶注冊數據。但隨著數據的豐富和業務重點的變化,理數就變得越來越重要,因為大部分原始數據是無法直接用于分析和再產品化的,比如IP地址,比如文字。
理數標志性的工作就是對原始數據進行多層抽取、歸納、抽象的數據倉庫建設。如果說取數是從用戶中來,用數是到業務中去,那理數就是兩者的橋梁,是將來自用戶的數據原料轉換為可供研究、分析或形成數據產品使用的數據零部件、半成品。這其中就會涉及數據挖掘工作。比如上面提到的IP地址,其本身并不能被直接使用,所以一般就會根據一個IP地址數據庫將IP轉換為地區名稱。這就是將一個原始技術數據轉為一個有意義的業務信息。
理數階段的數據挖掘與用數階段的數據挖掘并沒有嚴格的區分,一般認為這個階段的主要任務是將需求更普遍,應用更廣泛的信息從原始數據中挖掘出來以減輕后面用數的工作量。比如像用戶性別、年齡等基本屬性的挖掘。盡管大部分互聯網產品都會讓用戶填寫這些字段,但用戶填的叫原始數據。如果你直接使用原始數據,看上去是跳過了理數工作,但實際你是啟用了一個理數的規則或模型,只不過輸入和輸出是一樣的。這個模型的開發和應用成本為0,但機會成本是多少就要自己判斷了。
當數據庫、數據倉庫準備好了零部件、半成品后,數據工作就要進入最眼花繚亂的用數階段了。
3.用數
使用數據有2個方向,一是為企業內部工作提供決策支持,二是直接為用戶提供獨立數據產品或數據支持下的產品新功能。
說到決策支持可能最先想到的是BI。狹義的傳統BI主要使用企業運行產生的內部數據,然后做些表單,柱狀、條形、折線等各式樣的圖,比較無聊的?,F代互聯網化的決策支持,因為數據源的不同而變得有趣的多得多。
比如我們曾經給公司人力資源部的招聘提供過一個產品,就是根據招聘要求利用微博數據精準尋找候選人。當然找人只是第一步,評估人才能力,行為習慣,行業薪資水平等等數據工作都能發揮作用。甚至可以收集多方數據來做員工流失預警。所以互聯網數據基礎上的決策支持是可以支持到企業方方面面的工作,比如在互聯網公司中,決策支持類的數據應用就會有:
產品優化決策
產品經理最主要的工作就是抓到用戶需求點,然后設計出產品/服務來滿足它。雖然說需求點的發現往往是經驗性的定性的工作,但數據工作依然可以在兩方面給予優化決策:
一是,給出市場中主流用戶或某一分類用戶的總體偏好和習慣,幫助產品經理加深對用戶的理解。比如哪類用戶在什么場景下喜歡聽音頻,在什么場景下喜歡看文字,在什么場景下打開視頻的可能更高等等。這對于產品經理選擇用戶群的需求切入點至關重要。
二是,評估可能的市場規模和增長曲線。
新產品或新功能上線后,產品經理需要數據反饋來判斷用戶對自己設計的接受度。盡管PV、DAU等總體性指標是能反應用戶對新產品/功能的態度,但因為是總體性的指標,它們的變化包含了太多的因素,比如推廣力度、運營活動等等。所以要更精確的看產品,一般更好的選擇是回訪率、使用時長、頻次、退出/跳出、轉化等用戶個體性指標的變化來衡量用戶反饋。
除了事后的監測,有時還會使用AB測試來檢驗不同設計的效果,以便提前獲知用戶偏好,降低新產品/功能的市場風險。這里就會涉及到與取數工作的配合,AB測試進行部署時要根據需要選擇一定條件的兩組類似用戶推送測試內容,在用戶不知情的情況下看實際效果。
運營支持
互聯網產品的運營工作主要包括用戶運營、內容運營、活動運營和客戶服務。在每一塊上數據工作都能給予基礎性的支持。
比如用戶促活當中有一個重要工作就是防流失。這里就會碰到一個流失判斷標準的問題。多長時間不來算流失?這個課題研究的關注點實際不是流失的那群用戶,因為你從他們身上是取不出流失時點信息的,我們的關注點在那些很長時間沒有來,但最終在自然狀態(注:沒有召回和活動影響)下又回來的非流失用戶。從這群用戶身上我們才能發現一個用戶最多經歷多長時間的沉寂后還有可能回來了,反過來長于這個時間就可以判斷流失。在實際研究中,你會發現有用戶在半年甚至更長時間后還會回來,這些從經驗上來說肯定不是自然狀態下回流的。于是判斷是否自然狀態又成為新問題,解決這個問題的一個數據來源是訪問來源。
當然算出流失標準時間界限對防流失來說并沒有什么直接的作用,這個標準實際的用途是篩出流失研究樣本,通過樣本數據來得出流失預警模型,通過用戶還活躍時的行為變化來預測他們流失的概率,進而提供給用戶運營來做下一步工作的決策。
市場推廣反作弊
反作弊與作弊是一個工作對,基本上是處在道高一尺魔高一丈不斷相互學習相互克制的狀態中。所以隨著作弊方法的不斷更新,反作弊和識別虛假用戶的方法也累計了很多種。大部分的方法都是基于人工或機器學習經驗建立起的判別模型。這些方法判別效率高,實施成本低,使用廣泛,但也有致命缺點。因為這些方法都屬于有監督的方式,形成的經驗來自歷史數據,如果渠道作弊方法不變,這些反作弊識別手段就會保持較高的有效性。但問題是當你識別渠道作弊并且拒絕為其付費時,渠道立刻就知道你存在針對當前作弊方法的識別手段,他們就會進行作弊升級。同時他們還會要求你拿出他們作弊的證據,如果你告之了他們,就意味著你透露了識別方法,他們就能更容易的繞過你原有的反作弊方法,實現魔高一丈。最后你必須要想出無監督的方法來實現反作弊。
此外,銷售、人力、戰略決策等等都會是數據應用的舞臺。
而除了作為配角的決策支持外,數據應用也有當主角的時候。比如百度搜索風云榜,微博熱詞等等數據產品。還有更常見的是在數據工作的直接支持下呈現給用戶的“猜你喜歡”“相關商品”這些數據類產品。
從上面對數據工作的介紹中不知你是否體會到了數據工作“從業務中來,回業務中去”的本質或者說根本存在價值。如果你不是一個僅滿足于完成數據內部技術處理工作的從業者,那你必須要對這個本質有清晰的認識。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25