
小白學數據分析--日活躍人數分析
在數據分析的道路上走的崎嶇坎坷,同時數據分析本身是一個多面和復雜的工作,要懂得理論(統計、概率、數據挖掘、算法、模型)更要懂得業務,懂得行業理論,還要有靈活多變的思維,想想還是很復雜和麻煩的,所講內容不但是理論,不僅是數據,盡量把這些東西綜合起來,立體的來看,鄙人水平有限,很多的內容是嘗試和改進,參考了很多的材料,在木有高人指點和牛人幫助的情況下,我只能借助浩瀚的網絡知識和自己的悟性,今天決心拿出來給各位主要是幫助大家和我一起進步。
第一天就從一份數據的分析開始,這里面涉及了很多的內容,大家需要慢慢理解。
案例:
某位網友提供了一份游戲的日活躍賬號數的數據信息,游戲是從2011年9月份開始了測試,到2012年2月,但是產品究竟表現如何,從PLC(產品生命周期----《營銷管理》)來看,產品目前處于一個什么時期,下一步怎么來做營銷和運營工作,這是一個需要關注的問題。今天就從日活躍這個數據指標的解析上簡單看看PLC的解讀。
設計分析的數據指標有很多方面,總體來說就兩塊,收入+人氣,我們就從對人氣的分析上下手,考慮文章篇幅關系,今天單列每日活躍的分析過程,其他指標的把握和分析基本和此相同,大家可以自己嘗試完成。
術語解釋:
每日活躍用戶(DAU):每日登錄過游戲的玩家數量(重復登錄者不累加)
IB:Item-Billing,游戲中通過游戲幣交易流通的道具
APA:活躍付費賬號數
PLC:產品生命周期-----《營銷管理》
ARPU:平均每名玩家盈利能力
新登用戶:每日注冊成為游戲玩家的數量
每日有效活躍玩家:達到某一個指標(一般是在線時長)的日活躍玩家數量
每日有效新登用戶:達到注冊并成功登錄進行過游戲的玩家數量
為什么要看每日活躍用戶?
拋開游戲上線初期的推廣營銷因素影響后,版本隨后會進入真正意義上的成長和發展階段,這個階段也是對于游戲品質和開始階段投放影響的評估(當然這種靠推廣的影響會存在一定的時效性,在對于DAU分析時,要拋開這個階段)。每日活躍用戶的變化說明以下的原因:
人氣波動:建立每日活躍人數的彈性數值區間(閾值),當然這點的預警要按照每個月的具體情況來看,比如每個月的節日,假期,學生開學等其他因素的影響情況,建立一套因素影響指數,并作用于人氣波動的預警。
趨勢走向:綜合一個階段的日活躍變化情況,對于重大拐點和趨勢進行分析,并預測下一個周期的變化形式。
產品質量:從日活躍的趨勢變化和人氣波動等其他因素綜合看產品版本更新,活動設置等對于產品的PLC的影響,以及產品質量是否符合玩家的預期(質量的定義很廣泛,這里比如IB設計,系統設計,交互體驗等等)。
影響因素:正如剛才所言,我們綜合一個周期的日活躍數據 和其他數據制定影響因素指數,便于宏觀把控數據的變化,比如進入預警范圍的數據究竟因為這些影響因素的影響有多大。做到心中有數。
當然,以上是簡單的列舉了一下日活躍用戶參與的數據分析的幾個方面和作用,對于數據分析千萬不能局限在一個指標而進行所謂的分析,要全面的結合其他指標進行衡量和分析。比如新登用戶,收入數據(充值,ARPU,APA等等)。
怎么來分析DAU?
如之前文章所說,我們主要運用曲線圖和箱線圖來分析DAU數據,如下圖,使用IBM SPSS 19進行箱線圖的分析(其詳細過程以后在敘述)。
再次箱線圖中涉及幾個術語指標,先給各位再解釋一下:
方差:度量隨機變量和其數學期望(即均值)之間的偏離程度,測度數據變異(離散)程度的最重要的指標,方差是各個數據與其算術平均數的離差平方和的平均數,通常以σ2表示。方差的計量單位和量綱不便于從經濟意義上進行解釋,所以實際統計工作中多用方差的算術平方根——標準差來測度統計數據的差異程度。
方差和標準差也是根據全部數據計算的,它反映了每個數據與其均值相比平均相差的數值,因此它能準確地反映出數據的離散程度。比如,平均日活躍為A,通過方差判定整個這個月的DAU波動情況,以及距離A的離散程度。
期望:廣義的來說,是指人們對每樣東西的提前勾畫出的一種標準,達到了這個標準就是達到了期望值。從概率論和統計學中,離散型隨機變量的一切可能的取值xi與對應的概率Pi(=xi)之積的和稱為該離散型隨機變量的數學期望(設級數絕對收斂),記為E(x)),我們多數情況下只討論離散型期望。
中位數:中位數是指將數據按大小順序排列起來,形成一個數列,居于數列中間位置的那個數據。中位數用Me表示。
從中位數的定義可知,所研究的數據中有一半小于中位數,一半大于中位數。中位數的作用與算術平均數相近,也是作為所研究數據的代表值。在一個等差數列或一個正態分布數列中,中位數就等于算術平均數。
在數列中出現了極端變量值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變量值的影響;如果研究目的就是為了反映中間水平,當然也應該用中位數。在統計數據的處理和分析時,可結合使用中位數。
四分位數:將數據劃分為4個部分,每一個部分大約包含有1/4即25%的數據項。這種劃分的臨界點即為四分位數。它們定義如下:
Q1=第1四分位數,即第25百分位數;
Q2=第2四分位數,即第50百分位數;
Q3=第3四分位數,即第75百分位數。
四分位差:四分位差又稱內距、也稱四分間距(inter-quartile range),是指將各個變量值按大小順序排列,然后將此數列分成四等份,所得第三個四分位上的值與第一個四分位上的值的差。四分位差用公式表示:
Q = Q3 ? Q1
其中:Q1的位置=(n+1)/4
Q3的位置=3(n+1)/4
四分位差反映了中間50%數據的離散程度。其數值越小,說明中間的數據越集中;數值越大,說明中間的數據越分散。與極差(最大值與最小值之差)相比,四分位差不受極值的影響。此外,由于中位數處于數據的中間位置,因此四分位差的大小在一定程度上也說明了中位數對一組數據的代表程度。主要用于測度順序數據的離散程度。當然,對于數值型數據也可以計算四分位差,但不適合于分類數據。
其以上的幾個信息的示意圖如下所示
下面我們從這個箱線圖來分析一下DAU的近期變化情況
除了2012-Jan以外,都沒有離群點或者極限值,相對而言,每個月游戲人數整體比較穩定,沒有發生巨大的變化。而在2012-Jan出現了兩個離群值,調查發現,是1月4日和1月5日出現的問題。經過CCU曲線分析,發現關鍵節點數據變化很小,但是24小時總體出現微下降,說明玩家4日和5日的活躍數據被稀釋了,此外,通過對競品的分析發現4日和5日有線上領取活動,再者,節后兩天學生基本需要返校和白領休假歸來,造成數據暫時下滑。
此外,我們拿到分析數據和上圖來看,12年二月份和11年9月份的中位數較高,說明這段時間內的平均日活躍相對于本月來說較高,這可以看出這段時間內,游戲內的用戶上線較為頻繁(當然此處要結合PCU,在線時長來看更加準確)。
9月份為開始測試的月份,而2月份為假期階段,因此玩家上線的意愿相對來說會比較高一些。這也是在意料之中的情況。
然而11年的11月份和12月份,中位數偏低,玩家上線意愿不夠強烈,11月份已經非常低了,主要原因在于這一時期玩家進入考試周期,四六級,中期考試等等,屬于淡季階段。
11年10月份國慶節期間,玩家上線意愿還算不錯,但是沒有達到理想的效果,中位數低于平均水平,因此國慶假期的活動或者推廣效果不是非常理想,間接也導致了下個月下滑的非常迅速,因此下次節日活動需要進行重新評估和調整。數據如下:
對于12年一月份的表現算是情理中,今年由于1月份過年,然而過年7天玩家的游戲時間其實是縮水的,沒有太多精力投入游戲,但是從箱線圖來看,表現還算正常。高于平均水平,活動效果應該比較不錯,一月份雖然出現了兩個離群值,但是一月份的標準差是最小的,也就是說一月份整體的活躍趨勢穩定,沒有大的波動。
總體來看,如果要考察PLC,需要結合收益數據,以及其他的諸如ACU,PCU,新登等數據來綜合看待PLC,但是從DAU來看(狹義來說),人氣在幾個月來保持相對的穩定,但是整體上經歷了小幅的下滑,換個角度說,這款產品存在一些問題,人氣持續穩中有降,可以說玩家度過初級的新手期后,中間的成長、競爭、追求階段出現了問題,訴求不能滿足,導致人氣下滑。更加詳細具體的原因需要更多的數據綜合分析。
注:以上分析皆建立在與數據的對比之上和其他輔助的數據綜合分析上,當分析者單純觀察一段數據時,不能通過中位數高低輕易下定論認為用戶上線頻繁與否。需要考慮很多的客觀因素。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25