熱線電話:13121318867

登錄
首頁精彩閱讀小白學數據分析--日活躍人數分析
小白學數據分析--日活躍人數分析
2016-06-01
收藏

小白學數據分析--日活躍人數分析

數據分析的道路上走的崎嶇坎坷,同時數據分析本身是一個多面和復雜的工作,要懂得理論(統計、概率、數據挖掘、算法、模型)更要懂得業務,懂得行業理論,還要有靈活多變的思維,想想還是很復雜和麻煩的,所講內容不但是理論,不僅是數據,盡量把這些東西綜合起來,立體的來看,鄙人水平有限,很多的內容是嘗試和改進,參考了很多的材料,在木有高人指點和牛人幫助的情況下,我只能借助浩瀚的網絡知識和自己的悟性,今天決心拿出來給各位主要是幫助大家和我一起進步。
  第一天就從一份數據的分析開始,這里面涉及了很多的內容,大家需要慢慢理解。
案例:
  某位網友提供了一份游戲的日活躍賬號數的數據信息,游戲是從2011年9月份開始了測試,到2012年2月,但是產品究竟表現如何,從PLC(產品生命周期----《營銷管理》)來看,產品目前處于一個什么時期,下一步怎么來做營銷和運營工作,這是一個需要關注的問題。今天就從日活躍這個數據指標的解析上簡單看看PLC的解讀。
  設計分析的數據指標有很多方面,總體來說就兩塊,收入+人氣,我們就從對人氣的分析上下手,考慮文章篇幅關系,今天單列每日活躍的分析過程,其他指標的把握和分析基本和此相同,大家可以自己嘗試完成。

術語解釋:
每日活躍用戶(DAU):每日登錄過游戲的玩家數量(重復登錄者不累加)
IB:Item-Billing,游戲中通過游戲幣交易流通的道具
APA:活躍付費賬號數
PLC:產品生命周期-----《營銷管理》
ARPU:平均每名玩家盈利能力
新登用戶:每日注冊成為游戲玩家的數量
每日有效活躍玩家:達到某一個指標(一般是在線時長)的日活躍玩家數量
每日有效新登用戶:達到注冊并成功登錄進行過游戲的玩家數量
為什么要看每日活躍用戶?
  拋開游戲上線初期的推廣營銷因素影響后,版本隨后會進入真正意義上的成長和發展階段,這個階段也是對于游戲品質和開始階段投放影響的評估(當然這種靠推廣的影響會存在一定的時效性,在對于DAU分析時,要拋開這個階段)。每日活躍用戶的變化說明以下的原因:
  人氣波動:建立每日活躍人數的彈性數值區間(閾值),當然這點的預警要按照每個月的具體情況來看,比如每個月的節日,假期,學生開學等其他因素的影響情況,建立一套因素影響指數,并作用于人氣波動的預警。
  趨勢走向:綜合一個階段的日活躍變化情況,對于重大拐點和趨勢進行分析,并預測下一個周期的變化形式。
  產品質量:從日活躍的趨勢變化和人氣波動等其他因素綜合看產品版本更新,活動設置等對于產品的PLC的影響,以及產品質量是否符合玩家的預期(質量的定義很廣泛,這里比如IB設計,系統設計,交互體驗等等)。
  影響因素:正如剛才所言,我們綜合一個周期的日活躍數據 和其他數據制定影響因素指數,便于宏觀把控數據的變化,比如進入預警范圍的數據究竟因為這些影響因素的影響有多大。做到心中有數。
  當然,以上是簡單的列舉了一下日活躍用戶參與的數據分析的幾個方面和作用,對于數據分析千萬不能局限在一個指標而進行所謂的分析,要全面的結合其他指標進行衡量和分析。比如新登用戶,收入數據(充值,ARPU,APA等等)。

怎么來分析DAU?
  如之前文章所說,我們主要運用曲線圖和箱線圖來分析DAU數據,如下圖,使用IBM SPSS 19進行箱線圖的分析(其詳細過程以后在敘述)。
  再次箱線圖中涉及幾個術語指標,先給各位再解釋一下:
  方差:度量隨機變量和其數學期望(即均值)之間的偏離程度,測度數據變異(離散)程度的最重要的指標,方差是各個數據與其算術平均數的離差平方和的平均數,通常以σ2表示。方差的計量單位和量綱不便于從經濟意義上進行解釋,所以實際統計工作中多用方差的算術平方根——標準差來測度統計數據的差異程度。
  方差和標準差也是根據全部數據計算的,它反映了每個數據與其均值相比平均相差的數值,因此它能準確地反映出數據的離散程度。比如,平均日活躍為A,通過方差判定整個這個月的DAU波動情況,以及距離A的離散程度。
  期望:廣義的來說,是指人們對每樣東西的提前勾畫出的一種標準,達到了這個標準就是達到了期望值。從概率論和統計學中,離散型隨機變量的一切可能的取值xi與對應的概率Pi(=xi)之積的和稱為該離散型隨機變量的數學期望(設級數絕對收斂),記為E(x)),我們多數情況下只討論離散型期望。
  中位數:中位數是指將數據按大小順序排列起來,形成一個數列,居于數列中間位置的那個數據。中位數用Me表示。
  從中位數的定義可知,所研究的數據中有一半小于中位數,一半大于中位數。中位數的作用與算術平均數相近,也是作為所研究數據的代表值。在一個等差數列或一個正態分布數列中,中位數就等于算術平均數。
  在數列中出現了極端變量值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變量值的影響;如果研究目的就是為了反映中間水平,當然也應該用中位數。在統計數據的處理和分析時,可結合使用中位數。
  四分位數:將數據劃分為4個部分,每一個部分大約包含有1/4即25%的數據項。這種劃分的臨界點即為四分位數。它們定義如下:
  Q1=第1四分位數,即第25百分位數;
  Q2=第2四分位數,即第50百分位數;
  Q3=第3四分位數,即第75百分位數。
  四分位差:四分位差又稱內距、也稱四分間距(inter-quartile range),是指將各個變量值按大小順序排列,然后將此數列分成四等份,所得第三個四分位上的值與第一個四分位上的值的差。四分位差用公式表示:
  Q = Q3 ? Q1
  其中:Q1的位置=(n+1)/4
  Q3的位置=3(n+1)/4
  四分位差反映了中間50%數據的離散程度。其數值越小,說明中間的數據越集中;數值越大,說明中間的數據越分散。與極差(最大值與最小值之差)相比,四分位差不受極值的影響。此外,由于中位數處于數據的中間位置,因此四分位差的大小在一定程度上也說明了中位數對一組數據的代表程度。主要用于測度順序數據的離散程度。當然,對于數值型數據也可以計算四分位差,但不適合于分類數據。
  其以上的幾個信息的示意圖如下所示

下面我們從這個箱線圖來分析一下DAU的近期變化情況

  除了2012-Jan以外,都沒有離群點或者極限值,相對而言,每個月游戲人數整體比較穩定,沒有發生巨大的變化。而在2012-Jan出現了兩個離群值,調查發現,是1月4日和1月5日出現的問題。經過CCU曲線分析,發現關鍵節點數據變化很小,但是24小時總體出現微下降,說明玩家4日和5日的活躍數據被稀釋了,此外,通過對競品的分析發現4日和5日有線上領取活動,再者,節后兩天學生基本需要返校和白領休假歸來,造成數據暫時下滑。
  此外,我們拿到分析數據和上圖來看,12年二月份和11年9月份的中位數較高,說明這段時間內的平均日活躍相對于本月來說較高,這可以看出這段時間內,游戲內的用戶上線較為頻繁(當然此處要結合PCU,在線時長來看更加準確)。
  9月份為開始測試的月份,而2月份為假期階段,因此玩家上線的意愿相對來說會比較高一些。這也是在意料之中的情況。

  然而11年的11月份和12月份,中位數偏低,玩家上線意愿不夠強烈,11月份已經非常低了,主要原因在于這一時期玩家進入考試周期,四六級,中期考試等等,屬于淡季階段。
  11年10月份國慶節期間,玩家上線意愿還算不錯,但是沒有達到理想的效果,中位數低于平均水平,因此國慶假期的活動或者推廣效果不是非常理想,間接也導致了下個月下滑的非常迅速,因此下次節日活動需要進行重新評估和調整。數據如下:

  對于12年一月份的表現算是情理中,今年由于1月份過年,然而過年7天玩家的游戲時間其實是縮水的,沒有太多精力投入游戲,但是從箱線圖來看,表現還算正常。高于平均水平,活動效果應該比較不錯,一月份雖然出現了兩個離群值,但是一月份的標準差是最小的,也就是說一月份整體的活躍趨勢穩定,沒有大的波動。

  總體來看,如果要考察PLC,需要結合收益數據,以及其他的諸如ACU,PCU,新登等數據來綜合看待PLC,但是從DAU來看(狹義來說),人氣在幾個月來保持相對的穩定,但是整體上經歷了小幅的下滑,換個角度說,這款產品存在一些問題,人氣持續穩中有降,可以說玩家度過初級的新手期后,中間的成長、競爭、追求階段出現了問題,訴求不能滿足,導致人氣下滑。更加詳細具體的原因需要更多的數據綜合分析。
  注:以上分析皆建立在與數據的對比之上和其他輔助的數據綜合分析上,當分析者單純觀察一段數據時,不能通過中位數高低輕易下定論認為用戶上線頻繁與否。需要考慮很多的客觀因素。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢