
小白學數據分析--SPSS探索分析實踐操作[不同生命周期]
SPSS為我們提供了探索分析,所謂探索分析之所以是探索,是因為有時候我們對于變量的分布特點不是很清楚,探索的目的在于幫助我們完成以下的工作:
識別數據:例如數據的分布形式、異常值、缺失值;
正態性檢驗:服從正態分布的檢驗;
方差齊性檢驗:不同數據組的方差是否相等。
有關于方差齊性檢驗原理、正態分布這里不累述,這里主要介紹SPSS的探索分析使用。
數據文件
這里使用的文件是不同周期的充值用戶的充值數據,這里主要是針對流失用戶和活躍用戶的充值數據。
具體操作
首先將源文件加載到SPSS中,選擇菜單分析|描述統計|探索,如下圖所示:
之后彈出對話框如下:
在該對話框中,有幾個輸入的位置:
因變量:為我們要分析的目標變量,變量多是連續性變量居多。
因子:是目標變量的分組,本例中,就是針對充值用戶的充值金額進行分組,比如活躍和流失兩組。
標注個案:對于異常值進行標注,識別異常值。
在此處,我們因變量選取充值總額,因子選取用戶狀態,標注個案我們選取服務器ID,如下圖所示:
在該彈窗還有幾個按鈕,首先我們設置一下統計量按鈕,打開統計量的窗口如下所示:
該彈窗的作用主要是設置輸出時的統計量,在該彈窗可以看到以下的信息:
描述性:主要是完成輸出一些我們之前說過的描述性統計的統計量,這些信息詳見(http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/10/23/2221838.html)。同時這里還有一個置信區間的設置問題,這里默認的是95%,關于置信區間以后會說到,這里不再累述。
M-估計量:輸出四種均值的穩健極大似然估計量,這里面有穩健估計量、非穩健估計量、波估計值、復權重估計量,有關于這部分的信息參見附件。
界外值:輸出變量數據的前5個最大值和后5個最小值。
百分位數:變量數據的百分位數。
這里我們只選擇描述性就可以了。接下來就是繪制對話框的設置了。
在此對話框中,有箱圖、描述性、伸展與級別Levene檢驗三部分構成。首先來看箱圖部分。
我們默認選擇按因子水平分組,這標志著因變量的箱圖將按照因子進行多個顯示,此時就會有多個箱圖,這取決于你分組的個數決定,當然不分組,就只會顯示一個箱圖,無,則就是不顯示箱圖。
描述性,則是選擇輸出的圖形的種類而異。
伸展與級別Levene檢驗是設置數據轉換的散步水平,其實就是對于原始數據變化的設置。有完成兩個任務,一個是數據轉換后的回歸曲線斜率,另一個就是方差齊性檢驗。該部分主要有四種選項,無、冪估計、已轉換、未轉換。
無,則是不輸出,變量的散步水平;
未轉換,不對原始數據進行變換;
已轉換,對因變量進行數據轉換,方法有自然對數變換、1/平方根變換、倒數變換、平方根變換、立方變換。
冪估計,對每一個變量數據產生一個中位數的自然對數和四分位數的自然對數的散點圖,對各變量的方差轉化為同方差所需要的冪的估計。
在此處,我們選擇無。
當然在這個對話框中,還有一個部分比較重要,那就是帶檢驗的正態圖。此選項能夠輸出正態概率圖和離散概率圖,且可以輸出變量數據經Lilliefors顯著水平修正的K-S和S-W的統計量。
下面就是選項對話框的設置了,該部分主要是針對缺失值的處理,方法有三種:
按列表排除個案:只要任何一個變量含有缺失值,就要踢出所有因變量或分組變量中有缺失值的觀測記錄。
按對排除個案:僅僅踢出所用到的變量的缺失值。
報告值:變量中存在缺失值單獨作為一個類別進行統計,輸出。
之后確定,結果輸出,所有的結果會在查看器重顯示,如下圖:
報告分為幾部分,摘要、描述統計、正態性檢驗、各種圖形。
摘要部分
主要是確認是有缺失值情況信息。
描述統計部分
主要輸出各項統計信息,參看描述性統計一文介紹。
正態性檢驗部分
Df表示自由度
Sig表示檢驗的顯著水平,即P值,一般來說P值越大,越支持正態分布。
此處我們假設服從正態分布,根據K-S統計量和S-W統計量可以看出,兩種用戶的充值總額顯著水平小于5%,即sig<0.05不服從正態分布。
圖形部分
上圖為莖葉圖
Frequency表示數據的頻數,stern表示莖,Leaf表示葉,兩者表示數據的整數部分和小數部分,Stern width表示寬度。
怎么看這個莖葉圖?
莖葉圖其實是一種很形象的圖示,下面告訴諸位怎么看莖葉圖。簡單的一句話解釋就是:多少頻數就代表多少(葉子+莖)。下面舉一個例子來看。比如下圖的數據:
其含義代表充值額2.5元的有三例,充值額2.8有兩例,共計5例。
此外還有標準和趨勢QQ圖,用于從圖形的角度來分析數據是否呈現正態分布。
首先來看標準QQ圖,如果服從正態分布,則散點分布是接近于一條直線的,形式如下:
然而在本類中,我們看到流失玩家和活躍玩家的充值金額QQ圖如下:
可以看到是不符合正態分布的。同樣的我們看到的趨勢QQ圖則也是要分布在直線周圍才是正態分布,而在下面的趨勢QQ圖中,卻不是這樣的情況。
最后還有一個圖,就是箱線圖,有關箱線圖的解釋和分析,已經在以前的文章中有所闡述,可翻閱(http://www.cnblogs.com/yuyang-DataAnalysis/archive/2012/03/08/2385874.html)。
這里簡單的再說一句,矩形框的部分是箱線圖的主體,上中下三線代表75%,50%,25%的百分位數。
縱向的直線叫做觸須線,上截止到變量本體的最大值,下截止到變量本體的最小值。所謂本體即除奇異值以外 的變量值叫做本體值。
奇異值,用0作為標記,分大小兩種,箱體上方用0標記,變量值超過第75分位與25分位數的變量差的1.5倍。箱體下方則表示小于這個1.5倍。
極值,用*表示,箱體上方是超過變量差值的3倍(75分位和25分位之差),箱體下方同理。
按照上述的敘述,可以看看我們所分析的數據的具體情況,這里不再累述了。
以上結合了一些教材把探索性分析的基本操作講述了一遍,作為探索性分析這只是我們作為更深入分析的一個前奏過程,但是這里卻不能忽略其價值,比如怎么看莖葉圖,箱線圖,正態分布檢驗等等,在網游行業的應用其實也有很多,比如今天提到的不同生命周期玩家的充值的探索性分析,還有比如付費與非付費玩家的等級成長探索分析,不同服務器,不同渠道,不同充值平臺之間的玩家的探索分析,這些雖然看似簡單,但是都是值得去做和慢慢研究的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25