熱線電話:13121318867

登錄
首頁精彩閱讀小白學數據分析--SPSS探索分析實踐操作[不同生命周期]
小白學數據分析--SPSS探索分析實踐操作[不同生命周期]
2016-06-18
收藏

小白學數據分析--SPSS探索分析實踐操作[不同生命周期]

 SPSS為我們提供了探索分析,所謂探索分析之所以是探索,是因為有時候我們對于變量的分布特點不是很清楚,探索的目的在于幫助我們完成以下的工作:
    識別數據:例如數據的分布形式、異常值、缺失值;
    正態性檢驗:服從正態分布的檢驗;
    方差齊性檢驗:不同數據組的方差是否相等。
    有關于方差齊性檢驗原理、正態分布這里不累述,這里主要介紹SPSS的探索分析使用。
    數據文件
    這里使用的文件是不同周期的充值用戶的充值數據,這里主要是針對流失用戶和活躍用戶的充值數據。
    具體操作
    首先將源文件加載到SPSS中,選擇菜單分析|描述統計|探索,如下圖所示:



    之后彈出對話框如下:



    在該對話框中,有幾個輸入的位置:
    因變量:為我們要分析的目標變量,變量多是連續性變量居多。
    因子:是目標變量的分組,本例中,就是針對充值用戶的充值金額進行分組,比如活躍和流失兩組。
    標注個案:對于異常值進行標注,識別異常值。
    在此處,我們因變量選取充值總額,因子選取用戶狀態,標注個案我們選取服務器ID,如下圖所示:



    在該彈窗還有幾個按鈕,首先我們設置一下統計量按鈕,打開統計量的窗口如下所示:



    該彈窗的作用主要是設置輸出時的統計量,在該彈窗可以看到以下的信息:
    描述性:主要是完成輸出一些我們之前說過的描述性統計的統計量,這些信息詳見(http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/10/23/2221838.html)。同時這里還有一個置信區間的設置問題,這里默認的是95%,關于置信區間以后會說到,這里不再累述。
    M-估計量:輸出四種均值的穩健極大似然估計量,這里面有穩健估計量、非穩健估計量、波估計值、復權重估計量,有關于這部分的信息參見附件。
    界外值:輸出變量數據的前5個最大值和后5個最小值。
    百分位數:變量數據的百分位數。
    這里我們只選擇描述性就可以了。接下來就是繪制對話框的設置了。

    在此對話框中,有箱圖、描述性、伸展與級別Levene檢驗三部分構成。首先來看箱圖部分。
    我們默認選擇按因子水平分組,這標志著因變量的箱圖將按照因子進行多個顯示,此時就會有多個箱圖,這取決于你分組的個數決定,當然不分組,就只會顯示一個箱圖,無,則就是不顯示箱圖。
    描述性,則是選擇輸出的圖形的種類而異。
    伸展與級別Levene檢驗是設置數據轉換的散步水平,其實就是對于原始數據變化的設置。有完成兩個任務,一個是數據轉換后的回歸曲線斜率,另一個就是方差齊性檢驗。該部分主要有四種選項,無、冪估計、已轉換、未轉換。
    無,則是不輸出,變量的散步水平;
    未轉換,不對原始數據進行變換;
    已轉換,對因變量進行數據轉換,方法有自然對數變換、1/平方根變換、倒數變換、平方根變換、立方變換。
    冪估計,對每一個變量數據產生一個中位數的自然對數和四分位數的自然對數的散點圖,對各變量的方差轉化為同方差所需要的冪的估計。
    在此處,我們選擇無。
    當然在這個對話框中,還有一個部分比較重要,那就是帶檢驗的正態圖。此選項能夠輸出正態概率圖和離散概率圖,且可以輸出變量數據經Lilliefors顯著水平修正的K-S和S-W的統計量。
    下面就是選項對話框的設置了,該部分主要是針對缺失值的處理,方法有三種:
    按列表排除個案:只要任何一個變量含有缺失值,就要踢出所有因變量或分組變量中有缺失值的觀測記錄。
    按對排除個案:僅僅踢出所用到的變量的缺失值。
    報告值:變量中存在缺失值單獨作為一個類別進行統計,輸出。


    之后確定,結果輸出,所有的結果會在查看器重顯示,如下圖:



    報告分為幾部分,摘要、描述統計、正態性檢驗、各種圖形。
    摘要部分
    主要是確認是有缺失值情況信息。
    描述統計部分
    主要輸出各項統計信息,參看描述性統計一文介紹。
    正態性檢驗部分


    Df表示自由度
    Sig表示檢驗的顯著水平,即P值,一般來說P值越大,越支持正態分布。
    此處我們假設服從正態分布,根據K-S統計量和S-W統計量可以看出,兩種用戶的充值總額顯著水平小于5%,即sig<0.05不服從正態分布。
    圖形部分



    上圖為莖葉圖
    Frequency表示數據的頻數,stern表示莖,Leaf表示葉,兩者表示數據的整數部分和小數部分,Stern width表示寬度。
    怎么看這個莖葉圖?
    莖葉圖其實是一種很形象的圖示,下面告訴諸位怎么看莖葉圖。簡單的一句話解釋就是:多少頻數就代表多少(葉子+莖)。下面舉一個例子來看。比如下圖的數據:


    其含義代表充值額2.5元的有三例,充值額2.8有兩例,共計5例。
    此外還有標準和趨勢QQ圖,用于從圖形的角度來分析數據是否呈現正態分布。
    首先來看標準QQ圖,如果服從正態分布,則散點分布是接近于一條直線的,形式如下:


    然而在本類中,我們看到流失玩家和活躍玩家的充值金額QQ圖如下:


    可以看到是不符合正態分布的。同樣的我們看到的趨勢QQ圖則也是要分布在直線周圍才是正態分布,而在下面的趨勢QQ圖中,卻不是這樣的情況。

    最后還有一個圖,就是箱線圖,有關箱線圖的解釋和分析,已經在以前的文章中有所闡述,可翻閱(http://www.cnblogs.com/yuyang-DataAnalysis/archive/2012/03/08/2385874.html)。
    這里簡單的再說一句,矩形框的部分是箱線圖的主體,上中下三線代表75%,50%,25%的百分位數。
    縱向的直線叫做觸須線,上截止到變量本體的最大值,下截止到變量本體的最小值。所謂本體即除奇異值以外 的變量值叫做本體值。
    奇異值,用0作為標記,分大小兩種,箱體上方用0標記,變量值超過第75分位與25分位數的變量差的1.5倍。箱體下方則表示小于這個1.5倍。
    極值,用*表示,箱體上方是超過變量差值的3倍(75分位和25分位之差),箱體下方同理。
    按照上述的敘述,可以看看我們所分析的數據的具體情況,這里不再累述了。

    以上結合了一些教材把探索性分析的基本操作講述了一遍,作為探索性分析這只是我們作為更深入分析的一個前奏過程,但是這里卻不能忽略其價值,比如怎么看莖葉圖,箱線圖,正態分布檢驗等等,在網游行業的應用其實也有很多,比如今天提到的不同生命周期玩家的充值的探索性分析,還有比如付費與非付費玩家的等級成長探索分析,不同服務器,不同渠道,不同充值平臺之間的玩家的探索分析,這些雖然看似簡單,但是都是值得去做和慢慢研究的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢