
SPSS—描述性統計分析—探索性分析
菜單
除了可以計算基本的統計量之外,也可以給出一些簡單的檢驗結果和圖形,有助于用戶進一步的分析數據。使得用戶能夠從大量的分析結果之中挖掘到所需要的統計信息。
適用范圍
對資料的性質、分布特點等完全不清楚的時候
Analyze -> Descriptive Statistics -> Expore
數據源
ceramics.sav
因變量列表
用于選入待分析的變量
因子列表
用于選擇分組變量,根據該變量取值不同,分組分析因變量列表中的變量
標注個案
選擇標簽變量
統計量
描述性
計算一般的描述性統計量,及指定的均數可信區間
M-估計量
描述集中趨勢的統計量,用于穩健估計
界外值
分別輸出5個極大值和極小值
百分位數
輸出變量5%,10%,25%,50%,75%,90%,95%分位數
繪制
帶校驗的正態圖
選擇是否進行正態校驗,且是否輸出相應的Q-Q圖
伸展與級別Levene檢驗
當選入分組變量時,該功能才被激活,主要用于比較各組之間的離散程度是否一致。在這里可以選擇“未轉換”,用于方差齊性檢驗
選項
輸出結果
個案處理分析結果
包括觀測量、缺失值等信息
描述性統計量
包括:均值、95%置信區間、方差、中位數、標準差、最大最小值、偏度和峰度等信息
集中趨勢分布的3種較佳平穩測度
較佳測度之一:中位數等
中位數
與均值和眾數大不相同,中位數是依賴于數據的主體部分而不是極值,因此它的值不是過分地受某幾個觀察值的影響
平穩估計量
如果對數據來源的總體做出某個假設(比如假定服從正態分布),則會有更佳分布位置的估計量,這種估計量稱為平穩或穩健測度的估計量
較佳測度之二:修正均值
由于均值深受極端值影響,因此可通過去掉一些遠離主體數據的極端值,進而獲得一個對于分布位置簡單而平穩的估計量
5%修正均值
是通過去掉所有觀察值中最大的5%和最小的5%的數據而獲得
調整后的均值與中位數可更好的利用數據
較佳測度之三:M估計
將極端值計算在內,而賦予比靠近中央值較小的一個權重,這種方法可借助M估計或采用廣義最大似然估計
M-estimators:平穩分布位置的最大似然估計量
Huber的M估計值
Tukey雙權重估計值
Hampel重復遞減M估計值
Andrew波形估計值
M-估計器
極值
這里用標注個案來標記極值
正態性檢驗
其中Premium變量對應的K-S檢驗P值和Shapiro-Wilk檢驗P值均為0.000,非常顯著,應該拒絕原假設。所以,此變量的數據分布不是正態分布。
而Standard數據的分布不是顯著的,可以認為是正態分布
在‘探索’里出現的Kolmogorov-Smirnov 檢驗,它的右上角有一個a 的注釋號。它將Kolmogorov-Smirnov 檢驗改進用于一般的正態性檢驗。
而在‘非參數檢驗’里出現的Kolmogorov-Smirnov 檢驗,是沒有經過糾正或改進的。
該正態性檢驗只能做標準正態檢驗。
SPSS 規定:當樣本含量3≤n≤5000 時,結果以Shapiro—Wilk(W 檢驗)為難,當樣本含量n>5000 結果 以Kolmogorm —Smimov(D檢驗)為準。
問題:
(1) 在實際應用中常出現檢驗結果與直方圖、正態性概率圖不一致,甚至幾種假設檢驗方法結果完全不同的情況。
(2) Shapiro—Wilk 檢驗(Ⅳ 檢驗)和經過Lilliefors 顯著水平修正的Kolmogorov—Smirnov 檢驗(D 檢驗)是用 一個綜合指標(順序統計量Ⅳ 或D)來判定資料的正態性由于兩種方法都是用一個指標反映資料的正態性,
所以當資料的正態峰和對稱性兩個特征有一個不滿足正態性要求時,兩種方法出現假陰性錯誤的機率均較 大;而且兩種方法的檢驗統計量都是進行大小排序后得到,所以易受異常值的影響。
(3) Kolmogorov—Smirnov 單一樣本檢驗是根據實際的累計頻數分布和理論的累計頻數分布的最大差異來檢驗資料的正態性,可對正態分布進行擬合優度檢驗。但它并非檢驗正態性的專用方法,因此它的檢驗效率是最低的,最容易受樣本量和異常值等因素的影響。
方差齊性檢驗
如上圖,Sig > 0.2,并無顯著差異。
正態Q-Q圖
正態性檢驗可以通過直觀的Q-Q圖,進行人工驗證。
Q-Q圖是一種散點圖,對應于正態分布的Q-Q圖,就是由標準正態分布的分位數為橫坐標,樣本值為縱坐標的散點圖. 要利用QQ圖鑒別樣本數據是否近似于正態分布,只需看QQ圖上的點是否近似地在一條直線附近,而且該直線的斜率為標準差,截距為均值.
如上圖,batch=Standard Q-Q圖上的點在一條直線附近,可以認為是正態分布,和正態性檢驗Lilliefors,Shapiro-Wilk得出的結果一致。
反趨勢正態 Q-Q 圖
如上圖,反趨勢正態概率Q-Q圖以變量的觀測值為X坐標,以變量的Z得分與期望值的偏差為Y坐標。
batch=Standard 圖的觀測點離期望值很集中,說明符合正態分布。
盒子圖
Premiun中有部分異常數據,數據偏大。需要進行異常值檢測。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25