
數據分析方法:非參數檢驗
前面介紹了T檢驗和方差分析,它們解決的是正態分布的高測度數據的均值差異性問題。對于非正態分布的高測度數據,T檢驗或方差分析的方法就不再適用了。
均值差異性的檢驗方法:Z檢驗和T檢驗綜述;
均值差異性檢驗:方差分析綜述;
對于分布形態未知的數據,常用處理方法如下:
判斷數據序列的分布形態
以標準的正態分布形態為基準,檢驗數據序列與正態序列是否存在分布差異性,這里可以用單樣本的K-S檢驗,如果沒有顯著性差異,就認為該序列滿足正態分布。對于已經滿足正態分布的序列,可以直接使用基于正態分布的數據分析技術,比如T檢驗和方差分析。
轉化為正態分布序列
明確不是正態分布的序列,可以通過技術手段將序列轉化為接近正態分布的形態。在數據分析過程中,人們常常借助于秩分把非正態分布的數據轉化為接近正態分布的形態;或者借助于Z分數和正態得分對數據序列進行預處理,然后借助正態分布差異性分析結束實現差異顯著性檢驗。
非參數檢驗方法
除了轉化為正態分布序列,還可直接使用非參數檢驗方法檢驗其分布差異性。實際上,所謂的非參數檢驗,其實質就是借助于秩分或符號等技術對原始序列進行轉化,然后借用類似參數檢驗的手段開展數據分析。
非參數檢驗
前面說到,對于不符合正態分布的數據,可以采用非參數檢驗的方法進行數據分析。在這里,不符合正態分布的數據可以分為兩種:1、不符合正態分布的高測度數據(定距數據和高測度的定序數據);2、低測度數據(定類數據和低測度的定序數據)。根據上面兩種數據類型,非參數檢驗主要包括下面三個方面的內容:
檢驗樣本的分布形態
檢驗高測度數據序列的分布形態,這是針對單變量的檢驗,其方法是檢驗數據序列的分布與標準分布形態的差異性。如果當前數據序列與標準分布形態沒有顯著性差異,則被認為當前序列滿足該分布形態。常見的針對單樣本數據判斷其分布形態的檢驗技術主要有:單樣本K-S檢驗、單樣本游程檢驗、二項分布檢驗、卡方檢驗。
分布形態差異顯著性檢驗
對于不符合正態分布的高測度數據序列,常見的差異顯著性檢驗方法有:1、兩獨立樣本的差異顯著性檢驗;2、多獨立樣本的差異顯著性檢驗;3、兩關聯樣本的差異顯著性檢驗;4、多關聯樣本的差異顯著性檢驗。
低測度數據的差異顯著性檢驗
對于不符合正態分布的定類數據或低測度定序數據,其檢驗方法是利用交叉表技術分行分列計算交叉點的頻數,利用卡方距離實施卡方檢驗,基于頻數和數據分布形態分析不同類別的數據是否存在顯著性差異。對于定類數據的對比檢驗,也叫獨立性檢驗。
分布形態差異顯著性檢驗
分布形態檢驗前面已經介紹過,低測度數據的卡方檢驗將在下一篇文章中介紹。下面重點介紹對于非正態分布的高測度數據的分布形態差異顯著性檢驗方法。
兩關聯樣本的非參數檢驗
對不滿足正態分布的兩關聯樣本,如果分析其是否存在顯著性差異,不可以通過均值比較其差異性,通常是通過對比其分布形態比較其差異性。
數據序列的三個要求:1、樣本數據來源于同一總體的不同視角,或者是對相同樣本的多次測量;2、幾組樣本數據之間存在一一對應的關聯性;3、數據不滿足正態分布,或樣本的測量區分度不高。
兩關聯樣本非參數檢驗的方法
符號秩檢驗(Wilcoxon);基于符號檢驗其秩分分布的辦法,本質上是一種檢驗平均秩的檢驗。即把樣本的兩次觀測值相減,記錄差值的符號和絕對值,并基于絕對值升序求秩分,比較兩組數據的正值秩分或負值秩分,從而確定其差異性。
符號檢驗(Sign);純粹通過符號實施數據檢驗的一種方法,即對樣本的兩次測量值直接相減求取符號,然后根據符號情況確定其差異性。由于符號檢驗僅僅通過正負號進行檢驗,適合于測度較低的非定距數據,其檢驗準確度不夠高。
變化顯著性檢驗(McNemar);變化顯著性檢驗,是基于兩次測量差值情況的檢驗方法。即把樣本的兩次測量值相減,記錄差值,然后通過校驗公式處理后,求取卡方值。然后基于卡方檢驗決定其差異性。變化顯著性檢驗,僅適用于兩個變量均為二分數據的情況。
邊緣一致性檢驗(MarginalHomo);邊緣一致性檢驗,也是基于兩次測量差值情況的檢驗方法,主要通過把先后測量的兩組樣本值進行卡方檢驗?;诳ǚ綑z驗的方法判斷序列之間差異性。邊緣一致性檢驗,對變量的要求并不局限于二分數據,還可以面向多值的分類變量。
多關聯樣本的非參數檢驗
當關聯樣本多于兩個時,需要用多關聯樣本的非參數檢驗。多關聯樣本的非參數檢驗方法主要有:
雙向等級方差分析(FriedMan);雙向等級方差分析是基于K個變量降序秩分的差異顯著性檢驗。這是基于秩分的一種方差分析方法,其基本思路是先對樣本的K個檢驗量進行降序求秩分,然后按照秩分做方差分析。雙向等級方差分析,比較適合于針對定距變量和高測度定序變量的數據分析。
肯德爾和諧系數檢驗(Kendall);肯德爾和諧系數檢驗,是基于肯德爾系數的差異顯著性檢驗技術,是基于秩分的平均等級分析。其基本思路是:先計算K個觀測量卡方值和肯德爾和諧系數W,然后判斷其觀測值的分布是否一致。在肯德爾和諧系數檢驗中,以肯德爾和諧系數W表示被檢驗變量的秩分之間的差異程度。協同系數W的取值在0~1,W越接近于1,表示變量的組件差異越大,反之,協同系數W越接近于0,表示變量的組間差異越小??系聽柡椭C系數檢驗,比較適合于定距變量與定序變量的處理。
二分變量檢驗(Cochran檢驗);二分變量檢驗,通過檢驗多個樣本量的CochranQ系數,以便分析K各關聯樣本是否來自同一總體或者具有相同的分布。二分變量檢驗,主要面向二分變量的分析。
兩獨立樣本的非參數檢驗
對不滿足正態分布的兩獨立樣本,如需要分析其是否存在顯著性差異,同樣不可以通過均值比較其差異性,通常是通過分布形態或秩分比較其差異性。對于兩獨立樣本的非參數檢驗,對數據序列主要有以下要求:1、樣本數據來源于同一總體;2、樣本數據不滿足正態分布,或樣本的測量區分度不高;3、樣本數據可被另外的分組變量劃分為兩組;
兩獨立樣本非參數檢驗的方法
Wilcxon W等級和檢驗(Mann-Whitney U);Wilcxon W(威爾克科遜)等級與檢驗,也叫曼-惠特尼U檢驗,其基本思路是:把全部樣本混在一起求秩,然后根據兩組樣本的秩分情況判斷是否存在差異。曼-惠特尼U檢驗本質上是一種通過比較兩個樣本秩分情況而獲得差異顯著性檢驗結論的一種檢驗技術。本算法適應于定距數據和定序數據。
摩西極端反映的差異檢驗(MosesExtreme reaction);摩西極端反映檢驗,即摩西極端反映的差異顯著性檢驗,即對全體樣本混合求秩分,根據兩端的極端秩分值確定其差異性。摩西極端反映檢驗是通過檢驗極端秩分值來反映的差異情況,來判斷兩組數據的分布是否存在差異。
兩獨立樣本的K-S檢驗(Kolmogorov-Smirnov Z);兩獨立樣本的K-S檢驗,是基于秩分累積頻數的檢驗方式。即對全體樣本混合求取秩分,然后針對秩分的累積頻數或累積頻率進行差異顯著性檢驗。本算法適應于定距數據和定序數據。如果預先把其中一組數據設置為標準分布形態的數據,那么通過K-S分析待檢驗序列與標準分布的差異性水平,就能實現針對單樣本數據的分布形態的判定。
沃爾德-沃爾福威茨游程檢驗(Wald-Wolfwitz runs);沃爾德-沃爾夫威茨游程檢驗,是基于秩分排列的游程檢驗。即對全體樣本混合求取秩分,并基于兩組樣本在秩分序列中的位置構造游程。通過分析游程的大小和數量實現游程檢驗,從而判斷兩組樣本在混合序列中的排列是否為隨機的。若兩組樣本在混合序列中的排列是隨機的,則兩組樣本之間沒有顯著性差異。
多獨立樣本的非參數檢驗
多獨立樣本的差異顯著性檢驗既可以是針對同一總體的不同隨機抽樣,也可以源于不同總體,其目的是判斷多個樣本序列的差異是否顯著。在多獨立樣本的差異顯著性檢驗中,對符合正態分布的高測度數據,通常使用方差分析的方法,而對不符合正態分布的數據,或者方差非齊性時,則常常使用非參數檢驗的方法。
多獨立樣本非參數檢驗的方法
K-W平均秩檢驗(Kruskal-Wailis H);K-W平均秩檢驗是一種基于平均秩的差異顯著性檢驗。其基本思路是:先把待分析的觀測變量序列排序后求取秩分(或者把多個獨立樣本的數據混合后排序并求取秩分),然后基于各組秩分,進行類似方差分析的計算,分析秩分的均值差異是否顯著。K-W平均秩檢驗是基于秩分的一種方差分析技術,適合于觀測變量為定距數據或定序數據的場合。
中位數檢驗(Median);中位數檢驗是基于數據序列的中位數而設計的一種差異性的檢驗。其基本思路:先求取混合后數據的中位數,然后利用卡方分布統計量來計算每個樣本組內中位數兩側個案數的差異性。中位數檢驗適合于測度不高的定序變量。
分組分布檢驗(Jonckheere);分組分布檢驗是通過檢驗多個樣本組是否具有相同分布來判斷差異性的方法。樣本的分組根據分組變量定義。分組分布檢驗既可以檢驗定距變量,也可以檢驗定序變量。對于定序變量,本方法比K-W檢驗更為有效。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25