熱線電話:13121318867

登錄
首頁大數據時代兩獨立樣本秩和檢驗——Mann-Whitney檢驗
兩獨立樣本秩和檢驗——Mann-Whitney檢驗
2020-08-11
收藏

文章來源: 丁點幫你

作者:丁點helper 

兩組獨立樣本的非參數檢驗與其t檢驗相對,主要是用于不滿足正態分布的小樣本,一般用Wilcoxon秩和檢驗,又稱Mann-Whitney 檢驗。

這里我們想指出一點的是,人們往往對正態性的關注更多一些,其實樣本量也很重要,這里是樣本量較小的情形,如果樣本量足夠大(比如超過40),即使正態性不滿足,也可以使用t檢驗,而且更推薦用t檢驗。

案例:在某小學隨機采集12歲男童和女童各10名的頭發樣品,檢測發樣中鈣(Ca)含量(μg/g),數據見下表。男童與女童頭發中Ca含量有無差異?

上述數據經過正態性檢驗,P<0.05,此時認為數據不符合正態分布,即男童組與女童組的數據均不服從正態分布;又因為樣本量合計僅有20,所以可采用非參數秩和檢驗。

下面,我們簡單說說這其中的基本思想:

和之前講解的單樣本及配對樣本秩和檢驗一致,這里都需要先編制求秩和,然后用秩和進行檢驗統計量的計算。

比如,隨機抽取樣本量分別為n1和n2的兩個獨立樣本,要先將全部數據統一編秩,注意是兩組混合起來統一編制。

如上表,就是將男童與女童混合在一起進行編制,然后分組計算秩和。

這里,相當于對原始數據進行了秩變換,即用秩數據代替原始數據進行分析,從而不受原始數據需滿足正態分布的條件限制。

如果上述女童組的Ca含量原始數據高于男童組,則女童組Ca含量的秩和也大概率會高于男童組。

我們說過,編秩就是數數,這里一共有20個樣本,總秩和加起來為210(就是從1加到20:用中學的公式,首位相加乘以項數除以2)。

如果滿足假設,兩組兒童Ca含量沒有差異,那么兩組的秩和大概率都等于105(210的一半)。

以上是基本的思路,嚴格來講,檢驗是在計算秩和后,取任意一組樣本(如男童)的秩和(R1=77)作為Wilcoxon秩和檢驗統計量W,在H0假設成立情況下,則W的均數和標準差分別等于:

W遠離其均數時,則有理由拒絕零假設,認為兩組有差異。

比如本例W=77(男童的秩和),比  小約2倍標準差:(77-105)/13.229=-2.116,所以,粗略判斷,兩組數據應該是有差異的。

這里關于W統計量均數和標準差的計算可以不用特別關注,主要是理解整個思想過程,具體的計算都會交由軟件來做。

上述案例標準的檢驗的步驟總結如下:

(1) 建立檢驗假設,確定檢驗水準

H0:男童與女童頭發中Ca含量的總體分布相同

H1:男童與女童頭發中Ca含量的總體分布不同

a=0.05

(2) 編秩、求秩和

先將男童組與女童組發樣中Ca含量的數值由小到大統一編秩,將兩組秩分別相加得每組秩和。

(3) 計算檢驗統計量

本例W=77,Z=-2.116。

(4) 確定P值,作出推斷

本例P=0.034,按α=0.05 水準拒絕H0 ,接受H1 ,可以認為男童與女童的頭發中Ca含量差異有統計學意義。男童組平均秩為77/10=7.7,女童組平均秩為133/10=13.3,可認為女童的頭發中Ca含量高于男童。

另外,值得指出的是,在實際應用中,有一些數據是用離散尺度表達的,什么意思?

比如對于疼痛的評分,研究者會將疼痛用0至10個數據表示,0表示無痛、10表示最痛,研究對象需要根據自身的疼痛程度在這11個數字中挑選一個數字代表疼痛程度。

當用此類數據進行秩和檢驗,常常會出現很多相同秩,這個時候,檢驗統計量的計算會略有差別,這個大家稍微留意,不過一般統計軟件在分析時會自動調整。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢