熱線電話:13121318867

登錄
首頁精彩閱讀SPSS分析技術:CMH檢驗(分層卡方檢驗);辛普森悖論,數據分析的謬誤
SPSS分析技術:CMH檢驗(分層卡方檢驗);辛普森悖論,數據分析的謬誤
2017-09-20
收藏

SPSS分析技術:CMH檢驗(分層卡方檢驗);辛普森悖論,數據分析的謬

只涉及兩個分類變量的卡方檢驗有些時候是很局限的,因為混雜因素總是存在,如果不考慮混雜因素,得出的分析結論很可能是謬誤的,這就是著名的辛普森悖論。辛普森悖論的故事是這樣的:1973年秋季,加州大學伯克利分校研究生院的新生入學。有些人在看到學校兩個學院的綜合錄取表格后,懷疑學校在錄取學生時存在性別歧視,因為女生錄取率低于男生,如下表所示:

為了平息質疑,校領導根據學院的不同,將綜合錄取率拆開,分別考察商學院和法學院的錄取情況,結果驚奇的發現兩個學院的女生錄取率都高于男生。

出現這種矛盾的原因:1、商學院的錄取率遠高于法學院;2、男生和女生申請商學院和法學院的比例不同,更多的男生申請商學院,而女生則更多申請法學院。雖然商學院和法學院都是女生錄取率高于男生,但綜合兩個學院的數據后,女生的錄取率卻低于男生了。

以上的辛普森悖論對數據分析者是個很好的警醒:有些分析結論看似準確,板上釘釘,實則不然,可能背后隱藏著一些分析者沒有注意到的潛在因素,這要求數據分析者對研究背景非常熟悉,避免忽略重要的潛在因素。辛普森悖論又一次說明數據分析是一門理論和實際聯系非常緊密的科學,缺一不可,甚至研究背景更為重要。

CMH檢驗

CMH檢驗的全稱是Cochran’s and Mantel-Haenszel statistics,由兩個偉大的統計學家的名字組成,又稱為分層卡方檢驗,CMH檢驗能夠很好的解決辛普森悖論的出現。例如上面的典故,考察的是不同性別的錄取率差異,而學院是對分析結論有顯著影響的潛在因素,CMH檢驗可以對學院這個分類變量進行控制,得出不同性別錄取率之間是否存在差異。

前面的內容介紹過,根據兩個分類變量水平數的不同,卡方檢驗可以分成2*2、R*2、2*C和R*C等類型,從CMH檢驗的原理來說,適用于以上所有的情況,但是SPSS軟件只能對2*2四格表卡方進行CMH檢驗,也稱為K*2*2表格數據的CMH檢驗。

用個具體的醫學案例來說明K*2*2表格數據的CMH檢驗。大家都知道吸二手煙對身體有害,那么這種主觀的判斷是否正確呢?某個醫學組織對此展開了研究,研究吸二手煙是否會提高患癌風險,根據實際情況,調查者自己是否吸煙會嚴重影響吸二手煙和患癌風險間的相關性,因此將主動吸煙(自己是否吸煙)作為混雜因素處理。首先給出吸二手煙與是否患癌的2*2四格表資料:

如果將混雜因素也放入表中,那么數據資料可以整理成以下形式,可以發現原來的單元格內的頻數被拆分開了。

CMH檢驗的統計量計算公式根據是否進行連續型修正,分為為連續性校正和連續性校正兩個,兩者之間的差距不大,通常以校正結果為準。它們的計算公式如下:

從CMH統計量的計算公式可以知道,CMH檢驗將所有2*2表格(混雜因素有幾個水平就有幾個2*2表格)的頻數分布情況都考慮在內了,這樣就對混雜因素的影響作出了控制。計算上面這個案例的CMH卡方值:

我們以修正的CMH檢驗卡方值13.942為準,查自由度為1的卡方分布表,卡方值13.942對應的顯著性概率值為0.00018,小于0.05,說明剔除主動吸煙影響后,患癌與被動吸煙之間確實存在相關性。

CMH檢驗的共同比值比

對于2*2四格表,比值比的計算是必須的,比值比能夠表示不同組間的相對危險程度。CMH的比值比(OR值)同樣與不考慮混雜因素的比值比計算公式不同,CMH檢驗的共同比值比計算公式為:

舊以上面的案例數據為例,計算案例的CMH共同比值比,計算過程如下:

消除主動吸煙因素的影響后,OR=1.625,說明患癌人群中被動吸煙人數比例大約為未患癌人群的1.625倍。接下來還能夠計算共同比值比的置信區間,這個過程草堂君就不繼續描述了,通過軟件都可以直接輸出。

SPSS案例分析

將上面的案例整理進入SPSS軟件中,然后運用軟件中的Cochran’s and Mantel-Haenszel檢驗功能進行分析,對比軟件輸出結果與上面的手動計算結果是否一致。這個過程能夠幫助大家更好的理解CMH檢驗的理論邏輯。錄入SPSS的數據情況如下:


分析步驟

1、首先進行個案加權,將文件中的頻數作為加權依據。具體的操作步驟,請點擊下方文章鏈接回顧:SPSS分析技術:加權個案;讓頻數記錄數據也能用SPSS做列聯表分析。

2、選擇菜單【分析】-【描述統計】-【交叉表】,在跳出的對話框中,進行如下操作。根據上面的表格數據,將是否患癌選為行變量,將是否被動吸煙選為列變量,將是否主動吸煙選為混雜因素。點擊【統計】按鈕,選中卡方選項;再選中柯克蘭和奧特爾-亨塞爾統計,檢驗一般比值比的框內填寫1即可(比值比為1,表示患癌組和為患癌組的被動吸煙比例相同)。

3、點擊確定,輸出結果。

結果解釋

1、K*2*2頻數統計表??梢园l現,輸出的表格和上面案例的整理表格結果是完全一致的。

2、分層2*2四格表的卡方檢驗結果。從結果可知,主動吸煙人群中,皮爾遜卡方、連續性修正和費舍爾精確檢驗的結果都是小于0.05,說明患癌和被動吸煙間存在相關性。而不吸煙人群中,結論于此相反,患癌和被動吸煙間不存在相關性。不考慮主動吸煙的混雜因素,結果是患癌和被動吸煙間存在相關性。

3、比值比齊性檢驗結果。在操作步驟中,檢驗比值比的值為1。兩種比值比齊性檢驗的結果都大于0.05,說明兩個分層2*2四格表的比值比與1之間沒有顯著性差異,也就是兩個分層四格表的比值比是齊性的。

4、柯克蘭和奧特爾-亨塞爾檢驗結果??梢园l現SPSS輸出的結果分成兩個,柯克蘭卡方值14.451和我們手動算的未連續性校正的結果一致,而曼特爾-亨塞爾卡方值則與連續性校正的結果一致。顯著性結果都小于0.05,說明剔除主動吸煙影響后,患癌與被動吸煙之間確實存在相關性。

5、綜合比值比結果。從結果可知,CMH檢驗的綜合比值比結果也和我們手動算的一致。比值比區間為1.264到2.09之間,不包括1,說明患癌人群中被動吸煙人數比例確實比未患癌人群的比例高,高出1.264到2.09倍。

總結一下

本篇文章介紹了CMH檢驗的分析理論和SPSS的分析操作過程??梢灾?,CMH檢驗能夠將非實驗考慮的混雜因素剔除,使得獲取的分析結果能夠真正表明兩個分類型變量之間的關系,避免很多謬誤的產生。CMH檢驗在醫學領域和實驗設計領域都扮演非常重要的角色。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢