
SPSS分析技術:CMH檢驗(分層卡方檢驗);辛普森悖論,數據分析的謬誤
只涉及兩個分類變量的卡方檢驗有些時候是很局限的,因為混雜因素總是存在,如果不考慮混雜因素,得出的分析結論很可能是謬誤的,這就是著名的辛普森悖論。辛普森悖論的故事是這樣的:1973年秋季,加州大學伯克利分校研究生院的新生入學。有些人在看到學校兩個學院的綜合錄取表格后,懷疑學校在錄取學生時存在性別歧視,因為女生錄取率低于男生,如下表所示:
為了平息質疑,校領導根據學院的不同,將綜合錄取率拆開,分別考察商學院和法學院的錄取情況,結果驚奇的發現兩個學院的女生錄取率都高于男生。
出現這種矛盾的原因:1、商學院的錄取率遠高于法學院;2、男生和女生申請商學院和法學院的比例不同,更多的男生申請商學院,而女生則更多申請法學院。雖然商學院和法學院都是女生錄取率高于男生,但綜合兩個學院的數據后,女生的錄取率卻低于男生了。
以上的辛普森悖論對數據分析者是個很好的警醒:有些分析結論看似準確,板上釘釘,實則不然,可能背后隱藏著一些分析者沒有注意到的潛在因素,這要求數據分析者對研究背景非常熟悉,避免忽略重要的潛在因素。辛普森悖論又一次說明數據分析是一門理論和實際聯系非常緊密的科學,缺一不可,甚至研究背景更為重要。
CMH檢驗
CMH檢驗的全稱是Cochran’s and Mantel-Haenszel statistics,由兩個偉大的統計學家的名字組成,又稱為分層卡方檢驗,CMH檢驗能夠很好的解決辛普森悖論的出現。例如上面的典故,考察的是不同性別的錄取率差異,而學院是對分析結論有顯著影響的潛在因素,CMH檢驗可以對學院這個分類變量進行控制,得出不同性別錄取率之間是否存在差異。
前面的內容介紹過,根據兩個分類變量水平數的不同,卡方檢驗可以分成2*2、R*2、2*C和R*C等類型,從CMH檢驗的原理來說,適用于以上所有的情況,但是SPSS軟件只能對2*2四格表卡方進行CMH檢驗,也稱為K*2*2表格數據的CMH檢驗。
用個具體的醫學案例來說明K*2*2表格數據的CMH檢驗。大家都知道吸二手煙對身體有害,那么這種主觀的判斷是否正確呢?某個醫學組織對此展開了研究,研究吸二手煙是否會提高患癌風險,根據實際情況,調查者自己是否吸煙會嚴重影響吸二手煙和患癌風險間的相關性,因此將主動吸煙(自己是否吸煙)作為混雜因素處理。首先給出吸二手煙與是否患癌的2*2四格表資料:
如果將混雜因素也放入表中,那么數據資料可以整理成以下形式,可以發現原來的單元格內的頻數被拆分開了。
CMH檢驗的統計量計算公式根據是否進行連續型修正,分為為連續性校正和連續性校正兩個,兩者之間的差距不大,通常以校正結果為準。它們的計算公式如下:
從CMH統計量的計算公式可以知道,CMH檢驗將所有2*2表格(混雜因素有幾個水平就有幾個2*2表格)的頻數分布情況都考慮在內了,這樣就對混雜因素的影響作出了控制。計算上面這個案例的CMH卡方值:
我們以修正的CMH檢驗卡方值13.942為準,查自由度為1的卡方分布表,卡方值13.942對應的顯著性概率值為0.00018,小于0.05,說明剔除主動吸煙影響后,患癌與被動吸煙之間確實存在相關性。
CMH檢驗的共同比值比
對于2*2四格表,比值比的計算是必須的,比值比能夠表示不同組間的相對危險程度。CMH的比值比(OR值)同樣與不考慮混雜因素的比值比計算公式不同,CMH檢驗的共同比值比計算公式為:
舊以上面的案例數據為例,計算案例的CMH共同比值比,計算過程如下:
消除主動吸煙因素的影響后,OR=1.625,說明患癌人群中被動吸煙人數比例大約為未患癌人群的1.625倍。接下來還能夠計算共同比值比的置信區間,這個過程草堂君就不繼續描述了,通過軟件都可以直接輸出。
SPSS案例分析
將上面的案例整理進入SPSS軟件中,然后運用軟件中的Cochran’s and Mantel-Haenszel檢驗功能進行分析,對比軟件輸出結果與上面的手動計算結果是否一致。這個過程能夠幫助大家更好的理解CMH檢驗的理論邏輯。錄入SPSS的數據情況如下:
分析步驟
1、首先進行個案加權,將文件中的頻數作為加權依據。具體的操作步驟,請點擊下方文章鏈接回顧:SPSS分析技術:加權個案;讓頻數記錄數據也能用SPSS做列聯表分析。
2、選擇菜單【分析】-【描述統計】-【交叉表】,在跳出的對話框中,進行如下操作。根據上面的表格數據,將是否患癌選為行變量,將是否被動吸煙選為列變量,將是否主動吸煙選為混雜因素。點擊【統計】按鈕,選中卡方選項;再選中柯克蘭和奧特爾-亨塞爾統計,檢驗一般比值比的框內填寫1即可(比值比為1,表示患癌組和為患癌組的被動吸煙比例相同)。
3、點擊確定,輸出結果。
結果解釋
1、K*2*2頻數統計表??梢园l現,輸出的表格和上面案例的整理表格結果是完全一致的。
2、分層2*2四格表的卡方檢驗結果。從結果可知,主動吸煙人群中,皮爾遜卡方、連續性修正和費舍爾精確檢驗的結果都是小于0.05,說明患癌和被動吸煙間存在相關性。而不吸煙人群中,結論于此相反,患癌和被動吸煙間不存在相關性。不考慮主動吸煙的混雜因素,結果是患癌和被動吸煙間存在相關性。
3、比值比齊性檢驗結果。在操作步驟中,檢驗比值比的值為1。兩種比值比齊性檢驗的結果都大于0.05,說明兩個分層2*2四格表的比值比與1之間沒有顯著性差異,也就是兩個分層四格表的比值比是齊性的。
4、柯克蘭和奧特爾-亨塞爾檢驗結果??梢园l現SPSS輸出的結果分成兩個,柯克蘭卡方值14.451和我們手動算的未連續性校正的結果一致,而曼特爾-亨塞爾卡方值則與連續性校正的結果一致。顯著性結果都小于0.05,說明剔除主動吸煙影響后,患癌與被動吸煙之間確實存在相關性。
5、綜合比值比結果。從結果可知,CMH檢驗的綜合比值比結果也和我們手動算的一致。比值比區間為1.264到2.09之間,不包括1,說明患癌人群中被動吸煙人數比例確實比未患癌人群的比例高,高出1.264到2.09倍。
總結一下
本篇文章介紹了CMH檢驗的分析理論和SPSS的分析操作過程??梢灾?,CMH檢驗能夠將非實驗考慮的混雜因素剔除,使得獲取的分析結果能夠真正表明兩個分類型變量之間的關系,避免很多謬誤的產生。CMH檢驗在醫學領域和實驗設計領域都扮演非常重要的角色。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25