
SPSS詳細操作:碰見有序分類資料,怎么辦
經常聽到有小伙伴剛學了武林秘籍之卡方檢驗,只要碰到分類資料就一通亂打,雖說有時候能贏幾場,但是也有被打的鼻青臉腫的,還自言自語的說,招數沒毛病呀???事實上毛病大了去了,與人過招,知己知彼,見招拆招,方能克敵制勝!所以我們先來捋捋分類資料的分析。
常見的分類資料可以分成四類:
老大,雙向無序分類,特點是分組變量和結局變量均為無序多分類(或二分類),例如比較漢族、回族和蒙古族ABO血型分布有無差別;
老二,單向有序分類,分組變量或結局變量為有序變量,例如比較35-、45-、55-、65-歲組血脂異常的患病率有無差別,或者比較A和B兩種藥物對于疾病預后 (痊愈、顯著改善、進步、無效)有無差異;
老三,雙向有序屬性不同的分類,這里既強調行變量和列變量均為有序分類資料,并且屬性不相同(行列變量不一致),例如觀察年齡對疾病預后有無影響(35-、45-、55-、65-歲組 vs 痊愈、顯著改善、進步、無效);
老四,雙向有序屬性相同的分類,行變量和列變量均為有序分類資料,并且屬性相同(行列變量一致),例如A和B兩種方法對某種免疫物質的檢出情況(--/-/+/++)。
(注:上文提到的“屬性”,我們后期會專門推送一篇文章來講解~)
針對雙向無序分類和雙向有序屬性相同的分類資料的分析方法,前面幾期有詳細介紹,還沒看過的小伙伴戳SPSS詳細操作:多個獨立樣本列聯表的卡方檢驗/SPSS詳細操作:一致性檢驗和配對卡方檢驗。這次我們一塊兒搞定單向有序分類和雙向有序屬性不同的分類資料的SPSS操作。
一、單向有序分類
血脂異常的患病率隨著年齡增加而增加嗎?
某研究小白在利用某項調查數據分析時,想研究一下年齡與血脂異常之間的關系,想起了之前學過的多個獨立樣本的卡方檢驗SPSS操作,于是照貓畫虎,分析了一下手里的數據。
Analyze→ Descriptive Statistics→ Crosstabs: Row(Age); Column(Dyslipidemia)→Statistics: Chi-square; Continue→ Cells: Percentages(勾選Row); Continue→ OK
看到分析結果,尤其是P=0.003,小白立刻眼睛冒光,馬上超級自信地下了結論:經獨立樣本卡方檢驗,血脂異常的患病率隨著年齡增加而增加(P=0.003),但是剛說完心里又犯嘀咕,想起之前學的獨立樣本卡方檢驗,好像這里只能說明不同年齡組之間血脂異?;疾÷视薪y計學差異。嗯,沒錯!這里如果只看Pearson Chi-Square的結果,會忽略年齡分組為有序變量這個信息點,損失了信息,所以這里更好的是看Linear-by-Linear Association的結果。
提到趨勢性卡方檢驗,想必大家并不陌生,主要用來明確分類變量之間的線性趨勢,比如這里的“血脂異常的患病率隨著年齡增加而增加”。趨勢性卡方檢驗最常用的方法是Cochran-Armitage trend test,很遺憾SPSS并沒有提供這種方法,而是另一種方法Linear-by-Linear Association,兩個結果相近,所以大家也可以放心使用。
聽到這里,研究小白馬上修改了結論:經趨勢性卡方檢驗,血脂異常的患病率隨著年齡增加而增加(P<0.001)。
拓展一下,相信不少小伙伴會想起Spearman秩相關,感覺這里好像也可以用Spearman秩相關來分析年齡組和血脂異常的關系。事實上,也是可以滴!但是趨勢性卡方檢驗和Spearman秩相關有些不同。
Analyze →Correlate →Bivariate →Variables: Age, Dyslipidemia; Correlation Coefficients: Spearman(勾選)→OK
首先,嚴格地講,做趨勢性卡方檢驗時,需要對分組變量和結局變量進行評分賦值,連續變量取組中值為等級評分;如果是等級資料,給以順序性的評分,如1、2、3……;分類資料,陽性或患病等為1,陰性或不患病等為0。這里就涉及到一個問題,對于Spearman秩相關是基于變量秩次進行相關分析的,比如說上面的例子,如果去掉55-歲組,趨勢性卡方檢驗中變量評分為1、2、4,而Spearman秩相關是1、2、3,這就反映兩種分析方法的利用信息能力不一樣。
其次,兩種方法的檢驗效能不同,趨勢性卡方檢驗屬于參數檢驗,當我們假定存在線性趨勢時,檢驗效能更高;而Spearman秩相關計算變量秩次,損失了信息,相同條件下,檢驗效能較低,比如這里Spearman秩相關P=0.001,趨勢性卡方檢驗P<0.001。
最后,兩者得到的結論也有所不同,趨勢性卡方檢驗可以直接得出“血脂異常的患病率隨著年齡增加而增加”,而Spearman秩相關因為使用變量秩次分析,所以嚴格地講,它反映的是兩個分類變量秩次有相關,因為沒有考慮變量的具體取值,更多是一種相對穩定的相關關系。
二、雙向有序屬性不同的分類
干活兒越重骨質退行越重?
有一項旨在探討骨質退行性變是否與勞動強度有關,觀察150名研究對象。勞動強度分為輕、中、重度,骨質退行性變為2、3、4度,兩個變量都屬于等級變量,但是屬性不同。
對于雙向有序屬性不同的資料,有的小伙伴就說啦,可以用Spearman秩相關嘛,有些小伙伴就要很疑惑,為什么不可以用卡方檢驗呢?
這里和大家一塊兒掰扯掰扯。對于等級資料相關分析,Spearman秩相關也是可以計算滴,但問題關鍵是,在做秩相關時,需要對原始數據進行編秩次,因為是等級資料,所以會產生大量秩次相等的平均秩次,進而低估了變量之間的關聯系數。
如果是獨立樣本的卡方檢驗呢?那就錯的比較離譜一些!卡方檢驗的核心是列聯表中每一個格子中的理論頻數和實際觀測頻數偏離程度,行和列的位置是不重要的(比如你可以把行列互換,或者把第一行和第二行互換),結果都是一樣的。問題就來了,這樣就損失了變量“有序”——這個非常關鍵的信息點,比如這里例子,我們想知道是不是勞動強度越重,骨質退行越重。
有小伙伴要著急了,這也不行,那也不行,到底要咋整?給大家帶來重量級武器——Goodman-Kruskal Gamma方法(簡稱Gamma法)。Gamma法主要用于有序分類資料的關聯性分析,并且計算Gamma系數(類似于Spearman秩相關rs)。
Gamma系數取值在-1到1之間,G=0表示兩個變量不相關,G>0表示兩個變量正相關,G<0表示兩個變量負相關;G的絕對值越接近1,表示兩個變量的關聯強度越大,越接近0,關聯程度越小。
下面一起看看SPSS怎么進行Gamma。
Analyze →Descriptive Statistics →Crosstabs: Row(勞動強度); Column(骨退變)→Statistics: Gamma; Continue →OK
上面的結果顯示:G=0.244,P=0.025<0.05,勞動強度與骨退變之間互相關聯,即隨著勞動強度增加,骨質退行越重,關聯系數為0.244。
再看看Spearman秩相關的結果。
Analyze →Correlate →Bivariate →Variables: 勞動強度,骨退變; Correlation Coefficients: Spearman(勾選)→OK
可以看到Spearman秩相關系數rs=0.183,小于G(0.244),低估了變量之間的關聯強度。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25