熱線電話:13121318867

登錄
首頁精彩閱讀SPSS詳細操作:碰見有序分類資料,怎么辦
SPSS詳細操作:碰見有序分類資料,怎么辦
2017-05-10
收藏

SPSS詳細操作:碰見有序分類資料,怎么辦

經常聽到有小伙伴剛學了武林秘籍之卡方檢驗,只要碰到分類資料就一通亂打,雖說有時候能贏幾場,但是也有被打的鼻青臉腫的,還自言自語的說,招數沒毛病呀???事實上毛病大了去了,與人過招,知己知彼,見招拆招,方能克敵制勝!所以我們先來捋捋分類資料的分析。

常見的分類資料可以分成四類:

老大,雙向無序分類,特點是分組變量和結局變量均為無序多分類(或二分類),例如比較漢族、回族和蒙古族ABO血型分布有無差別;

老二,單向有序分類,分組變量或結局變量為有序變量,例如比較35-、45-、55-、65-歲組血脂異常的患病率有無差別,或者比較A和B兩種藥物對于疾病預后 (痊愈、顯著改善、進步、無效)有無差異;

老三,雙向有序屬性不同的分類,這里既強調行變量和列變量均為有序分類資料,并且屬性不相同(行列變量不一致),例如觀察年齡對疾病預后有無影響(35-、45-、55-、65-歲組 vs 痊愈、顯著改善、進步、無效);

老四,雙向有序屬性相同的分類,行變量和列變量均為有序分類資料,并且屬性相同(行列變量一致),例如A和B兩種方法對某種免疫物質的檢出情況(--/-/+/++)。

(注:上文提到的“屬性”,我們后期會專門推送一篇文章來講解~)

針對雙向無序分類和雙向有序屬性相同的分類資料的分析方法,前面幾期有詳細介紹,還沒看過的小伙伴戳SPSS詳細操作:多個獨立樣本列聯表的卡方檢驗/SPSS詳細操作:一致性檢驗和配對卡方檢驗。這次我們一塊兒搞定單向有序分類和雙向有序屬性不同的分類資料的SPSS操作。

一、單向有序分類

血脂異常的患病率隨著年齡增加而增加嗎?

某研究小白在利用某項調查數據分析時,想研究一下年齡與血脂異常之間的關系,想起了之前學過的多個獨立樣本的卡方檢驗SPSS操作,于是照貓畫虎,分析了一下手里的數據。

Analyze→ Descriptive Statistics→ Crosstabs: Row(Age); Column(Dyslipidemia)→Statistics: Chi-square; Continue→ Cells: Percentages(勾選Row); Continue→ OK


看到分析結果,尤其是P=0.003,小白立刻眼睛冒光,馬上超級自信地下了結論:經獨立樣本卡方檢驗,血脂異常的患病率隨著年齡增加而增加(P=0.003),但是剛說完心里又犯嘀咕,想起之前學的獨立樣本卡方檢驗,好像這里只能說明不同年齡組之間血脂異?;疾÷视薪y計學差異。嗯,沒錯!這里如果只看Pearson Chi-Square的結果,會忽略年齡分組為有序變量這個信息點,損失了信息,所以這里更好的是看Linear-by-Linear Association的結果。

提到趨勢性卡方檢驗,想必大家并不陌生,主要用來明確分類變量之間的線性趨勢,比如這里的“血脂異常的患病率隨著年齡增加而增加”。趨勢性卡方檢驗最常用的方法是Cochran-Armitage trend test,很遺憾SPSS并沒有提供這種方法,而是另一種方法Linear-by-Linear Association,兩個結果相近,所以大家也可以放心使用。

聽到這里,研究小白馬上修改了結論:經趨勢性卡方檢驗,血脂異常的患病率隨著年齡增加而增加(P<0.001)。

拓展一下,相信不少小伙伴會想起Spearman秩相關,感覺這里好像也可以用Spearman秩相關來分析年齡組和血脂異常的關系。事實上,也是可以滴!但是趨勢性卡方檢驗和Spearman秩相關有些不同。

Analyze →Correlate →Bivariate →Variables: Age, Dyslipidemia; Correlation Coefficients: Spearman(勾選)→OK


首先,嚴格地講,做趨勢性卡方檢驗時,需要對分組變量和結局變量進行評分賦值,連續變量取組中值為等級評分;如果是等級資料,給以順序性的評分,如1、2、3……;分類資料,陽性或患病等為1,陰性或不患病等為0。這里就涉及到一個問題,對于Spearman秩相關是基于變量秩次進行相關分析的,比如說上面的例子,如果去掉55-歲組,趨勢性卡方檢驗中變量評分為1、2、4,而Spearman秩相關是1、2、3,這就反映兩種分析方法的利用信息能力不一樣。

其次,兩種方法的檢驗效能不同,趨勢性卡方檢驗屬于參數檢驗,當我們假定存在線性趨勢時,檢驗效能更高;而Spearman秩相關計算變量秩次,損失了信息,相同條件下,檢驗效能較低,比如這里Spearman秩相關P=0.001,趨勢性卡方檢驗P<0.001。

最后,兩者得到的結論也有所不同,趨勢性卡方檢驗可以直接得出“血脂異常的患病率隨著年齡增加而增加”,而Spearman秩相關因為使用變量秩次分析,所以嚴格地講,它反映的是兩個分類變量秩次有相關,因為沒有考慮變量的具體取值,更多是一種相對穩定的相關關系。

二、雙向有序屬性不同的分類

干活兒越重骨質退行越重?

有一項旨在探討骨質退行性變是否與勞動強度有關,觀察150名研究對象。勞動強度分為輕、中、重度,骨質退行性變為2、3、4度,兩個變量都屬于等級變量,但是屬性不同。

對于雙向有序屬性不同的資料,有的小伙伴就說啦,可以用Spearman秩相關嘛,有些小伙伴就要很疑惑,為什么不可以用卡方檢驗呢?

這里和大家一塊兒掰扯掰扯。對于等級資料相關分析,Spearman秩相關也是可以計算滴,但問題關鍵是,在做秩相關時,需要對原始數據進行編秩次,因為是等級資料,所以會產生大量秩次相等的平均秩次,進而低估了變量之間的關聯系數。

如果是獨立樣本的卡方檢驗呢?那就錯的比較離譜一些!卡方檢驗的核心是列聯表中每一個格子中的理論頻數和實際觀測頻數偏離程度,行和列的位置是不重要的(比如你可以把行列互換,或者把第一行和第二行互換),結果都是一樣的。問題就來了,這樣就損失了變量“有序”——這個非常關鍵的信息點,比如這里例子,我們想知道是不是勞動強度越重,骨質退行越重。

有小伙伴要著急了,這也不行,那也不行,到底要咋整?給大家帶來重量級武器——Goodman-Kruskal Gamma方法(簡稱Gamma法)。Gamma法主要用于有序分類資料的關聯性分析,并且計算Gamma系數(類似于Spearman秩相關rs)。

Gamma系數取值在-1到1之間,G=0表示兩個變量不相關,G>0表示兩個變量正相關,G<0表示兩個變量負相關;G的絕對值越接近1,表示兩個變量的關聯強度越大,越接近0,關聯程度越小。

下面一起看看SPSS怎么進行Gamma。

Analyze →Descriptive Statistics →Crosstabs: Row(勞動強度); Column(骨退變)→Statistics: Gamma; Continue →OK

上面的結果顯示:G=0.244,P=0.025<0.05,勞動強度與骨退變之間互相關聯,即隨著勞動強度增加,骨質退行越重,關聯系數為0.244。

再看看Spearman秩相關的結果。

Analyze →Correlate →Bivariate →Variables: 勞動強度,骨退變; Correlation Coefficients: Spearman(勾選)→OK


可以看到Spearman秩相關系數rs=0.183,小于G(0.244),低估了變量之間的關聯強度。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢