
SPSS分析技術:簡單對應分析
分類型數據(包括定類數據和定序數據)在數據分析中扮演著重要的角色,例如,分類型數據能夠幫助我們對每個數據記錄進行分門別類,但是由于分類型數據的特點,很多基于均值、方差和標準差的分析方法就不太適用了,通常使用的分析方法是基于頻數的卡方檢驗和邏輯回歸等。面對變量個數少、分類類別少的簡單局面,卡方檢驗和二分類邏輯回歸還能夠從容應對,一旦變量數量和變量類別多時,分析結果的解讀就讓人頭痛了。
例如,研究全國34個省級行政區居民的收入水平情況,通過抽樣收集數據,使用卡方檢驗能夠很容易得出不同省級行政區居民的收入水平分布有顯著性差異,但是無法得到北京市高收入居民比例高、云南低收入居民比例低這樣具體的結果,也就是無法對分類變量各類別間的相關關系進行清楚展現。對應分析是解決類別相關關系展示很好的方法,它能夠將分類交叉表轉換為相應的對應分析圖,從而使分類結果圖形化、直觀化。
對應分析原理
數據統計分析方法有個很有趣的特點,就是名字很多,經常出現同一個分析方法在不同書籍中的名稱不同,真有點百家爭鳴的味道,這是因為由人組成的社會,人們總是希望自己能夠青史留名,這不足為奇。對應分析在很多地方也被稱為同質性分析或數量化方法。
對應分析的實質就是將交叉表里面的頻數數據作變換以后,展現在散點圖上,從而將抽象的交叉表信息形象化。這個變換過程涉及到線性代數的內容,因此在這里就不做數學公式的推導了,草堂君在這里做個形象的解釋。
我們以兩個分類變量的情況來介紹對應分析的原理。學習過卡方檢驗的朋友應該知道,卡方檢驗的實質是將實際的頻數分析與期望頻數作對比,如果差距很大,超過界限值,那么就可以認為組成交叉表的兩個分類變量之間具有相關性。舉個生活例子,某汽車生產企業的市場部收集了某款汽車的銷售數據,制成頻數交叉表:如果年齡變量與選購的汽車顏色之間沒有相關關系,那么這些頻數應該是相似的,沒有巨大差異,反之,如果這兩個分類變量間有相關關系,那么某個或某些單元格里的頻數將顯著大于其它單元格。
根據上表的數據,可以制作出由期望頻數組成的交叉表,期望頻數的計算公式為行頻數和*列頻數和/總頻數(參考第一列的計算過程)??ǚ綑z驗就是將上表的實際頻數與下表的期望頻數做逐個對比,算出卡方值和檢驗概率,從而判斷兩個變量是否有顯著性差異。
對應分析承接上面兩個表格的工作,它首先算出每個單元格的標準化殘差,計算公式為:
從上面的公式來看,標準化殘差包含了某個年齡段和某種汽車顏色的相關關系信息,相當于相關系數。說到這里,是否想到因子分析。是的,對應分析進行到這里,下一步也是提取標準化殘差矩陣(交叉表)的公因子,然后將3個年齡群體和4個汽車顏色放入由公因子(新維度)組成的坐標空間內,通過它們之間的空間距離判斷相關性強弱。
案例分析
歐洲人的眼睛和頭發顏色可以用“絢爛多彩”來形容,特別是北歐和東歐人。歐洲人頭發的顏色不僅有黑色,還有棕色、亞麻色、金黃色和紅色;眼睛的顏色有棕色、藍色、灰色、褐色和綠色。在基因理論和技術沒有發展起來以前,歐洲人的眼睛顏色和頭發顏色的關系一直是研究的熱點,眼睛顏色和頭發顏色到低是隨機搭配的呢?還是眼睛的某種顏色更多和某種頭發顏色搭配?對應分析方法在這個問題上的研究一直被奉為經典案例?;蚣夹g發展起來以后,從基因的層面驗證了上述對應分析的結果。
下面我們就以經典的,Fisher在1940采集的5387名蘇格蘭人的眼睛和頭發顏色數據為例,介紹如何使用SPSS進行簡單對應分析,并對結果進行解釋。
分析思路
做簡單對應分析(只有兩個分類變量)之前,需要對交叉表進行卡方檢驗,只有卡方檢驗結果顯示兩個分類變量之間具有相關性,才有必要作對應分析,如果兩個分類變量之間沒有相關關系,也就失去作對應分析的必要了。
分析步驟
1、個案加權處理;大家記住,涉及到分類數據頻數分析的情況,大多數情況下都需要進行個案加權處理。選擇菜單【數據】-【個案加權】,依照下圖進行操作,進行個案加權。
2、選擇菜單【分析】-【降維】-【對應分析】,在跳出的對話框中進行如下操作。將頭發顏色選為行變量;眼睛顏色選為列變量;點擊定義范圍,依據變量的分類數值填寫最小值和最大值,然后點擊更新。
3、其它設置保持軟件默認狀態就可以。點擊確定,輸出結果。
結果解釋
1、交叉表格,也就是由兩個分類變量組成的交叉列聯表,交叉單元格內的數值代表頻數。
2、對應分析摘要表;
最后一行顯示的是上方交叉列聯表的卡方檢驗結果,顯著性小于0.05,說明眼睛顏色和頭發顏色之間存在相關關系,這決定了對應分析是否有意義。
結果顯示通過標準化殘差矩陣總共提取了三個公因子,也就是三個維度,其中前面兩個維度能夠解釋原來變量99.6%的信息,因此第三個維度不做考慮。
奇異值和慣量都是線性代數的概念,慣量等于奇異值的平方。慣量值就相當于因子分析中的特征值,代表對應維度在解釋原始數據信息中的重要性。
3、行變量和列變量坐標;這兩個表格顯示行變量和列變量中每個類別在新產生兩個維度中的坐標值。通過這兩個表格的數據結果就能夠做出對應分析散點圖。數量代表每個類別的人數比例;
點對維的慣量表示分類變量中每個類別對維度的貢獻,例如,第一個維度主要由眼睛顏色中的深色(0.605)和淺色(0.286)構成;
維對點的慣量正好相反,表示每個類別信息分別在兩個維度的比例,例如深色眼睛的信息在第一個維度中占96.5%,第二個維度只有3.5%。
4、對應分析散點圖;從散點圖上看,金色頭發、紅色頭發與淺色眼睛和藍色眼睛的相關性強;棕色眼睛和棕色頭發相關性強;深色頭發、黑色頭發與深色眼睛的相關性強。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25