
前邊我們已經講過很多內容了?;仡櫼幌?,主要有相關分析,假設檢驗,和各種回歸。以及因子分析。我們知道,對于兩組連續變量,我們可以通過假設檢驗來判斷他們的分布是否相同,差異時候存在。不知道大家想過沒有,如果我們想討論兩個分類變量的分布是否相同呢?這里我們首先來討論這個問題。
首先舉個例子,假設我們有兩個不同季節的某種衛生的是否達標的記錄。那么我們就是有兩組二分類的變量(就是取值不是這個就是那個,只有兩種取值的變量)。對于這兩組變量,如果你還想用均值檢驗來看看分布是不是一樣的話,那我真是被你蠢哭了。這個明顯是不適合用均值檢驗或者非參數檢驗的。它適合的是我們正在介紹的卡方檢驗。
做分析首先需要做的第一步是輸入數據。正常的輸入方法是類似均值檢驗的:我們設一列達標與否,打一堆1或者2上去表示這個個案是達標或者不達標的。然后在設一列季節變量,在打一堆1或者2上去表示對應的這個個案是那個季節的。但是大部分時候,出于效率的考慮,我們都不會這么輸數據。我們會設三個變量。達標與否,季節,權重。這樣我們用四個個案就能表示了(1,1,第一個季節達標的數量)(1,2,第二個季節達標的數量)(2,1,第一個季節不達標的數量)(2,2,第二個季節不達標的數量)。這兩種輸入數據的方法都是正確的,但是明顯,后一種要簡潔一些是不是?
然后,首先用權重那個變量為我們的所有數據加權。然后打開菜單分析——描述統計——交叉表。行選季節,列選達標與否(或者行選達標與否,列選季節),勾選下邊的顯示復式條形圖。點開統計量,全部勾選。點開單元格,全部勾選。然后確定。(為了后邊的對應分析,我得節省點篇幅。)
第一個表是在概述你的數據情況,不用管它。第二個表是卡方檢驗表。這個表可要好好看。我相信到了現在大家已經認識到了p值是多么可愛,多么重要的一個指標了,可是這個表的問題在于,它的p值太多了。分別有:pearson卡方,連續矯正,似然比,fisher精確檢驗,線性和線性組合,mcnemar檢驗,哇,這么多,我到底要看哪一個呢?
首先你要看先你的最后一行的有效案例是多少個,其次還要看你最下邊的標注,有幾個單元格的期望計數小于2,最小期望計數是多少。有了這三個數據就能判斷用哪個p值了。注意,下邊這段判斷方法很重要,你最好找張紙抄下來。
有效案例大于等于40,所有期望計數大于等于5的時候,用Pearson卡方。有效案例大于等于40,有期望計數小于5但最小的期望計數大于1時,用校正卡方??傤l數小于40,或者,注意,是或者,有期望計數小于1的時候,用fisher精確。
P值小于0.05,則認為有差異。
現在把我們的例子在變一變,如果我們的衛生達標與否這個指標改為了一個三分類變量,不達標,合格,優秀。這三種類別呢?
操作過程和上邊是一樣的,但是結果只會告訴你這三組是否有差異,到底那組和那組有差異還要自己從新在做四格表才能判斷。
另,在加一個變量,比如這個個案是公有性質或私有性質,三個指標放到一起來判斷的時候,就把性質這個變量放到交叉表的主面板的層里邊(就在行和列的框框下邊。)
粗略的說完卡方以后,我們就來介紹一下對應分析。
卡方檢驗通常用來處理比較簡單的問題,但是對于復雜一點的問題,它的效果會很糟糕哦。比如我的變量每個都有四五個分類,我想看看分類之間的分布是否有差別等等的,肯定不可能用卡方撒。所以這時候就用到了對應分析。
對應分析又叫做關聯分析,因為它不僅能反映出來那個分類和那個分類的分布有沒有差別,也能反映出來變量之間的分類誰和誰更容易接近。舉個例子,假設我有一個變量分類為1,2,3,4,5,另一個變量分類為a,b,c,d,e,f。那么我不僅能觀察知道1,2,3,4,5之間誰和誰更接近,我還能觀察知道a是和1,2,3,4,5中的那個更親近,b又是和誰更親近,套用到實際問題里就是我會知道,哪一類人更容易有那種行為,所以也叫關聯分析。(這個名是不是比對應分析響亮一些?想想啤酒與尿布的故事吧!注意,你已經開始涉及到一些機器學習的內容了。)
那么為什么對應分析算是降維分析的一種呢?主要是因為它的原理是主成分分析。粗糙的理解是這樣的,它通過把兩個多分類變量分別降維降到二維(就是用兩個成分來表示這個多分類變量,類似因子分析里的成分圖),然后把兩張二維的圖通過某些轉換合到一塊(你湊合著這么理解吧,不是簡單的往一塊和,在最一開始就是一塊降得),然后你就可以在一張平面上觀察了。因此它歸到降維里的范疇。盡管它不像因子分析那樣,把多個變量降成較少的變量那樣好理解。
打開菜單分析——降維——對應分析,行和列各選擇一個分類變量。比如一個變量是年齡段的分類,另一個變量是對某種商品的喜愛程度。在行和列的框框下邊還有一個定義范圍,點開那個對話框,選擇你的最大值和最小值。定義好以后打開模型對話框,解得維數一般選2,處于一個好觀察的角度,也出于準確性,一般選擇2。然后在打開統計量,勾選對應表,行點概覽,列點概覽,列輪廓表。繪制對話框勾選雙標圖。然后就可以得到結果了。
對應表和簡要表是不怎么重要的,可以忽略掉。注意看摘要表。首先要解釋兩個名詞。 奇異值。(這里忍不住插嘴,世界上優秀的智能推薦的算法都是用的奇異值分解。)我們知道一個大矩陣通過這么這么分解,那么那么分解,最后能分解成幾個小矩陣。這些小矩陣就對應于我們的一個個的成分。所以奇異值的大小呢,就能反映這些小矩陣的重要程度。那么奇異值和因子分析里的特征值有什么區別呢?特征值是用在方陣里的,而奇異值是用在長方形的矩陣里的。而慣量它是奇異值的方,就類似于特征值了。這兩個名詞了解就可以了,不需要詳細的知道。
在摘要表里第一要看總計里邊的p值。這個p值不小于0.05的話,那對應分析完全就是沒意義的。
第二要看慣量比例里邊的解釋。對應的百分比。這個類似于因子分析里解釋的總方差。都是反映的某一個維能夠解釋模變量的百分比。通常來說,前兩個維都要起碼累積到百分之九十。有的數據很好的話,可能只能提取出兩個維,兩個維就能夠累計到百分之百了。
在下邊是概述點,如果你的摘要表表現很好的話,這個表就不怎么用看啦。
最后是最重要的散點圖。
雙擊散點圖,在圖形編輯里邊調整坐標的初始值,在行和列的0.0處加輔助線。然后這張圖就會別分成四大塊了。中心點就是(0,0)。那么在這張圖上邊就會有兩類不同圖形的點點,比如圓形表示年齡段的分類,三角表示喜愛程度。在小圖形附近還會標注清楚每個小圖形對應那個程度。那么這個圖怎么看呢?
首先四個大塊就直觀的告訴我們那些點和那些點距離比較近了。比如代表20歲到40歲的點和非常喜愛的點靠的很近,那么就可以認為20歲到40歲的人會非常喜愛這個產品。這是最基本的一個信息。此外我們可以通過輔助線來進一步解釋這張圖。比如,我們找到代表非常喜愛的這個三角形,然后把這個點和(0,0)的中心點連線,連出一條直線來。然后把所有的小圓點向這條線做垂線。就是代表每個年齡段的小圓點都引一條垂線出來,垂點落到原來的那條直線上。假如我們分四個年齡段的話,那我們現在就有四個垂點啦。然后我們比較這四個垂點離代表非常喜愛的那個三角形的距離。注意,比較的是垂點哦。垂點離三角形越近,也就是說該年齡段的人越容易表達出非常喜愛哦。因為是垂點,所以從圖上看離得比較遠的兩個點未必就關聯程度比較低哦。
同樣的道理,我們也可以做出同一年齡段的人更容易喜愛還是不喜愛這個產品的直線圖??傊?a href='/map/sandiantu/' style='color:#000;font-size:inherit;'>散點圖可以很直觀的解釋信息哦。
簡單對應分析大概就是這樣了。注意,做簡單分析的時候,我們只能觀察兩個變量啊。那怎么觀察更多的變量呢?敬請期待下一講:多重對應分析。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23