
spss中相關分析的菜單含義
相關分析(Correlate過程分析)
當我們需要研究兩個定距以上的變量之間是否相關、相關的程度怎么樣時,就要用到相關分析。
在對話框中運行Correlate過程
Analyze---Correlate-----看對話框的含義
一.Bivariate Correlate
1.相關系數的選擇(Correlation Coefficients)
Pearson相關,也叫皮爾遜積距相關,只有變量是連續型變量時才能用這個系數,這也是系統的默認值。計算公式:
R=1,所有觀察值在一條直線上
2. Kendall’s Tau-b適合兩個定序變量)
tau-b =
3.Spearman的 rho系數
在這個對話框中雖然也給出了另外兩個相關系數,但線性相關一般用R,而不是其他選擇其他的兩個。
2.檢驗選擇:Two tailed:否定域在兩端的位置,兩端比一端更加難以否定原假設,在假設難以定出方向的時候用; one tailed ——否定域其中在一端,研究假設明確時用。
Flag significant correlations ——顯示相關系數的顯著性水平,相關系數的右上角有*,則代表顯著性水平是5%, **代表顯著性水平是1%
如果需要得到具體的顯著性水平值,可以進入表格編輯模式,雙擊顯著性水平值所在的單元格,可以看到確切的值。
3.Option
Statistics: Means and st均值,標準偏差
Cross-product deviation and covariance—算出離差積及協方差,在高級統計上用得多,在初級統計上一般不用
4.缺少個案值的處理:
Exclude cases pairwise不管其他變量有沒有缺少值,只要計算相關系數的那對變量不存在缺省值,就不刪除這個個案
Exclude cases listwise:只要有一個變量有缺省值,就把這個個案刪除。
例子1:進行目前收入與受教育年限之間的相關關系
1.在進行分析以前,一般要先做散點圖,判斷兩變量之間有沒有相關趨勢,是否是線性相關的趨勢,如果是,繼續分析,如果不是,則不能直接進行分析了。
2.進行相關分析, 用2000年中國統計數據
例子2:人均GDP與地區人力資本狀況之間的關系
人均GDP與15歲及以上人口中大專及以上文化程度者百分比
3.農民工文化程度與目前收入水平的相關狀況
二.Partial correlation偏相關(也叫凈相關)
主要分析多個變量的作用,在分析任意兩個變量的相關時,控制第三方變量以后,來確定兩個變量之間的真實相關以及方向。
凈相關系數是以R相關系數為基礎的,因此屬于對稱相關測量的一種,它要求變量之間是直線關系,而且所有變量必須是定距變量。偏相關系數可以從不同的角度來說明,相應地有不同的計算公式,它可以通過加入這以變量以后和未加入這個變量時相關程度的增加數來表示
某因素與因變量的偏相關系數=
凈相關的平方具有消減誤差比例的含義
Analyze-----Correlate-----Partial------打開對話框
Variables——選擇要計算偏相關系數的變量――如人均GDP,城鎮居民家庭人均可支配收入
Controlling for—放入控制變量――每10萬人口中大專及以上者百分比
Test of significance——檢驗的顯著性水平
Options:
Statistics
Means and standard deviations 給出每個變量的均數與標準差
Zero order correlation——給出包括協變量在內的所有變量的相關矩陣
例子: 控制每10萬人口中大專及以上者百分比,求人均GDP與城鎮居民家庭人均可支配收入之間的凈相關
沒有控制人力資本狀況時相關:
控制以后的相關:
- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - -
Controlling for.. JCOLLEGE
PCGDP DISINC
PCGDP 1.0000 .7772
( 0) ( 28)
P= . P= .000
DISINC .7772 1.0000
( 28) ( 0)
P= .000 P= .
(Coefficient / (D.F.) / 2-tailed Significance)
" . " is printed if a coefficient cannot be computed
三.距離分析(Distance)
距離分析主要是用來計算變量之間或觀察量之間的相似性。使用距離分析可以對變量進行分類,性質越接近的樣本,他們的距離越近,相似系數越大,越接近1或-1。而彼此無關的樣本,則其相似系數越接近0。相似性強的樣本屬于一類。相似性差的則屬于不同的類別。
1.打開主對話框
2.選擇進行距離分析的變量weight , mpg, accel進入Variables框
注意:在 Label cases by框內可放入一個變量,則取值會在輸出結果中給相應的記錄加上標簽,以方便閱讀,只在分析個案之間的距離有用。
3.在compute distance 欄內選擇Between variables,計算每一對變量之間的距離。
Between cases:兩個個案之間的距離,選擇這項,會給出每一對觀察量之間的距離
Between variables: 每一對變量之間的距離
4.在 Measure欄內選擇Dissimilarity 選項,來分析變量之間的不相似性,系統默認使用歐氏距離來分析,數值越大,距離越遠。相似性測量―――默認的是Pearson correlation。 不相似分析與聚類分析基本相同。
測量選擇問題:
單擊Measures,打開Dissimilarity Measures對話框,在對話框內選擇 Euclidean distance選項,Range0 TO1 選項
選擇哪一種測度?一般使用默認值,這些選擇項的含義如下,不過沒有必要去詳記。
選擇interval選項,要求變量是定距的,如長度、重量、壓力等
● Euclidean Distance
● Squared Euclidean distance
● Chebychev
● Block
● Minkowski
● Customized 容許用戶自己定義距離公式。
選擇counts
● chi-square measure 卡方檢驗
● phi-square measure 的值除于聯合頻數的平方根
選擇 Binary
● Euclidean Distance 最小距離0,最大為無窮
● Squared Euclidean distance 最小距離0,最大為無窮
● Size difference 使用大小不同的測度來測量,最小距離0,最大為無窮
● Pattern difference 在0-1的范圍測度
● Variance 用方表示距離
● Shape 在0-1的范圍測度
● Lance and Williams 0-1范圍測度
Transform Values
Standardize
● None 對觀察值或變量不進行標準化
● Z score 標準化到Z分數(均值0,方差1)
● Range –1 to 1觀察值或變量標準化到-1----1的范圍內
● Range 0 to 1觀察值或變量標準化到0----1的范圍內
● Maximum magnitude of 1 觀察值或變量都除于觀察值或變量的最大值
● Mean of 1 觀察值或變量都除于均值,如果均值為0,則先加1
●Standardized devation of 1觀察值或變量都除于標準差
Transform measures
● Absolute values 對距離取絕對值
●Change sign 對距離取負數
● Rescale to 0-1 ranges 對距離進行標準化
如何對相似性進行測度
Measures-----Similarities-----
選擇Inerval時
●Pearson correlation 取值在-1---1之間
●Cosine 用余弦來度量相似性,
選擇Binary時
●Russell and rao使用二分點乘積為配對系數
●Simple matching 配對數占總對數的比例
●Jaccard 講分子與分母中的配對數與非配對數給予相同的權重
●Dice 使用DICE配對系數
●Rogers and Tanimoto 分母為配對數,分子為非配對數,非配對數給以加倍的權重
●Sokal and Sneath1分母為配對數,分子為非配對數,配對數給以加倍的權重
●Sokal and Sneath2分母、分子均為非配對數,分子以加倍的權重
●Sokal and Sneath3分母為配對數,分子為非配對數,分子、分母的權重相同
Transform measures
● Absolute values 對距離取絕對值
●Change sign 對距離取負數
● Rescale to 0-1 ranges 對距離進行標準化
Standardize
● None 對觀察值或變量不進行標準化
其余與前面相同
實例:
數據:SPSS所帶的judges.sav數據
中、美、法等7個國家的裁判與沒有結果嚴格訓練的體育愛好者在進行體育比賽時對選手的評分,根據評分高低來看那些國家的裁判在評判上比較一致,哪些國家的裁判比較不一致。
1. Analyze---Correlate---Distances
2. Variable---judge1-judge8
3. 選擇Between variables
4. Measure—選擇Dissimilarities 默認方式
5. 結果:
結論:美、法、韓國的裁判比較接近;中、俄、羅比較接近。體育愛好者與7國裁判差別大。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25