熱線電話:13121318867

登錄
首頁精彩閱讀 【連載一】spss中做相關分析
【連載一】spss中做相關分析
2014-11-28
收藏

 【連載一】spss中做相關分析

相關分析是很基礎的一種分析方法,接觸spss的同學很快就會學習到想相關分析。雖然他很基礎,但是在做很多高級分析之前,都要進行相關分析。這篇問文章就系統的和大家分享一下spss里如何做相關分析。

     在spss中相關分析主要分為三大類,分別是雙變量相關分析,偏相關分析和距離相關分析。

     1、雙變量相關分析主要研究兩個變量數量之間的相關性。它又分為pearson相關分析,kendall相關分析,kendall等級相關分析,還有spearmen等級相關分析這四種。

     Pearson相關分析是應用最最多的一種分析方法,它適用于評價兩個連續變量十是否相關,常見的例子有分析體重和身高的相關性啊,分析睡眠時間和學習時間的相關性啊等等。這兩個例子里變量都是連續性的,所以用pearson相關分析。主要分析過程如下,選擇菜單分析——相關——雙變量,打開雙變量主對話框,把要分析的變量選入變量框(兩個以上哈),確定就可以了。很簡單。結果也很容易看,主要看兩個指標,一個是p值,就是sig(不要笑,雖然很簡單的一個點,可是就是有好多人都搞不清楚),p值小于0.5,就認為兩個變量顯著相關,p值小于0.01,就認為極其顯著。另一個是相關系數,相關系數為正就是正相關,為負就是負相關,相關系數的絕對值越接近一就說明相關性越強。一般認為0.7以上是強相關。注意,這里有一個事情很多人都搞不清楚,要特別說一下哈,p值很小,同時相關系數也很小這種情況是存在的。這說明兩個變量顯著相關,但是是弱相關,也就是說p值和相關系數沒什么關系,兩個的取值互相不影響,如果出現p值和相關系數都很小的情況,不要太緊張,很正常哈。

     Kendall相關分析主要用來反映兩個有序分類變量的一致性,有序分類變量就是等級變量,1.2.3.這類遞進的,時間序列也是有序分類變量,無序分類則是性別啊,是否成年啊,這種的??傊甼endall相關分析的使用范圍是用來分析兩個有序分類變量,舉個例子,如果把睡眠時間和學習時間都用等級表示出來(比如一小時一個等級),那這個分析就可以用kendall,它的結果觀察方法和pearson一樣,就不在重復了。

      Kendall等級相關分析所適用的情況是另一種,它操作方法和上一個kendall的例子一樣,但是用于等級資料,是要加權的。舉個例子,比如我想分析一下一個人每天吃不吃水果和這個人的營養狀況的相關性,那就要用到等級分析。這個例子和上邊的例子的區別很明顯,上邊都是數值型的變量,而這個例子中是要自己定義的,比如我定義吃水果是1,不吃是2,定義營養狀況為差,中,強,分別對應1,2,3。然后我想分析的話我就定義變量水果食用情況,營養狀況,計數,用計數進行加權后做kendall分析,當然可以直接輸入一大堆數據,如果不嫌麻煩的話。結果分析方法同上。

      Spearman等級相關分析和kendall有一點點類似,適用于分析含有等級資料的變量,舉個例子,分析努力程度和學習成績之間的關系,其中努力程度是要分等級的資料,學習成績則是數值型的,這時候就要用spearman,結果分析同上。

      2、偏相關分析和雙變量相關分析的不同之處在于偏相關分析要考慮除卻分析的變量以外是否有其他變量影響到這兩個變量。比如,舉個例子,比如我現在有一個運動員的身高,肺活量,和短跑成績。我想要分析身高和短跑成績的相關性的話,我就要使用偏相關分析,因為肺活量也影響到了身高和短跑成績,我得剔除這個變量的影響,所以呢,我就不用雙變量,而是使用偏相關。我打開菜單分析——相關——偏相關,打開主面板,把身高和短跑成績選到變量里,把肺活量選到控制里邊,然后點確定。輸出表的觀察方式和上邊一樣,不在重復。在輸出表里,它會顯示出沒有控制變量的時候的相關系數和有控制變量的時候的相關系數,如果數據恰當的話,你會觀察到一個相當有趣的現象,不控制肺活量的時候,身高和短跑成績是相關的,控制的時候,身高和短跑成績就不相關了。So,明白偏相關的作用了嗎?

      需要特別說明一下的是,偏相關分析并不像雙變量那樣有四種方法可以供你選擇,它的適用范圍一般是一些數值型的變量,一些你能判斷到底有沒有關系的變量,你也許應該先用雙變量兩兩測出自變量是否相關,然后再考慮要不要用偏相關,而且假如你的偏相關的變量是等級資料,結果有可能會很尷尬。

      3、距離相關分析是一個初學者不那么常用到的分析,不過為了完整性,本文還是列了出來。它用來計算個案或變量之間距離相異性或相似性度量,和其他模塊,比如因子分析,聚類分析,多維尺度分析一起使用以助于分析復合數據集。它也分為兩種,變量距離相關分析,個案距離相關分析。

      我們還是使用一個例子來進行學習。比如我們想要分析學生的身高,肺活量,短跑成績這三個變量的親密度,我們選擇菜單分析——相關——距離,打開主面板,在變量列表選入這三個變量,下邊的計算距離選擇變量間,在下邊的標準選擇相似性,單擊度量,打開度量面板。這個面板里邊默認為區間,pearson相關性。另外還有一個二分類,我們在這里不討論二分類到底是干嘛的(有興趣的同學可以自己去試試),就按默認的,點繼續,點確定。然后我們觀察輸出窗口,他會輸出一個近似矩陣,由于我們上邊選的是相似性,所以這個矩陣里邊的值越接近1,就說明對應的兩個變量距離越近,就是說越親近,相關性越強。如果選的是不相似性,那么得出的數值越小距離越近,最小是0,最大值很可能超過1,超過了也不要緊張。它比雙變量做出來的結果要直接,它不考慮p值,所以兩個分析還是不一樣的哈。個案距離相關分析和這個類似,只是把計算距離選成了個案,假如你只想分析其中幾個個案,你需要在數據——選擇個案,里邊選擇一下你的個案。然后做距離相關分析,其他的默認哈。

相關分析的內容基本上就這些了。都是很淺顯的一些內容,主要的學習內容分為兩方面,一個是怎么看p值和相關系數,一個是不同的相關分析方法在適用范圍上到底有什么不同。我呢也沒有從原理方面講為什么這個方法用于這種情況這樣講,只是簡單的羅列了一下怎么用,第一希望大家看過以后能有所收益,第二大家有什么想法,或者覺得我說的有什么不對歡迎和我交流哈CDA 數據分析師培訓官網

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢