熱線電話:13121318867

登錄
首頁精彩閱讀統計之 - 相關性(Correlation)分析?_數據分析師
統計之 - 相關性(Correlation)分析?_數據分析師
2014-11-09
收藏

統計之 - 相關性(Correlation)分析_數據分析師


相關分析correlationanalysis),相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度,是研究隨機變量之間的相關關系的一種統計方法。相關關系是一種非確定性的關系,例如,以XY分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則XY顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。

相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴關系的函數形式。而在相關分析中,所討論的變量的地位一樣,分析側重于隨機變量之間的種種相關特征。例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在于由X去預測Y。

相關分析的分類

1. 線性相關分析

研究兩個變量間線性關系的程度。用相關系數r來描述。

  1. 正相關:如果x,y變化的方向一致,如身高與體重的關系,r>0;一般地

  2. ·        |r|>0.95 存在顯著性相關;

  3. ·        |r|0.8 高度相關;

  4. ·        0.5|r|<0.8 中度相關;

  5. ·        0.3|r|<0.5 低度相關;

  6. ·        |r|<0.3 關系極弱,認為不相關

  7. 負相關:如果x,y變化的方向相反,如吸煙與肺功能的關系,r<0

  8. 無線性相關:r=0

如果變量YX間是函數關系,則r=1r=-1;如果變量YX間是統計關系,則-1。

  1. r的計算有三種:

  Pearson相關系數:對定距連續變量的數據進行計算。

  SpearmanKendall相關系數:對分類變量的數據或變量值的分布明顯非正態或分布不明時,計算時先對離散數據進行排序或對定距變量值排(求)秩。

2. 偏相關分析

研究兩個變量之間的線性相關關系時,控制可能對其產生影響的變量。如控制年齡和工作經驗的影響,估計工資收入與受教育水平之間的相關關系。

3. 距離分析

是對觀測量之間或變量之間相似或不相似程度的一種測度,是一種廣義的距離。分為觀測量之間距離分析和變量之間距離分析。

  1. 不相似性測度:

    對等間隔(定距)數據的不相似性(距離)測度可以使用的統計量有Euclid歐氏距離、歐氏距離平方等。

    對計數數據使用卡方

    對二值(只有兩種取值)數據,使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等。

  2. 相似性測度:

    等間隔數據使用統計量Pearson相關或余弦。

    測度二元數據的相似性使用的統計量有20余種。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢