熱線電話:13121318867

登錄
首頁精彩閱讀典型相關VS潛變量相關_數據分析_大數據
典型相關VS潛變量相關_數據分析_大數據
2014-09-09
收藏

       典型相關VS潛變量相關_數據分析_大數據

關于數據分析中的典型相關和潛變量相關,相信有許多人有各種各樣的問題,這里談談一些我"數據分析師"的理解。前段時間,看到這樣一個案例。案例要求衡量學生的文科成績與理科成績之間的相關性。文科成績包括語文、政治、歷史,理科成績包括數學、物理和化學。那么這道題該怎么做?面對多元相關分析,你"數據分析師"可能會想到兩種方法:一種是采用典型相關分析,計算這兩組變量間的典型相關系數;另一種是采用結構方程中的潛變量相關,將文科和理科看成是潛變量,將語文、政治、歷史看成是文科的測量變量,數學、物理、化學看成是理科的測量變量,然后計算兩個潛變量間的相關系數。從理論上看貌似這兩種方法都可以,但是計算的結果卻可能相差甚遠。

       典型相關分析的基本思想是采用類似主成分分析的方法,把多變量與多變量之間的相關轉化為兩個變量之間相關。首先在每組變量內部找出具有最大相關性的一個線性變量組合,然后再在每組變量內找出第二對線性組合,使其本身具有最大的相關性,并分別與第一對線性組合不相關。如此下去,直到兩組變量內各變量之間的相關性被提取完畢為止。有了這些最大相關的線性組合,則討論兩組變量之間的相關,就轉化為研究這些線性組合的最大相關,從而減少了研究變量的個數。
       結構方程中的潛變量相關,常用的計算潛變量的方法是主成份。"數據分析師"在實際計算中,如果第一主成份特別大,也就是說只有一個主成份的時候,潛變量相關系數等于第一主成份間的相關系數。如果各個顯變量的提取的主成份不只一個,結果就略有不同了。
       其實,典型相關分析和潛變量相關的不同在于,一個依據相關系數最大提取典型變量,一個依據方差最大提取主成分。所以這個兩個計算出來的相關系數會有明顯的差異。更夸張的是,有些時候這種差異會很大的!很大,明白嗎?甚至一個是顯著正相關(-0.5以上),一個是顯著負相關(-0.5以上)。這個現象不是胡扯,我采用模擬數據時曾經確實出現過。
       典型變量是各指標的線性組合,在這個線性組合中,各個變量的系數可能是正可能是否,加上提取的時候使得相關系數最大,所以典型相關分析的結果往往大于0。而"數據分析師"在計算潛變量相關時,先提取主成分,然后計算主成分之間的相關,所以這個潛變量的相關系數取值范圍應該是在【-1,1】。
       需要說明的是,當我們實際面臨上述的問題時,可能既不采用典型相關分析,也不采用潛變量相關,而是分別計算語文+政治+歷史的總分與數學+物理+化學的總分,用這兩個總分代表文科和理科的成績,直接計算這兩個總分間的相關系數。因為這幾個成績在量綱、數量級上都相同,直接相加不僅具有實際意義,而且容易理解,得出的結果也能夠更好地解釋和反映實際問題。
       最后羅嗦一句,算是對數據分析人員"數據分析師"的忠告:當我們面對一個實際問題時,不應該一味地追求分析方法的高級和復雜,而更應該力求用最簡單最合適的方法解決問題?;蛟S,懸乎的方法可以忽悠同事、忽悠領導,甚至忽悠自己,但記住市場相信真像,它絕對不會被任何人忽悠。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢