
典型相關VS潛變量相關_數據分析_大數據
關于數據分析中的典型相關和潛變量相關,相信有許多人有各種各樣的問題,這里談談一些我"數據分析師"的理解。前段時間,看到這樣一個案例。案例要求衡量學生的文科成績與理科成績之間的相關性。文科成績包括語文、政治、歷史,理科成績包括數學、物理和化學。那么這道題該怎么做?面對多元相關分析,你"數據分析師"可能會想到兩種方法:一種是采用典型相關分析,計算這兩組變量間的典型相關系數;另一種是采用結構方程中的潛變量相關,將文科和理科看成是潛變量,將語文、政治、歷史看成是文科的測量變量,數學、物理、化學看成是理科的測量變量,然后計算兩個潛變量間的相關系數。從理論上看貌似這兩種方法都可以,但是計算的結果卻可能相差甚遠。
典型相關分析的基本思想是采用類似主成分分析的方法,把多變量與多變量之間的相關轉化為兩個變量之間相關。首先在每組變量內部找出具有最大相關性的一個線性變量組合,然后再在每組變量內找出第二對線性組合,使其本身具有最大的相關性,并分別與第一對線性組合不相關。如此下去,直到兩組變量內各變量之間的相關性被提取完畢為止。有了這些最大相關的線性組合,則討論兩組變量之間的相關,就轉化為研究這些線性組合的最大相關,從而減少了研究變量的個數。
結構方程中的潛變量相關,常用的計算潛變量的方法是主成份。"數據分析師"在實際計算中,如果第一主成份特別大,也就是說只有一個主成份的時候,潛變量相關系數等于第一主成份間的相關系數。如果各個顯變量的提取的主成份不只一個,結果就略有不同了。
其實,典型相關分析和潛變量相關的不同在于,一個依據相關系數最大提取典型變量,一個依據方差最大提取主成分。所以這個兩個計算出來的相關系數會有明顯的差異。更夸張的是,有些時候這種差異會很大的!很大,明白嗎?甚至一個是顯著正相關(-0.5以上),一個是顯著負相關(-0.5以上)。這個現象不是胡扯,我采用模擬數據時曾經確實出現過。
典型變量是各指標的線性組合,在這個線性組合中,各個變量的系數可能是正可能是否,加上提取的時候使得相關系數最大,所以典型相關分析的結果往往大于0。而"數據分析師"在計算潛變量相關時,先提取主成分,然后計算主成分之間的相關,所以這個潛變量的相關系數取值范圍應該是在【-1,1】。
需要說明的是,當我們實際面臨上述的問題時,可能既不采用典型相關分析,也不采用潛變量相關,而是分別計算語文+政治+歷史的總分與數學+物理+化學的總分,用這兩個總分代表文科和理科的成績,直接計算這兩個總分間的相關系數。因為這幾個成績在量綱、數量級上都相同,直接相加不僅具有實際意義,而且容易理解,得出的結果也能夠更好地解釋和反映實際問題。
最后羅嗦一句,算是對數據分析人員"數據分析師"的忠告:當我們面對一個實際問題時,不應該一味地追求分析方法的高級和復雜,而更應該力求用最簡單最合適的方法解決問題?;蛟S,懸乎的方法可以忽悠同事、忽悠領導,甚至忽悠自己,但記住市場相信真像,它絕對不會被任何人忽悠。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25