
在翻譯sklearn文檔 2.無監督學習 部分過程中,發現協方差矩陣幾乎貫穿整個章節,但sklearn指導手冊把協方差部分放在了這一章節偏后的部分,作為機器學習一個基礎概念,在這篇文章中,想把協方差矩陣的相關知識以及主要應用。
統計學中常用平均值,方差,標準差等描述數據。平均值描述了樣本集合的中間點;方差總是一個非負數,當隨機變量的可能值集中在數學期望的附近時,方差較小; 反之, 則方差較大。所以, 由方差的大小可以推斷隨機變量分布的分散程度, 方差能反映隨機變量的一切可能值在數學期望周圍的分散程度。標準差描述了各個樣本點到均值的距離的平均值。但這些統計量都是針對一維數據的計算,在處理高維數據時,便可以采用協方差來查看數據集中的一些規律。協方差來度量兩個隨機變量關系的統計量,它描述的意義是:如果結果為正值,則說明兩者是正相關的,否則是負相關的。需要注意的是,協方差是計算不同特征之間的統計量,不是不同樣本之間的統計量。
協方差公式:
設n個隨機向量:
從公式上看,協方差是兩個變量與自身期望做差再相乘, 然后對乘積取期望。也就是說,當其中一個變量的取值大于自身期望,另一個變量的取值也大于自身期望時,即兩個變量的變化趨勢相同, 此時,兩個變量之間的協方差取正值。反之,即其中一個變量大于自身期望時,另外一個變量小于自身期望,那么這兩個變量之間的協方差取負值。下面根據舉一個例子來對協方差形象的解釋:
協方差矩陣是實對稱矩陣,實對稱矩陣的性質:
協方差矩陣中的對角線元素表示方差, 非對角線元素表示隨機向量 X 的不同分量之 問的協方差. 協方差一定程度上體現了相關性, 因而可作為刻畫不同分 量之間相關性的一個評判量。若不同分量之問的相關性越小,則 非對角線元素的值就越小。特別地, 若不同分量彼此不相關, 那么 C 就變成了一個對角陣。注意, 我們并不能得到協方差矩陣 $C(X)$ 的真實值, 只能根據所提供的 X 的樣本數據對其進行近似估計。因此, 這樣計算得到的協方差矩陣是依賴于樣本數據的, 通常提供的樣本數目越多 , 樣本在總體中的覆蓋面就越廣。
理解協方差矩陣的關鍵就在于牢記它計算的是不同維度之間的協方差,而不是不同樣本之間,拿到一個樣本矩陣,我們最先要明確的就是一行是一個樣本還是一個維度,心中明確這個整個計算過程就會順流而下,這么一來就不會迷茫了。其實還有一個更簡單的容易記還不容易出錯的方法:協方差矩陣一定是一個對稱的方陣,
有時候由于種種原因,并不使用全部的樣本數據計算協方差矩陣,而是利用部分樣本數據計算,這時候就要考慮利用部分樣本計算得到的協方差矩陣是否和真實的協方差矩陣相同或者近似。
當提供的樣本數目相對于特征數足夠多時,利用最大似然估計(或者稱為經驗協方差)計算的結果,可以認為是協方差矩陣的幾個近似結果。這種情況下,會假設數據的分布符合一個多元正太分布,數據的概率密度函數中是包含協方差矩陣的,利用最大似然函數,對其進行估計。
在矩陣的求逆過程中, 最大似然估計不是協方差矩陣的特征值的一個很好的估計, 所以從反演得到的精度矩陣是不準確的。 有時,甚至出現因矩陣元素地特性,經驗協方差矩陣不能求逆。 為了避免這樣的反演問題,引入了經驗協方差矩陣的一種變換方式,收縮協方差。
PCA的本質其實就是對角化協方差矩陣。PCA的目的就是“降噪”和“去冗余”?!敖翟搿钡哪康木褪鞘贡A粝聛淼木S度間的相關性盡可能小,而“去冗余”的目的就是使保留下來的維度含有的“能量”即方差盡可能大。那首先的首先,我們得需要知道各維度間的相關性以及個維度上的方差??!那有什么數據結構能同時表現不同維度間的相關性以及各個維度上的方差呢?自然是非協方差矩陣莫屬。協方差矩陣度量的是維度與維度之間的關系,而非樣本與樣本之間。協方差矩陣的主對角線上的元素是各個維度上的方差(即能量),其他元素是兩兩維度間的協方差(即相關性)。我們需要的東西,協方差矩陣都有了。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23