熱線電話:13121318867

登錄
首頁精彩閱讀ML基礎:無監督學習之協方差矩陣
ML基礎:無監督學習之協方差矩陣
2020-06-16
收藏

在翻譯sklearn文檔 2.無監督學習 部分過程中,發現協方差矩陣幾乎貫穿整個章節,但sklearn指導手冊把協方差部分放在了這一章節偏后的部分,作為機器學習一個基礎概念,在這篇文章中,想把協方差矩陣的相關知識以及主要應用。

統計學中常用平均值,方差,標準差等描述數據。平均值描述了樣本集合的中間點;方差總是一個非負數,當隨機變量的可能值集中在數學期望的附近時,方差較小; 反之, 則方差較大。所以, 由方差的大小可以推斷隨機變量分布的分散程度, 方差能反映隨機變量的一切可能值在數學期望周圍的分散程度。標準差描述了各個樣本點到均值的距離的平均值。但這些統計量都是針對一維數據的計算,在處理高維數據時,便可以采用協方差來查看數據集中的一些規律。協方差來度量兩個隨機變量關系的統計量,它描述的意義是:如果結果為正值,則說明兩者是正相關的,否則是負相關的。需要注意的是,協方差是計算不同特征之間的統計量,不是不同樣本之間的統計量。

協方差基本知識:

協方差公式:

設n個隨機向量:

從公式上看,協方差是兩個變量與自身期望做差再相乘, 然后對乘積取期望。也就是說,當其中一個變量的取值大于自身期望,另一個變量的取值也大于自身期望時,即兩個變量的變化趨勢相同, 此時,兩個變量之間的協方差取正值。反之,即其中一個變量大于自身期望時,另外一個變量小于自身期望,那么這兩個變量之間的協方差取負值。下面根據舉一個例子來對協方差形象的解釋:

協方差矩陣是實對稱矩陣,實對稱矩陣的性質:

  1. 實對稱矩陣的不同特征值對應的特征向量時正交的
  2. 實對稱矩陣的特征值是實數,特征向量是實向量
  3. 實對稱矩陣必可對角化,且其相似對角矩陣的對角線元素為n個特征

協方差矩陣中的對角線元素表示方差, 非對角線元素表示隨機向量 X 的不同分量之 問的協方差. 協方差一定程度上體現了相關性, 因而可作為刻畫不同分 量之間相關性的一個評判量。若不同分量之問的相關性越小,則 非對角線元素的值就越小。特別地, 若不同分量彼此不相關, 那么 C 就變成了一個對角陣。注意, 我們并不能得到協方差矩陣 $C(X)$ 的真實值, 只能根據所提供的 X 的樣本數據對其進行近似估計。因此, 這樣計算得到的協方差矩陣是依賴于樣本數據的, 通常提供的樣本數目越多 , 樣本在總體中的覆蓋面就越廣。

理解協方差矩陣的關鍵就在于牢記它計算的是不同維度之間的協方差,而不是不同樣本之間,拿到一個樣本矩陣,我們最先要明確的就是一行是一個樣本還是一個維度,心中明確這個整個計算過程就會順流而下,這么一來就不會迷茫了。其實還有一個更簡單的容易記還不容易出錯的方法:協方差矩陣一定是一個對稱的方陣,

經驗協方差

有時候由于種種原因,并不使用全部的樣本數據計算協方差矩陣,而是利用部分樣本數據計算,這時候就要考慮利用部分樣本計算得到的協方差矩陣是否和真實的協方差矩陣相同或者近似。

當提供的樣本數目相對于特征數足夠多時,利用最大似然估計(或者稱為經驗協方差)計算的結果,可以認為是協方差矩陣的幾個近似結果。這種情況下,會假設數據的分布符合一個多元正太分布,數據的概率密度函數中是包含協方差矩陣的,利用最大似然函數,對其進行估計。

收縮協方差

在矩陣的求逆過程中, 最大似然估計不是協方差矩陣的特征值的一個很好的估計, 所以從反演得到的精度矩陣是不準確的。 有時,甚至出現因矩陣元素地特性,經驗協方差矩陣不能求逆。 為了避免這樣的反演問題,引入了經驗協方差矩陣的一種變換方式,收縮協方差。

協方差矩陣——PCA實現的關鍵

PCA的本質其實就是對角化協方差矩陣。PCA的目的就是“降噪”和“去冗余”?!敖翟搿钡哪康木褪鞘贡A粝聛淼木S度間的相關性盡可能小,而“去冗余”的目的就是使保留下來的維度含有的“能量”即方差盡可能大。那首先的首先,我們得需要知道各維度間的相關性以及個維度上的方差??!那有什么數據結構能同時表現不同維度間的相關性以及各個維度上的方差呢?自然是非協方差矩陣莫屬。協方差矩陣度量的是維度與維度之間的關系,而非樣本與樣本之間。協方差矩陣的主對角線上的元素是各個維度上的方差(即能量),其他元素是兩兩維度間的協方差(即相關性)。我們需要的東西,協方差矩陣都有了。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢