熱線電話:13121318867

登錄
首頁精彩閱讀 K近算法之皮爾遜系數
K近算法之皮爾遜系數
2014-11-30
收藏

 K近算法之皮爾遜系數


  • 皮爾遜系數(Pearson Correlation Coefficient)
    在具體闡述皮爾遜相關系數之前,有必要解釋下什么是相關系數 ( Correlation coefficient )與相關距離(Correlation distance)。
    相關系數 ( Correlation coefficient )的定義是:
(其中,E為數學期望或均值,D為方差,D開根號為標準差,E{ [X-E(X)] [Y-E(Y)]}稱為隨機變量X與Y的協方差,記為Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},而兩個變量之間的協方差和標準差的商則稱為隨機變量X與Y的相關系數,記為)
   相關系數衡量隨機變量X與Y相關程度的一種方法,相關系數的取值范圍是[-1,1]。相關系數的絕對值越大,則表明X與Y相關度越高。當X與Y線性相關時,相關系數取值為1(正線性相關)或-1(負線性相關)。
    具體的,如果有兩個變量:X、Y,最終計算出的相關系數的含義可以有如下理解:
  1. 當相關系數為0時,X和Y兩變量無關系。
  2. 當X的值增大(減?。?,Y值增大(減?。?,兩個變量為正相關,相關系數在0.00與1.00之間。
  3. 當X的值增大(減?。?,Y值減?。ㄔ龃螅?,兩個變量為負相關,相關系數在-1.00與0.00之間。
   相關距離的定義是:

OK,接下來,咱們來重點了解下皮爾遜相關系數。
    在統計學中,皮爾遜積矩相關系數(英語:Pearson product-moment correlation coefficient,又稱作 PPMCC或PCCs, 用r表示)用于度量兩個變量X和Y之間的相關(線性相關),其值介于-1與1之間。

通常情況下通過以下取值范圍判斷變量的相關強度:
相關系數     0.8-1.0     極強相關
                 0.6-0.8     強相關
                 0.4-0.6     中等程度相關
                 0.2-0.4     弱相關
                 0.0-0.2     極弱相關或無相關

在自然科學領域中,該系數廣泛用于度量兩個變量之間的相關程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。這個相關系數也稱作“皮爾森相關系數r”。
(1)皮爾遜系數的定義
兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商:
以上方程定義了總體相關系數, 一般表示成希臘字母ρ(rho)?;跇颖緦f方差和方差進行估計,可以得到樣本標準差, 一般表示成r:
一種等價表達式的是表示成標準分的均值?;?Xi, Yi)的樣本點,樣本皮爾遜系數是

               其中、 及 ,分別是標準分、樣本平均值和樣本標準差。
或許上面的講解令你頭腦混亂不堪,沒關系,我換一種方式講解,如下:

假設有兩個變量X、Y,那么兩變量間的皮爾遜相關系數可通過以下公式計算:

  • 公式一:
注:勿忘了上面說過,“皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商”,其中標準差的計算公式為:
  • 公式二:
  • 公式三:
  • 公式四:

以上列出的四個公式等價,其中E是數學期望,cov表示協方差,N表示變量取值的個數。

(2)皮爾遜相關系數的適用范圍
當兩個變量的標準差都不為零時,相關系數才有定義,皮爾遜相關系數適用于:
  1. 兩個變量之間是線性關系,都是連續數據。
  2. 兩個變量的總體是正態分布,或接近正態的單峰分布。
  3. 兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
(3)如何理解皮爾遜相關系數

rubyist皮爾遜相關系數理解有兩個角度

其一, 按照高中數學水平來理解, 它很簡單, 可以看做將兩組數據首先做Z分數處理之后, 然后兩組數據的乘積和除以樣本數,Z分數一般代表正態分布中, 數據偏離中心點的距離.等于變量減掉平均數再除以標準差.(就是高考的標準分類似的處理)

樣本標準差則等于變量減掉平均數的平方和,再除以樣本數,最后再開方,也就是說,方差開方即為標準差,樣本標準差計算公式為:

所以, 根據這個最樸素的理解,我們可以將公式依次精簡為:

其二, 按照大學的線性數學水平來理解, 它比較復雜一點,可以看做是兩組數據的向量夾角的余弦。下面是關于此皮爾遜系數的幾何學的解釋,先來看一幅圖,如下所示:


回歸直線: y=gx(x) [紅色] 和 x=gy(y) [藍色]

如上圖,對于沒有中心化的數據, 相關系數與兩條可能的回歸線y=gx(x) 和 x=gy(y) 夾角的余弦值一致。
對于沒有中心化的數據 (也就是說, 數據移動一個樣本平均值以使其均值為0), 相關系數也可以被視作由兩個隨機變量 向量 夾角 的 余弦值(見下方)。
舉個例子,例如,有5個國家的國民生產總值分別為 10, 20, 30, 50 和 80 億美元。 假設這5個國家 (順序相同) 的貧困百分比分別為 11%, 12%, 13%, 15%, and 18% 。 令 x 和 y 分別為包含上述5個數據的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法計算兩個向量之間的夾角  (參見 數量積), 未中心化 的相關系數是:


我們發現以上的數據特意選定為完全相關: y = 0.10 + 0.01 x。 于是,皮爾遜相關系數應該等于1。將數據中心化 (通過E(x) = 3.8移動 x 和通過 E(y) = 0.138 移動 y ) 得到 x = (?2.8, ?1.8, ?0.8, 1.2, 4.2) 和 y = (?0.028, ?0.018, ?0.008, 0.012, 0.042), 從中

(4)皮爾遜相關的約束條件

從以上解釋, 也可以理解皮爾遜相關的約束條件:

  • 1 兩個變量間有線性關系
  • 2 變量是連續變量
  • 3 變量均符合正態分布,且二元分布也符合正態分布
  • 4 兩變量獨立

在實踐統計中,一般只輸出兩個系數,一個是相關系數,也就是計算出來的相關系數大小,在-1到1之間;另一個是獨立樣本檢驗系數,用來檢驗樣本一致性。

     簡單說來,各種“距離”的應用場景簡單概括為,空間:歐氏距離,路徑:曼哈頓距離,國際象棋國王:切比雪夫距離,以上三種的統一形式:閔可夫斯基距離,加權:標準化歐氏距離,排除量綱和依存:馬氏距離,向量差距:夾角余弦,編碼差別:漢明距離,集合近似度:杰卡德類似系數與距離,相關:相關系數與相關距離。CDA數據分析師官網

K值的選擇

    除了上述1.2節如何定義鄰居的問題之外,還有一個選擇多少個鄰居,即K值定義為多大的問題。不要小看了這個K值選擇問題,因為它對K近鄰算法的結果會產生重大影響。如李航博士的一書「統計學習方法」上所說:

  1. 如果選擇較小的K值,就相當于用較小的領域中的訓練實例進行預測,“學習”近似誤差會減小,只有與輸入實例較近或相似的訓練實例才會對預測結果起作用,與此同時帶來的問題是“學習”的估計誤差會增大,換句話說,K值的減小就意味著整體模型變得復雜,容易發生過擬合;
  2. 如果選擇較大的K值,就相當于用較大領域中的訓練實例進行預測,其優點是可以減少學習的估計誤差,但缺點是學習的近似誤差會增大。這時候,與輸入實例較遠(不相似的)訓練實例也會對預測器作用,使預測發生錯誤,且K值的增大就意味著整體的模型變得簡單。
  3. K=N,則完全不足取,因為此時無論輸入實例是什么,都只是簡單的預測它屬于在訓練實例中最多的累,模型過于簡單,忽略了訓練實例中大量有用信息。
    在實際應用中,K值一般取一個比較小的數值,例如采用交叉驗證法(簡單來說,就是一部分樣本做訓練集,一部分做測試集)來選擇最優的K值。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢