熱線電話:13121318867

登錄
首頁精彩閱讀簡單易學的機器學習算法—主成分分析(PCA)
簡單易學的機器學習算法—主成分分析(PCA)
2017-03-24
收藏

簡單易學的機器學習算法—主成分分析(PCA)

一、數據降維
    對于現在維數比較多的數據,我們首先需要做的就是對其進行降維操作。降維,簡單來說就是說在盡量保證數據本質的前提下將數據中的維數降低。降維的操作可以理解為一種映射關系,例如函數,即由原來的二維轉換成了一維。處理降維的技術有很多種,如前面的SVD奇異值分解,主成分分析(PCA),因子分析(FA),獨立成分分析(ICA)等等。
二、PCA的概念
    PCA是一種較為常用的降維技術,PCA的思想是將n維特征映射到K維上,這維是全新的正交特征。這K維特征稱為主元,是重新構造出來的K維特征。在PCA中,數據從原來的坐標系轉換到新的坐標系下,新的坐標系的選擇與數據本身是密切相關的。其中,第一個新坐標軸選擇的是原始數據中方差最大的方向,第二個新坐標軸選取的是與第一個坐標軸正交且具有最大方差的方向,依次類推,我們可以取到這樣的K個坐標軸。
三、PCA的操作過程
    1、PCA的操作流程大致如下:
去平均值,即每一位特征減去各自的平均值
計算協方差矩陣
計算協方差矩陣的特征值與特征向量
特征值從大到小排序
保留最大的K個特征向量
將數據轉換到K個特征向量構建的新空間中
    2、具體的例子
        假設二維數據為

取平均值
       我們計算每一維特征的平均值,并去除平均值,我們計算出均值

去除均值后的矩陣

計算的協方差矩陣

計算特征值與特征向量
其中,特征值為

特征向量為

特征值進行排序,顯然就兩個特征
選擇最大的那個特征值對應的特征向量
轉換到新的空間

四、實驗的仿真
我們隊一個數據集進行了測試:

MATLAB實驗代碼如下:
主程序
[plain] view plain copy 在CODE上查看代碼片派生到我的代碼片
%% pca  
 
dataSet = load('testSet.txt');%導入數據  
 
% pca  
[FinalData, reconData] = PCA(dataSet, 1);  
 
%% 作圖  
hold on  
plot(dataSet(:,1), dataSet(:,2), '.');  
plot(reconData(:,1), reconData(:,2), '.r');  
hold off  
      
      

PCA函數段
[plain] view plain copy 在CODE上查看代碼片派生到我的代碼片
function [ FinalData,reconData ] = PCA( dataSet, k )  
    [m,n] = size(dataSet);  
 
   %% 去除平均值  
    %取平均值  
    dataSetMean = mean(dataSet);  
    %減去平均值  
    dataSetAdjust = zeros(m,n);  
    for i = 1 : m  
        dataSetAdjust(i , :) = dataSet(i , :) - dataSetMean;  
    end  
 
    %% 計算協方差矩陣  
    dataCov = cov(dataSetAdjust);  
 
    %% 計算協方差矩陣的特征值與特征向量  
    [V, D] = eig(dataCov);  
      
    % 將特征值矩陣轉換成向量  
    d = zeros(1, n);  
    for i = 1:n  
        d(1,i) = D(i,i);  
    end  
      
    %% 對特征值排序  
    [maxD, index] = sort(d);  
      
    %% 選取前k個最大的特征值  
    % maxD_k = maxD(1, (n-k+1):n);  
    index_k = index(1, (n-k+1):n);  
    % 對應的特征向量  
    V_k = zeros(n,k);  
    for i = 1:k  
        V_k(:,i) = V(:,index_k(1,i));  
    end  
      
    %% 轉換到新的空間  
    FinalData = dataSetAdjust*V_k;  
      
    % 在原圖中找到這些點  
    reconData = FinalData * V_k';  
    for i = 1 : m  
        reconData(i , :) = reconData(i , :) + dataSetMean;  
    end  
end 

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢