熱線電話:13121318867

登錄
首頁精彩閱讀簡單易學的機器學習算法—嶺回歸(Ridge Regression)
簡單易學的機器學習算法—嶺回歸(Ridge Regression)
2017-03-24
收藏

簡單易學的機器學習算法—嶺回歸(Ridge Regression)

一、一般線性回歸遇到的問題
    在處理復雜的數據的回歸問題時,普通的線性回歸會遇到一些問題,主要表現在:
預測精度:這里要處理好這樣一對為題,即樣本的數量和特征的數量
時,最小二乘回歸會有較小的方差
時,容易產生過擬合
時,最小二乘回歸得不到有意義的結果
模型的解釋能力:如果模型中的特征之間有相互關系,這樣會增加模型的復雜程度,并且對整個模型的解釋能力并沒有提高,這時,我們就要進行特征選擇。
以上的這些問題,主要就是表現在模型的方差和偏差問題上,這樣的關系可以通過下圖說明:

(摘自:機器學習實戰)
方差指的是模型之間的差異,而偏差指的是模型預測值和數據之間的差異。我們需要找到方差和偏差的折中。
二、嶺回歸的概念
    在進行特征選擇時,一般有三種方式:
子集選擇
收縮方式(Shrinkage method),又稱為正則化(Regularization)。主要包括嶺回歸個lasso回歸。
維數縮減
    嶺回歸(Ridge Regression)是在平方誤差的基礎上增加正則項

通過確定的值可以使得在方差和偏差之間達到平衡:隨著的增大,模型方差減小而偏差增大。
    對w求導,結果為

令其為0,可求w得的值:

三、實驗的過程
    我們去探討一下取不同的對整個模型的影響。

MATLAB代碼
主函數
[plain] view plain copy 在CODE上查看代碼片派生到我的代碼片
%% 嶺回歸(Ridge Regression)  數據分析師培訓
 
%導入數據  
data = load('abalone.txt');  
[m,n] = size(data);  
 
dataX = data(:,1:8);%特征  
dataY = data(:,9);%標簽  
 
%標準化  
yMeans = mean(dataY);  
for i = 1:m  
    yMat(i,:) = dataY(i,:)-yMeans;  
end  
 
xMeans = mean(dataX);  
xVars = var(dataX);  
for i = 1:m  
    xMat(i,:) = (dataX(i,:) - xMeans)./xVars;  
end  
 
% 運算30次  
testNum = 30;  
weights = zeros(testNum, n-1);  
for i = 1:testNum  
    w = ridgeRegression(xMat, yMat, exp(i-10));  
    weights(i,:) = w';  
end  
 
% 畫出隨著參數lam  
hold on  
axis([-9 20 -1.0 2.5]);  
xlabel log(lam);  
ylabel weights;  
for i = 1:n-1  
    x = -9:20;  
    y(1,:) = weights(:,i)';  
    plot(x,y);  
end  

嶺回歸求回歸系數的函數
[plain] view plain copy 在CODE上查看代碼片派生到我的代碼片
function [ w ] = ridgeRegression( x, y, lam )  
    xTx = x'*x;  
    [m,n] = size(xTx);  
    temp = xTx + eye(m,n)*lam;  
    if det(temp) == 0  
        disp('This matrix is singular, cannot do inverse');  
    end  
    w = temp^(-1)*x'*y;  
end 

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢