熱線電話:13121318867

登錄
首頁精彩閱讀R語言:數據規范化、歸一化
R語言:數據規范化、歸一化
2017-04-29
收藏

R語言:數據規范化、歸一化

筆者寄語:規范化主要是因為數據受著單位的影響較大,需要進行量綱化。大致有:最小-最大規范化、均值標準化、小數定標規范化
數據中心化和標準化的意義是一樣的,為了消除量綱對數據結構的影響。

1、最小-最大規范化——標準化
也叫離差標準化,是對原始數據的線性變換,將數據映射到[0,1]之間,與功效系數法相同。
標準化    x-min(x) / max(x)-min(x)
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
    #最小-最大規范化  
    b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))  
    b2=(data[,2]-min(data[,2]))/(max(data[,2])-min(data[,2]))  
    b3=(data[,3]-min(data[,3]))/(max(data[,3])-min(data[,3]))  
    b4=(data[,4]-min(data[,4]))/(max(data[,4])-min(data[,4]))  
    data_scatter=cbind(b1,b2,b3,b4) 
2、均值標準化法——正態化
正態標準差標準化、零均值規范化等方法,經過處理的數據均值為0,標準差為1。公式
為:
x*=(x-均值)/標準差
因為均值受離群值影響較大,也可以將均值替換成變量的中位數。
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
    #零-均值規范化  
    data_zscore=scale(data) 
3、小數定標規范化
移動變量的小數點位置來將變量映射到[-1,1]
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片

    #小數定標規范化  
    i1=ceiling(log(max(abs(data[,1])),10))#小數定標的指數  
    c1=data[,1]/10^i1  
    i2=ceiling(log(max(abs(data[,2])),10))  
    c2=data[,2]/10^i2  
    i3=ceiling(log(max(abs(data[,3])),10))  
    c3=data[,3]/10^i3  
    i4=ceiling(log(max(abs(data[,4])),10))  
    c4=data[,4]/10^i4  
    data_dot=cbind(c1,c2,c3,c4)  
      
    #打印結果  
    options(digits = 4)#控制輸出結果的有效位數  
    data_dot 
代碼中,log(x,10)是ln(x)一樣;
options可以控制保留四位數小數
4、還原標準化的方法
[html] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
    preds=norm.data*sd(data)+mean(data)#還原標準化的數據 
5、R語言中的scale函數
scale方法中的兩個參數center和scale的解釋:
1.center和scale默認為真,即T或者TRUE
2.center為真表示數據中心化
3.scale為真表示數據標準化
中心化=源數據-均值
標準化==中心化之后的數據在除以數據集的標準差,即數據集中的各項數據減去數據集
的均值再除以數據集的標準差。
例如有數據集1, 2, 3, 6, 3,其均值為3,其標準差為1.87,那么標準化之后的數據集
為(1-3)/1.87,(2-3)/1.87,(3-3)/1.87,(6-3)/1.87,(3-3)/1.87,即:-1.069,-
0.535,0,1.604,0
那么以下幾種情況是啥意思:
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
    scale(x)=scale(x,center=T,scale=T),默認設置  
    scale(x,center=F,scale=T)代表不進行中心化,直接做標準化;  
    scale(x,center=T,scale=F)代表中心化  
    scale(x,center=F,scale=F)代表什么不做,是原來的數據列。 
那么與apply族聯用

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢