
當實際輸出與期望輸出不符時,進入誤差的反向傳播階段。誤差通過輸出層,按誤差梯度下降的方式修正各層權值,向隱藏層、輸入層逐層反傳。周而復始的信息正向傳播和誤差反向傳播過程,是各層權值不斷調整的過程,也是神經網絡學習訓練的過程,此過程一直進行到網絡輸出的誤差減少到可以接受的程度,或者預先設定的學習次數為止。
反向傳播這一算法把我們前面提到的delta規則的分析擴展到了帶有隱藏節點的神經網絡。為了理解這個問題,設想Bob給Alice講了一個故事,然后Alice又講給了Ted,Ted檢查了這個事實真相,發現這個故事是錯誤的?,F在 Ted 需要找出哪些錯誤是Bob造成的而哪些又歸咎于Alice。當輸出節點從隱藏節點獲得輸入,網絡發現出現了誤差,權系數的調整需要一個算法來找出整個誤差是由多少不同的節點造成的,網絡需要問,“是誰讓我誤入歧途?到怎樣的程度?如何彌補?”這時,網絡該怎么做呢?
同樣源于梯度降落原理,在權系數調整分析中的唯一不同是涉及到t(p,n)與y(p,n)的差分。通常來說Wi的改變在于:
alpha * s'(a(p,n)) * d(n) *X(p,i,n)
其中d(n)是隱藏節點n的函數,讓我們來看:
n 對任何給出的輸出節點有多大影響;
輸出節點本身對網絡整體的誤差有多少影響。
一方面,n 影響一個輸出節點越多,n 造成網絡整體的誤差也越多。另一方面,如果輸出節點影響網絡整體的誤差越少,n 對輸出節點的影響也相應減少。這里d(j)是對網絡的整體誤差的基值,W(n,j) 是 n 對 j 造成的影響,d(j) * W(n,j) 是這兩種影響的總和。但是 n 幾乎總是影響多個輸出節點,也許會影響每一個輸出結點,這樣,d(n) 可以表示為:SUM(d(j)*W(n,j))
這里j是一個從n獲得輸入的輸出節點,聯系起來,我們就得到了一個培訓規則。
這里每個從n接收輸入的輸出節點j都不同。關于反向傳播算法的基本情況大致如此。
通常把第 1部分稱為正向傳播,把第2部分稱為反向傳播。反向傳播的名字由此而來。
最速下降法的基本思想是:要找到某函數的最小值,最好的辦法是沿函數的梯度方向探尋,如果梯度記為d,那么迭代公式可寫為w=w-alpha*d,其中alpha可理解為我們前面提到的學習速率。
最速下降法有著收斂速度慢(因為每次搜索與前一次均正交,收斂是鋸齒形的),容易陷入局部最小值等缺點,所以他的改進辦法也有不少,最常見的是增加動量項與學習率可變。
增加沖量項(Momentum)
右側第一項就是權值更新法則,第二項被稱為沖量項
梯度下降的搜索軌跡就像一個球沿誤差曲面滾下,沖量使球從一次迭代到下一次迭代時以同樣的方向滾動
沖量有時會使這個球滾過誤差曲面的局部極小值或平坦區域
沖量也具有在梯度不變的區域逐漸增大搜索步長的效果,從而加快收斂。
改變學習率
當誤差減小趨近目標時,說明修正方向是正確的,可以增加學習率;當誤差增加超過一個范圍時,說明修改不正確,需要降低學習率。
(1)數據讀入,這里我們還是使用R的內置數據——鳶尾花數據,由于神經網絡本質是2分類的,所以我們將鳶尾花數據也分為兩類(將前兩類均看做第2類),按照特征:花瓣長度與寬度做分類。
(2)劃分訓練數據與測試數據
(3)初始化BP網絡,采用包含一個隱含層的神經網絡,訓練方法使用包含動量的最速下降法,傳遞函數使用sigmoid函數。
(4)輸入樣本,對樣本進行歸一化,計算誤差,求解誤差平方和
(5)判斷是否收斂
(6)根據誤差調整權值。權值根據以下公式進行調整:
Delta(w)= alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)
其中,alpha為學習率,s'(a(p,n))*(t(p,n)- y(p,n))為局部梯度。此外,由于使用了有動量因子的最速下降法,除第一次外,后續改變量應為:
Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n) mc*Delta(w)(n-1)
(7)測試,輸出分類正確率。
完整的R代碼:
iris1<-as.matrix(iris[,3:4])
iris1<-cbind(iris1,c(rep(1,100),rep(0,50)))
set.seed(5)
n<-length(iris1[,1])
samp<-sample(1:n,n/5)
traind<-iris1[-samp,c(1,2)]
train1<-iris1[-samp,3]
testd<-iris1[samp,c(1,2)]
test1<-iris1[samp,3]
set.seed(1)
ntrainnum<-120
nsampdim<-2
net.nin<-2
net.nhidden<-3
net.nout<-1
w<-2*matrix(runif(net.nhidden*net.nin)-0.5,net.nhidden,net.nin)
b<-2*(runif(net.nhidden)-0.5)
net.w1<-cbind(w,b)
W<-2*matrix(runif(net.nhidden*net.nout)-0.5,net.nout,net.nhidden)
B<-2*(runif(net.nout)-0.5)
net.w2<-cbind(W,B)
traind_s<-traind
traind_s[,1]<-traind[,1]-mean(traind[,1])
traind_s[,2]<-traind[,2]-mean(traind[,2])
traind_s[,1]<-traind_s[,1]/sd(traind_s[,1])
traind_s[,2]<-traind_s[,2]/sd(traind_s[,2])
sampinex<-rbind(t(traind_s),rep(1,ntrainnum))
expectedout<-train1
eps<-0.01
a<-0.3
mc<-0.8
maxiter<-2000
iter<-0
errrec<-rep(0,maxiter)
outrec<-matrix(rep(0,ntrainnum*maxiter),ntrainnum,maxiter)
sigmoid<-function(x){
y<-1/(1 exp(-x))
return(y)
}
for(i in 1:maxiter){
hid_input<-net.w1%*%sampinex;
hid_out<-sigmoid(hid_input);
out_input1<-rbind(hid_out,rep(1,ntrainnum));
out_input2<-net.w2%*%out_input1;
out_out<-sigmoid(out_input2);
outrec[,i]<-t(out_out);
err<-expectedout-out_out;
sse<-sum(err^2);
errrec[i]<-sse;
iter<-iter 1;
if(sse<=eps)
break
Delta<-err*sigmoid(out_out)*(1-sigmoid(out_out))
delta<-(matrix(net.w2[,1:(length(net.w2[1,])-1)]))%*%Delta*sigmoid(hid_out)*(1-sigmoid(hid_out));
dWex<-Delta%*%t(out_input1)
dwex<-delta%*%t(sampinex)
if(i==1){
net.w2<-net.w2 a*dWex;
net.w1<-net.w1 a*dwex;
}
else{
net.w2<-net.w2 (1-mc)*a*dWex mc*dWexold;
net.w1<-net.w1 (1-mc)*a*dwex mc*dwexold;
}
dWexold<-dWex;
dwexold<-dwex;
}
testd_s<-testd
testd_s[,1]<-testd[,1]-mean(testd[,1])
testd_s[,2]<-testd[,2]-mean(testd[,2])
testd_s[,1]<-testd_s[,1]/sd(testd_s[,1])
testd_s[,2]<-testd_s[,2]/sd(testd_s[,2])
inex<-rbind(t(testd_s),rep(1,150-ntrainnum))
hid_input<-net.w1%*%inex
hid_out<-sigmoid(hid_input)
out_input1<-rbind(hid_out,rep(1,150-ntrainnum))
out_input2<-net.w2%*%out_input1
out_out<-sigmoid(out_input2)
out_out1<-out_out
out_out1[out_out<0.5]<-0
out_out1[out_out>=0.5]<-1
rate<-sum(out_out1==test1)/length(test1)
分類正確率為:0.9333333,是一個不錯的學習器。這里需要注意的是動量因子mc的選取,mc不能過小,否則容易陷入局部最小而出不去,在本例中,如果mc=0.5,分類正確率僅為:0.5333333,學習效果很不理想。
單層的前向神經網絡模型在包nnet中的nnet函數,其調用格式為:
nnet(formula,data, weights, size, Wts, linout = F, entropy = F,
softmax = F, skip = F, rang = 0.7,decay = 0, maxit = 100,
trace = T)
參數說明:
size, 隱層結點數;
decay, 表明權值是遞減的(可以防止過擬合);
linout, 線性輸出單元開關;
skip,是否允許跳過隱層;
maxit, 最大迭代次數;
Hess, 是否輸出Hessian值
適用于神經網絡的方法有predict,print和summary等,nnetHess函數用來計算在考慮了權重參數下的Hessian矩陣,并且檢驗是否是局部最小。
我們使用nnet函數分析Vehicle數據。隨機選擇半數觀測作為訓練集,剩下的作為測試集,構建只有包含3個節點的一個隱藏層的神經網絡。輸入如下程序:
library(nnet); #安裝nnet軟件包
library(mlbench); #安裝mlbench軟件包
data(Vehicle); #調入數據
n=length(Vehicle[,1]); #樣本量
set.seed(1); #設隨機數種子
samp=sample(1:n,n/2); #隨機選擇半數觀測作為訓練集
b=class.ind(Vehicle$Class); #生成類別的示性函數
test.cl=function(true,pred){true<-max.col(true);cres=max.col(pred);table(true,cres)};
a=nnet(Vehicle[samp,-19],b[samp,],size=3,rang=0.1,decay=5e-4,maxit=200); #利用訓練集中前18個變量作為輸入變量,隱藏層有3個節點,初始隨機權值在[-0.1,0.1],權值是逐漸衰減的。
test.cl(b[samp,],predict(a,Vehicle[samp,-19]))#給出訓練集分類結果
test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));#給出測試集分類結果
#構建隱藏層包含15個節點的網絡。接著上面的語句輸入如下程序:
a=nnet(Vehicle[samp,-19],b[samp,],size=15,rang=0.1,decay=5e-4,maxit=10000);
test.cl(b[samp,],predict(a,Vehicle[samp,-19]));
test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));
最后,我們回到最開始的那個手寫數字的案例,我們試著利用支持向量機重做這個案例。(這個案例的描述與數據參見《R語言與機器學習學習筆記(分類算法)(1)》)
由于nnet包對輸入的維數有一定限制(我也不知道為什么,可能在權值計算的時候出現了一些bug,反正將支持向量機那一節的代碼平行的移過來是會報錯的)。我們這里采用手寫數字識別技術中常用的辦法處理這個案例:計算數字的特征。選擇數字特征的辦法有許多種,你隨便百度一篇論文都有敘述。我們這里采用結構特征與統計特征結合的辦法計算圖像的特征。
我們這里采用的統計特征與上圖有一點的不同(結構特征一致),我們是將圖片分為16塊(4*4),統計每個小方塊中點的個數,這樣我們就有25維的特征向量了。為了保證結果的可比性,我們也報告支持向量機的分類結果。
運行下列代碼:
setwd("D:/R/data/digits/trainingDigits")
names<-list.files("D:/R/data/digits/trainingDigits")
data<-paste("train",1:1934,sep="")
for(i in 1:length(names))
assign(data[i],as.matrix(read.fwf(names[i],widths=rep(1,32))))
library(nnet)
label<-factor(rep(0:9,c(189,198,195,199,186,187,195,201,180,204)))
feature<-matrix(rep(0,length(names)*25),length(names),25)
for(i in 1:length(names)){
feature[i,1]<-sum(get(data[i])[,16])
feature[i,2]<-sum(get(data[i])[,8])
feature[i,3]<-sum(get(data[i])[,24])
feature[i,4]<-sum(get(data[i])[16,])
feature[i,5]<-sum(get(data[i])[11,])
feature[i,6]<-sum(get(data[i])[21,])
feature[i,7]<-sum(diag(get(data[i])))
feature[i,8]<-sum(diag(get(data[i])[,32:1]))
feature[i,9]<-sum((get(data[i])[17:32,17:32]))
feature[i,10]<-sum((get(data[i])[1:8,1:8]))
feature[i,11]<-sum((get(data[i])[9:16,1:8]))
feature[i,12]<-sum((get(data[i])[17:24,1:8]))
feature[i,13]<-sum((get(data[i])[25:32,1:8]))
feature[i,14]<-sum((get(data[i])[1:8,9:16]))
feature[i,15]<-sum((get(data[i])[9:16,9:16]))
feature[i,16]<-sum((get(data[i])[17:24,9:16]))
feature[i,17]<-sum((get(data[i])[25:32,9:16]))
feature[i,18]<-sum((get(data[i])[1:8,17:24]))
feature[i,19]<-sum((get(data[i])[9:16,17:24]))
feature[i,20]<-sum((get(data[i])[17:24,17:24]))
feature[i,21]<-sum((get(data[i])[25:32,17:24]))
feature[i,22]<-sum((get(data[i])[1:8,25:32]))
feature[i,23]<-sum((get(data[i])[9:16,25:32]))
feature[i,24]<-sum((get(data[i])[17:24,25:32]))
feature[i,25]<-sum((get(data[i])[25:32,25:32]))
}
data1 <- data.frame(feature,label)
m1<-nnet(label~.,data=data1,size=25,maxit = 2000,decay = 5e-6, rang = 0.1)
pred<-predict(m1,data1,type="class")
table(pred,label)
sum(diag(table(pred,label)))/length(names)
library("e1071")
m <- svm(feature,label,cross=10,type="C-classification")
m
summary(m)
pred<-fitted(m)
table(pred,label)
setwd("D:/R/data/digits/testDigits")
name<-list.files("D:/R/data/digits/testDigits")
data1<-paste("train",1:1934,sep="")
for(i in 1:length(name))
assign(data1[i],as.matrix(read.fwf(name[i],widths=rep(1,32))))
feature<-matrix(rep(0,length(name)*25),length(name),25)
for(i in 1:length(name)){
feature[i,1]<-sum(get(data1[i])[,16])
feature[i,2]<-sum(get(data1[i])[,8])
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24