
你知道SAS也可以實現神經網絡嗎
神經網絡的理論太長了,我就不寫上來了,本次的代碼是根據這本書《數據挖掘與應用》--張俊妮中神經網絡這一章我做了思路的改動以及在原本代碼的基礎上,我把它封裝好變成一個完整的宏。如果后面你們需要去了解sas神經網絡這個proc neural過程也可以去購買這本來讀,這本書沒有配套的代碼,所以代碼也是我一個一個照著書敲來之后更改的。
說下這個代碼的思路。
1、宏的第一步是采用神經網絡建立廣義線性模型,沒有隱藏層,對數據做第一次的訓練。這里的數據宏里面已經自動拆分成測試和訓練了,你自己不用拆了。
2、算出神經網絡建立廣義線性模型的結果算出原始數據(訓練集以及測試集)中每一個,客戶的違約概率,之后算其ks值。
3、接下來就是循環隱藏層,從1循環到3,當然你要是覺得3層太少,你可以再設置,使用的是早停止(張俊妮的《數據挖掘與應用》的114頁種有詳細解釋這個算法)法建立多層感知模型,那么這里第一次當然循環就是1層啦,那就是1層感知模型。
4、在當隱藏層為一層的時候,我們會擬合兩次神經網絡,第一次不輸出結果,只是產出在隱藏層為一層的時候,挑選出最優的變量權重,擬合一個使用早停止法擬合出來的一個隱藏層為一層的神經網絡模型,利用出來的變量規則,算出客戶的概率之后算出模型的ks值。
5、到這里并不是要循環隱藏層為兩層,還有呢,別著急,這時候隱藏層為一層的前提下,再使用,規則化法建模一層感知器模型,剛才的一層隱藏層使用的早停止法,現在使用的是規則化法,這時候規則化法去的權衰減常數的四種取值(規則化法也可以在書里的115頁看到。)四種取值是:0.1 、0.01、0.001、0.0001然后循環之后算出,每個模型的ks記錄。
6、所以循環一次隱藏層的層數,是得到4個模型的,早停止法一個,規則化法四個。
7、再一次循環隱藏層的2、3層。最終你可以在ks的匯總跑那個表中,選出訓練數據以及測試數據ks都高的模型,作為你最終的模型。
%macromlps(dir,data,list_varname,y_var);
proc datasets lib=work;
delete alltrainfit allvalidfit vaild_ks_total train_ks_total;
run;
data M_CALL_DAY_TOTAL4_t;
set &data.;
indic=_n_;
run;
Proc sort data=M_CALL_DAY_TOTAL4_t; by &y_var.;run;
proc surveyselect data =M_CALL_DAY_TOTAL4_t method = srs rate=0.8
out = traindata;
strata &y_var.;
run;
proc sql;
create table validdata as
select * from
M_CALL_DAY_TOTAL4_t where indic not in (select indic from traindata);
quit;
data traindata;
set traindata;
drop SelectionProb SamplingWeight indic;
run;
data validdata;
set validdata;
drop indic;
run;
proc dmdb data=traindata dmdbcat=dmcdata;
class &y_var.;
var &list_varname.;
run;
proc dmdb data=validdata dmdbcat=dmcdata;
class &y_var.;
var &list_varname.;
run;
data decisionmatrix;
&y_var.=1;
to_1=0;
to_2=1;
output;
&y_var.=0;
to_1=1;
to_2=0;
output;
run;
proc neural data=traindata validdata=validdata dmdbcat=dmcdata ranscale=0.1random=0;
input &list_varname./level=int;
target &y_var./level=nom;
decision decdata=decisionmatrix(type=loss) decvars=TO_1 TO_2;
archi glim;
nloptions maxiter=300;
train ;
code file="&dir.nncode_germancredit_glim.sas";
score data=traindata nodmdb out=traindata_GLIM outfit=trainfit_GLIM role=TRAIN;
score data=validdata nodmdb out=validdata_GLIM outfit=validfit_GLIM role=valid;
run;
data test_train(keep=appl_id &y_var.point);
set traindata;
%include"&dir.nncode_germancredit_glim.sas";
rename P_&y_var.0=point;
run;
proc npar1way data=test_train noprint;
class &y_var.;
var point;
output out=ks_t(keep=_d_ p_ksa rename=(_d_=KS p_ksa=P_value));
run;
data test_train_ks;
set ks_t;
length model$50.;
model="glim";
run;
proc append base=train_ks_total data=test_train_ks force;
run;
data vaild_train(keep=appl_id &y_var.point);
set validdata;
%include"&dir.nncode_germancredit_glim.sas";
rename P_&y_var.0=point;
run;
proc npar1way data=vaild_train noprint;
class &y_var.;
var point;
output out=ks_v(keep=_d_ p_ksa rename=(_d_=KS p_ksa=P_value));
run;
data test_vaild_ks;
set ks_v;
length model$50.;
model="glim";
run;
proc append base=vaild_ks_total data=test_vaild_ks force;
run;
%letnhidden=1;
%do%until(&nhidden.>3);
proc neural data=traindata validdata=validdata dmdbcat=dmcdata graph;
input &list_varname./level=int;
target &y_var./level=nom;
decision decdata=decisionmatrix(type=loss) decvars=TO_1 TO_2;
archi MLP hidden=&nhidden.;
nloptions maxiter=300;
train estiter=1outest=weights_MLP&nhidden._ES outfit=assessment_MLP&&nhidden._ES;
/*code file="&dir.nncode_germancredit_glim.sas";*/
/*score data=traindata nodmdb out=traindata_GLIM outfit=trainfit_GLIM role=TRAIN;*/
/*score data=validdata nodmdb out=validdata_GLIM outfit=validfit_GLIM role=valid;*/
run;
proc sort data=assessment_MLP&&nhidden._ES;
by _VALOSS_;
RUN;
DATA BESTITER;
SET assessment_MLP&&nhidden._ES;
IF _N_=1;
RUN;
proc sql;
select _iter_ into:BESTITER from BESTITER;
quit;
data bestweights;
set weights_MLP&nhidden._ES;
if _type_="PARMS"AND _iter_=&bestiter.;
drop _tech_ _type_ _name_ _decay_ _seed_ _nobj_ _obj_ _objerr_
_averr_ _vnobj_ _vobj_ _vobjerr_ _vaverr_ _p_num_ _iter_;
run;
proc neural data=traindata validdata=validdata dmdbcat=dmcdata graph;
input &list_varname./level=int;
target &y_var./level=nom;
decision decdata=decisionmatrix(type=loss) decvars=TO_1 TO_2;
archi MLP hidden=&nhidden.;
initial inest=bestweights;
train tech=none;
code file="&dir.nncode_germancredit_MLP&nhidden._ES.sas";
score data=traindata nodmdb out=traindata_MLP&Nhidden._ES outfit=trainfit_MLP&Nhidden._ES role=TRAIN;
score data=validdata nodmdb out=validdata_MLP&Nhidden._ES outfit=validfit_MLP&Nhidden._ES role=valid;
run;
data test_train(keep=appl_id &y_var.point);
set traindata;
%include"&dir.nncode_germancredit_MLP&nhidden._ES.sas";
rename P_&y_var.0=point;
run;
proc npar1way data=test_train noprint;
class &y_var.;
var point;
output out=ks_t(keep=_d_ p_ksa rename=(_d_=KS p_ksa=P_value));
run;
data test_train_ks;
set ks_t;
length model$50.;
model="ES";
run;
proc append base=train_ks_total data=test_train_ks force;
run;
data vaild_train(keep=appl_id &y_var.point);
set validdata;
%include"&dir.nncode_germancredit_MLP&nhidden._ES.sas";
rename P_&y_var.0=point;
run;
proc npar1way data=vaild_train noprint;
class &y_var.;
var point;
output out=ks_v(keep=_d_ p_ksa rename=(_d_=KS
p_ksa=P_value));
run;
data test_vaild_ks;
set ks_v;
length model$50.;
model="ES";
run;
proc append base=vaild_ks_total data=test_vaild_ks force;
run;
%letidecay=1;
%do%until(&idecay.>4);
%if&idecay.=1%then%letcedcay=0.1;
%else%if&idecay.=2%then%letcedcay=0.01;
%else%if&idecay.=3%then%letcedcay=0.001;
%else%if&idecay.=4%then%letcedcay=0.0001;
%put&cedcay.;
proc neural data=traindata validdata=validdata dmdbcat=dmcdata graph;
input &list_varname./level=int;
target &y_var./level=nom;
decision decdata=decisionmatrix(type=loss) decvars=TO_1 TO_2;
archi MLP hidden=&nhidden.;
netoptions decay=&cedcay.;
nloptions maxiter=300;
prelim5maxiter=10;
train ;
code file="&dir.nncode_germancredit_MLP&nhidden._WD&idecay..sas";
score data=traindata nodmdb out=traindata_MLP&Nhidden._WD&idecay.outfit=trainfit_MLP&Nhidden._WD&idecay.role=TRAIN;
score data=validdata nodmdb out=validdata__MLP&Nhidden._WD&idecay.outfit=validfit_MLP&Nhidden._WD&idecay.role=valid;
run;
data test_train(keep=appl_id &y_var.point);
set traindata;
%include"&dir.nncode_germancredit_MLP&nhidden._WD&idecay..sas";
rename P_&y_var.0=point;
run;
proc npar1way data=test_train noprint;
class &y_var.;
var point;
output out=ks_t(keep=_d_ p_ksa rename=(_d_=KS p_ksa=P_value));
run;
data test_train_ks;
set ks_t;
length model$50.;
model="&nhidden._WD&idecay.";
run;
proc append base=train_ks_total data=test_train_ks force;
run;
data vaild_train(keep=appl_id &y_var.point);
set validdata;
%include"&dir.nncode_germancredit_MLP&nhidden._WD&idecay..sas";
rename P_&y_var.0=point;
run;
proc npar1way data=vaild_train noprint;
class &y_var.;
var point;
output out=ks_v(keep=_d_ p_ksa rename=(_d_=KS
p_ksa=P_value));
run;
data test_vaild_ks;
set ks_v;
length model$50.;
model="&nhidden._WD&idecay.";
run;
proc append base=vaild_ks_total data=test_vaild_ks force;
run;
%letidecay=%eval(&idecay.+1);
%end;
%letnhidden=%eval(&nhidden.+1);
%end;
%mend;
/*%mlps();*/
%letlist_varname=%str(N_M5_T09_CONRT N_M6_T09_CINRT N_N5_T82_COC_RC N_M5_T03_CONRT N_M3_T10_CONRC N_M3_T83_COC_RC
N_M3_T09_CINRTN_M6_T83_COT_RC N_M3_T83_CIT_RC N_M2_T10_CONRC N_M5_T03_CINRM N_M5_T10_CONRC N_M4_T02_CONRC N_M1_T08_CONRM
N_M3_T06_CINRM N_M2_T09_CONRT N_M6_T03_CONRT N_M5_T07_CINR );
%mlps(dir=F:data_1,data=raw.CALL_HOUR2_total7_woe,list_varname=&list_varname.,y_var=y);
最終的宏里面的list_vaname就不用填了,讓他引用上面的宏list_vaname就可以了,list_vaname填的是你要去建立神經網絡的變量,這里提醒一句哈,就是我嘗試了不分組,分20組,分10組,分5組的效果,我建議是將變量分組好之后再丟進去比較好,但是我說不準到底是幾組好,畢竟我和你的數據不一樣。
data填的原始數據集。dir,填一個路徑,這個路徑存放的是最終的模型輸出的規則,跟決策樹那個score一個道理的。y_var填的是你的因變量。
最后看下你們最終要看的結果圖長什么樣子:
主要是要看這兩個數據集的,這兩個數據集長這樣子:
ks值每個模型的ks值,p值是ks的p值,model對應的是哪個模型,GLIM是哪個廣義線性模型,1_WD1代表的是隱藏層為1,權衰減為0.1對應的模型,在1_WD1,代表的隱藏層為1的時候對應的早停止發的模型,在2_WD1,代表的隱藏層為2的時候對應的早停止發的模型,找出你喜歡模型之后,去路徑下面找規則代碼就可以了。如果實在是這個代碼格式跟你的sas不符的,可以在后臺跟我要下txt的格式的代碼。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25