熱線電話:13121318867

登錄
首頁精彩閱讀如何利用sas抓取網店的評價數據?_數據分析師
如何利用sas抓取網店的評價數據?_數據分析師
2014-11-15
收藏


如何利用sas抓取網店的評價數據_數據分析師



sas9.2抓取網頁數據時,提示連接不到主機名。但是較低版本sas 9.1確可以,所以本文中的代碼均在sas 9.1中測試過:
filename liu url %nrquote('http://item.taobao.com/item.htm?id=16212898717&ali_refid=a3_420432_1006:1102865101:6:%B3%A4%D0%E4%C5%AEt%D0%F4:2ae68475680ece3b1c5018226096ff38&ali_trackid=1_2ae68475680ece3b1c5018226096ff38&spm=a230r.1.14.1.uQXfpl');

此處利用filename抓取網頁html代碼,但是網頁連接中含有%、&這樣的宏觸發器,所以利用
%nrquote將其隱藏。當然也可以利用%nrstr。注意此處是單引號,不能是雙引號。若利用雙引號的話,必須是%nrstr。

data aa;

infile liu length=len lrecl=4000 DELIMITER=">";

http://www.ruiqisteel.com/

input record $varying4000.len ;

run;
因為html文件均是以’>‘結尾,所以利用’>‘作為分隔符。

data cc;

set aa;

if _n_=1 then pattern=prxparse("/\d{1,2}\.(\d{2})%/");

retain pattern;

call prxsubstr(pattern,record,start,length);

if start gt 0 then do;

record=substr(record,start,length);

record=compress(record," ");

output;

end;

keep record;

run;

由于淘寶網店中的評價數據均是一個百分數,所以定義整數部分為一位或者兩位,小數部分為兩位的正則表達式。
從而抓取了網店中的與同行相比的三個指標數據------描述相符、服務態度、發貨速度以及好評率指標數


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢