
101002
電商行業——淘寶大規模網店綜合分析
劉莎莎
H633紡織、服裝及日用品
Sas EG Sas EM
CSV導入saseg 數據導入 表格合并 數據整理 數據篩選 變量`計算 頻數統計
RFM模型 聚類分析 sas編程 關聯規則
電子商務是指在各種形式的網絡上,包括企業內網、局域網和互聯網上以電子行式,進行交易活動和系列服務的行為,是依托于互聯網技術的新型電子化商業活動。電子商務內容分為兩部分,電子操作和商務貿易活動。利用電子技術,為買賣雙方提供無距離限制的便捷貿易服務。電子商務緊密聯系生產商和分銷商,為客戶提供更便捷的高性價比產品,推動了市場資源的全球合理化配置。
在大數據時代,電子商務得到了迅猛發展,電商企業如雨后春筍般出現。與傳統的線下銷售的企業相比較,電商企業具有的優勢和經濟價值的資源是爆炸性增長的數據。以天貓為例,根據互聯網研究中心的數據顯示,截至2014年第一季度,天貓的注冊用戶已經達到5 億人次,在線商品的銷售數量達到 9億,天貓的活躍買家已經超過了2.5億,平均每個購買活躍買家的購買數量達到了 50單以上,頁面的瀏覽量已超過京東的3倍,擁有 22億的超大規模,每天產品的訊息達到 5億條。
面對如此海量的信息,數據分析、數據挖掘技術可以幫助電商企業在海量的數據中提取有價值的數據,這些數據有些用來分析消費者購買商品的規律和趨勢,還可以幫助電商企業實現未來規劃提出可行性報告。
此案例所用數據集來自于一個淘寶網店,屬于電商行業,店主想通過數據分析提供一些管理或者銷售思路,提高銷售業績。
該數據集記錄的是該電商2013年一年的銷售記錄情況,共有四個csv文件,對應一年中的四個時間段。20130101-20130502.csv數據集中有26804條觀測值,20130502-20130730.csv數據集中有32676條觀測值,20130730-20131030.csv數據集中有30452條觀測值,20131030-20131230.csv數據集中有30828條觀測值。
第1個知識點將4個csv文件導入到sas軟件中,并且保存為4個sas數據文件。
第2個知識點是對數據進行初步加工處理。將4個sas數據文件合并為一個大的數據文件,并且將合并后的數據文件保存為originaldata.sas7bdat;
第3個知識點將originaldata.sas7bdat數據集分成兩部分,交易成功的數據和交易失敗的數據,分別保存為success.sas7bdat和closedata.sas7bdat。
第4個知識點在success.sas7bdat基礎上,刪掉補郵費或差價的訂單,將數據保存為shaixuan1.sas7bdat;
第5個知識點在shaixuan1.sas7bdat基礎上,篩選出實際支付金額大于5的訂單,將數據保存為shaixuan2.sas7bdat;
第6個知識點在shaixuan2.sas7bdat基礎上,刪掉退款類訂單,將數據保存為shaixuan3.sas7bdat;
第7個知識點在shaixuan3.sas7bdat基礎上,刪除購買頻率大于25的買家的訂單,將最終的數據保存為finaldata.sas7bdat;
第8個知識點是在finaldata.sas7bdat數據集的基礎之上進行的統計分析,各省交易的訂單分布情況。
第9個知識點是對交易失敗的訂單進行分析。先是在originaldata.sas7bdat, success.sas7bdat, closedata.sas7bdat基礎之上,分析了交易失敗訂單在總訂單中占得比例。然后在closedata.sas7bdat基礎之上,對交易失敗的訂單的失敗原因進行了頻數分析。
第10個知識點是在finaldata.sas7bdat數據集的基礎之上進行進一步的計算,然后用RFM模型對客戶進行畫像分析,從而找到最有價值的客戶。
第11個知識點在finaldata.sas7bdat數據集的基礎之上進行進一步的加工,然后用SASEM模塊對數據進行關聯規則分析,從而可以發現一些推薦規則。
單人上機
數據導入
先要將外部數據導入到統計軟件中才能進行后續的分析和建模。
將CSV數據導入到saseg中,并且將數據保存為sas格式。
CSV導入saseg 數據導入
Saseg
將CSV數據導入到saseg中。
20130101-20130502.csv數據集中有26804條觀測值,20130502-20130730.csv數據集中有32676條觀測值,20130730-20131030.csv數據集中有30452條觀測值,20131030-20131230.csv數據集中有30828條觀測值。
? 將本書所提供的淘寶數據文件夾中4個csv文件導入SAS。
? 操作步驟:
1) 新建邏輯庫
? 執行“工具”,“分配項目邏輯庫”輸入8個字符以內的英文名稱,如“MYLIB”,點擊“下一步”;在電腦中選擇一個文件夾,將其路徑作為邏輯庫的路徑,如“E:***”單擊“下一步”;
? 單擊“下一步”,點擊“完成”按鈕。
圖1分配項目邏輯庫
2) 在邏輯庫中依次導入四個csv文件
? 執行“文件”,“導入數據”,選擇數據所在文件夾,選中要打開的數據,打開。
![]() |
圖2導入數據
? 在導入數據向導第一步,將輸出SAS數據集的邏輯庫改為上一步建立的永久邏輯庫MYLIB,點擊“下一步”按鈕。
圖3導入數據指定數據
? 勾選“重命名列以遵守SAS命名規則”,其他選默認,勾選首行范圍包含字段名稱,點擊”下一步”按鈕;
圖4導入數據選擇數據源
? 查看字段屬性,若有不符合原數據特征的,進行修改,此處將訂單編號類型改為字符串,點擊“下一步”按鈕;
? 點擊“完成”按鈕。
? 其他三個文件的數據導入同上。
? 除了前面需要注意的情況外,在導入第三張表格的時候,需要將第12列的類型改為數字。否則無法進行后面的表格合并。
將上面生成的sas數據文件保存在文件夾中存為_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat,以備后續使用。
想把csv格式數據導入到saseg中,先要將csv數據格式整理成比較標準的格式才不容易出錯,如果csv文件是從數據庫中導出的通常格式比較正常。
數據整理
我們需要將多個表格進行縱向合并,因為這些表格結構一樣,只是時間不同,我們需要將其合并進行后續的分析和整理。
將多個sas數據文件合并為一個sas數據文件。
表格合并 數據整理
Saseg
將多個數據集合并為一個數據集。
_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat。
觀察數據我們發現,四個數據為這家網店在2013年不同月份的訂單情況,因此為方便以后分析,首先將四個表進行合并,此處進行追加表操作。
操作步驟:
? 查看四張表的列名是否一致。單擊菜單欄最右側的“屬性”選項,在彈出的“屬性”對話框中,點擊“列”選項,可以看到列名。
圖5查看數據屬性
經查看四張表列名一致。
? 在工作區雙擊打開第一張表,在表上方的選項卡中,單擊“數據”,選擇 “追加表”;
圖6追加表
? 在打開的“追加表”對話框中選擇“添加表”,將其他三個表添加進去,最后單擊“運行”按鈕。合并后的數據文件存為數據集 originaldata.sas7bdat。
? 訂單編號的表示方式為科學計數法,需要將其改為正常格式,只需右鍵單擊“訂單編號”變量,點擊“屬性”, 將“輸出格式”改為“NLBESTw.d”??倢挾仍O定為17,小數位數為0。
?
將上面生成的sas數據文件保存在文件夾中存為originaldata.sas7bdat,以備后續使用。
將多個數據集合進行縱向合并要保證,多個數據文件結構一致。
數據整理
在數據分析過程中有些數據不適合進行后續分析,須要先將其剔除,或者將滿足條件的數據篩選出來。
把交易成功的數據篩選出來。
數據篩選
SasEG
對數據進行篩選,將數據分為交易成功和交易失敗的兩部分。
originaldata.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫mylib下面的original數據集拖入右側的大窗口中。即可看到數據集作為一個對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中original數據集的圖標 ,即可查看里面的數據。
? 在original窗口,點擊查詢生成器。把t1整個拉入右側數據框,見下圖。
圖查詢生成器窗口
? 單擊“過濾數據“框,將“訂單狀態”拖至過濾原始數據框中,在彈出的“生成基本過濾器”窗口中運算符選擇“等于”,選擇“獲取值”,單擊“交易成功”,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 點擊“選項”
? 輸出名稱改為mylib.success,標簽改為success
? 點擊“運行”按鈕。
篩選后的數據量為95596,原數據量為120757,所以,交易成功的訂單量為95596,交易不成功訂單量為25161。交易失敗的查詢過程和成功的查詢過程相近,這里不再累述。
將去掉交易關閉數據之后的記錄存為數據集success.sas7bdat(95596條觀測)。將關閉交易的數據保存在closedata.sas7bdat(25161條觀測)中。
將該知識點中產生的數據集success.sas7bdat,closedata.sas7bdat保存起來,以為后續使用。
篩選后的數據量為95596,原數據量為120757,所以,交易成功的訂單量為95596,交易不成功訂單量為25161。
數據整理
在數據分析過程中有些數據不適合進行后續分析,須要先將其剔除,或者將滿足條件的數據篩選出來。
通過生成新變量的方式刪掉補郵費或差價的訂單。
數據篩選
SasEG
對數據進行篩選,刪掉補郵費或差價的訂單。
success.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫mylib下面的success數據集拖入右側的大窗口中。即可看到數據集作為一個對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中success數據集的圖標 ,即可查看里面的數據。
通過觀察我們發現寶貝標題里面沒有出現商品編碼(即沒有出現符號“-”)的單子都屬于純粹的郵費/運費/差價,需要刪掉。
? 在success數據集窗口中,點擊查詢生成器,將success數據集里面的變量全部拉入數據框。
? 點擊過濾數據選項卡,點擊新建過濾器,選擇高級過濾器,在輸入過濾器窗口中輸入表達式:(find(t1.'寶貝標題'n,“- "))<>0,點擊下一步,點擊完成。
? 點擊對數據排序選項卡,讓數據按照實際支付金額進行升序排序。
? 點擊運行。將輸出名稱改為mylib.shaixuan1,標簽改為shaixuan1
? 輸入結果見圖
圖9 查詢器結果
將篩選后的觀測值存為數據集shaixuan1.sas7bdat。篩選后的數據量為94665,原數據success量為95596,所以,郵費或者差價訂單大概931單。
將該知識點中產生的數據集shaixuan1.sas7bdat保存起來,以為后續使用。
將篩選后的觀測值存為數據集shaixuan1.sas7bdat。篩選后的數據量為94665,原數據success量為95596,所以,郵費或者差價訂單大概931單。
數據整理
在數據分析過程中有些數據不適合進行后續分析,須要先將其剔除,或者將滿足條件的數據篩選出來。
篩選出實際支付金額大于5的訂單。
數據篩選
SasEG
對數據進行篩選,篩選出實際支付金額大于5的訂單。
Shaixuan1.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫mylib下面的shaixuan1數據集拖入右側的大窗口中。即可看到數據集作為一個對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中shaixuan1數據集的圖標 ,即可查看里面的數據。
? 在shaixuan1數據集窗口中,點擊查詢生成器,將shaixuan1數據集里面的變量全部拉入數據框。
? 單擊“過濾數據框”,將“買家實際支付金額”拖至過濾原始數據框中,在彈出的“生成基本過濾器”窗口中運算符選擇“大于”,在“值:”選項框中填寫“5”,點擊“下一步”按鈕;點擊“完成”按鈕;
? 點擊“選項”按鈕。將輸出結果保存為mylib.shaixuan2,將標簽改為shaixuan2。點擊“確定”按鈕。
將篩選后的觀測值存為數據集shaixuan2.sas7bdat。篩選后的數據量為94590,原數據shaixuan1量為94665,所以,買家實際支付金額小于5的訂單量為75。
將該知識點中產生的數據集shaixuan2.sas7bdat保存起來,以為后續使用。
篩選后的數據量為94590,原數據shaixuan1量為94665,所以,買家實際支付金額小于5的訂單量為75。
數據整理
在數據分析過程中有些數據不適合進行后續分析,須要先將其剔除,或者將滿足條件的數據篩選出來。
篩選非退款類訂單。
數據篩選
SasEG
對數據進行篩選,篩選非退款類訂單。
Shaixuan2.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫mylib下面的shaixuan2數據集拖入右側的大窗口中。即可看到數據集作為一個對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中shaixuan2數據集的圖標 ,即可查看里面的數據。
? 在shaixuan2數據集窗口中,點擊查詢生成器,將shaixuan2數據集里面的變量全部拉入數據框。
? 單擊“過濾數據“框,將“買家實際支付金額”拖至過濾原始數據框中,在彈出的“生成基本過濾器”窗口中運算符選擇“不等于”,在“值:”下拉菜單中選擇“列”中的“買家應付郵費”,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 點擊“選項”按鈕。將輸出結果保存為mylib.shaixuan3,將標簽改為shaixuan3。點擊“確定”按鈕。
? 點擊“運行”按鈕。
將篩選后的觀測值存為數據集shaixuan3.sas7bdat,篩選后的數據量為92934,原數據shaixuan2量為94590,所以,退款類訂單量為1656。
將該知識點中產生的數據集shaixuan3.sas7bdat保存起來,以為后續使用。
將篩選后的觀測值存為數據集shaixuan3.sas7bdat,篩選后的數據量為92934,原數據shaixuan2量為94590,所以,退款類訂單量為1656。。
數據整理
在數據分析過程中有些數據不適合進行后續分析,須要先將其剔除,或者將滿足條件的數據篩選出來。
刪除購買頻率大于25的買家的訂單。
變量`計算 數據篩選
SasEG
對數據進行篩選,刪除購買頻率大于25的買家的訂單。
Shaixuan3.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫mylib下面的shaixuan3數據集拖入右側的大窗口中。即可看到數據集作為一個對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中shaixuan3數據集的圖標 ,即可查看里面的數據。
? 在shaixuan3數據集窗口中,點擊查詢生成器,將shaixuan3數據集里面的變量全部拉入數據框。
? 單擊“添加新的計算列”,在步驟一中選擇“匯總列”,點擊“下一步”按鈕;選擇“買家會員名”變量,點擊“下一步”按鈕; “匯總”選項選擇“COUNT”,將“標簽”設置為“購買頻率”,點擊“下一步”按鈕;
? 在“查詢生成器”頁面中不勾選“匯總組”中的“自動選擇組”,點擊“編輯組”,將“買家會員名”拉入“分組依據”中,點擊“確定”按鈕;
? 勾選復選框“僅選擇非重復行”。這是為了過濾掉重復記錄的單子
? 單擊“過濾數據”選項框,在“過濾匯總數據”那里,點擊“新建過濾器”,選擇“基本過濾器”,“過濾條件”的第一個選項框選擇“_Calculation”變量,第二個選項框選擇“小于”,第三個選項框中直接輸入“25”,取消“值的兩側應加引號”,點擊“完成”按鈕;
? 點擊“選項”按鈕。將輸出結果保存為mylib.finaldata,將標簽改為finaldata。點擊“確定”按鈕。
? 點擊“運行”按鈕。
將篩選后的觀測值存為數據集shaixuan4.sas7bdat,篩選后的數據量為89662,原數據shaixuan3量為92934,所以,些訂單中有3272條訂單被判定為刷銷量訂單。
將該知識點中產生的數據集shaixuan4.sas7bdat保存起來,以為后續使用。
將篩選后的觀測值存為數據集shaixuan4.sas7bdat,篩選后的數據量為89662,原數據shaixuan3量為92934,所以,些訂單中有3272條訂單被判定為刷銷量訂單。
數據分析
對數據進行建模之前通常對數據進行一個基本描述,比如分類變量看下頻數分布,我們這里對性別進行頻數分析。
對變量進行頻數分布分析。
頻數統計
SasEG
對分類變量進行頻數統計。
member.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫mylib下面的finaldata數據集拖入右側的大窗口中??梢钥吹綌祿鳛橐粋€對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中finaldata數據集的圖標 ,即可查看里面的數據。
? 在finaldata數據表下打開“查詢生成器”,把左邊的變量全部拖入右側,點擊“計算列”,在第一步選擇類型中點選“高級表達式”;
? 在第二步“生成高級表達式”中用“收貨地址”生成地區名,輸入“SUBSTR(t1.col13, 1, (FIND(t1.col13," ")-1))”,可點選公式和變量名進行選擇,點擊“下一步”;
? 在第三步“修改其他選項”中將“標識符和列名”全部設為“province”,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 點擊“查詢生成器”下,繼續點擊“計算列”,在第一步選擇類型中點選“高級表達式”;
? 在第二步“生成高級表達式”中用“收貨地址”生成城市名,輸入“SUBSTR(t1.col13,FIND(t1.col13," ")+1)”,可點選公式和變量名進行選擇,點擊“下一步”按鈕;
? 在第三步“修改其他選項”中將“標識符和列名”全部設為“city”,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 上述兩個變量計算好后,點擊“選項”,將輸出名稱改為mylib.address,把標簽改為address。點擊“運行”按鈕。結果見圖12。
圖12 查詢器生成結果
? 在address數據集窗口,執行“描述”“單因子頻數”。在“數據”選項下,把“province”拖入“分析變量”,在“統計量”選項下,缺失值的“顯示頻數”和“包含在計算中”前面打勾。點擊“運行”按鈕,輸出結果見圖12.7。
圖12.7單因子頻數結果
結果分析:可以看到北京的頻數是最高的。
將該知識點過程中產生的address數據集進行保存,以方便后續的使用。
對于分類變量,可以通過單因子頻數的方式對其進行描述,也可以通過餅形圖對其進行描述。
數據分析
去掉交易關閉訂單篩選后的數據量為95596,原數據量為120757,所以,交易成功的訂單量為95596,交易不成功訂單量為25161,交易不成功的訂單量占總訂單量的20.8%。
2013年這家店交易不成功的訂單比重在合理范圍之內,但在之后需要進一步分析交易關閉的原因,下一年的銷售中需注意減少交易關閉的情況。
分析交易關閉的情況,分析原因,以便客戶回訪
一般淘寶交易關閉有兩種情況:
1) 買家只是拍下商品,但是未付款,后續由賣家或者系統關閉了交易。
2) 買家申請退款成功,錢款已經退回買家支付寶賬戶,交易關閉。
可以做匯總表對這兩種情況分別占的比例進行分析,由于第一種情況,買家未付款,在表中體現為“訂單付款時間”為空;第二種情況,欠款已退回,在表中體現為“訂單付款時間”存在?;静襟E如下:
生成交易關閉原因變量。
變量計算
SasEG
對變量進行計算。
對交易失敗的訂單進行歸類,買家未付款定義為0類。欠款已退回定義為1類。計算新列col16_code,重新編碼訂單付款時間。編碼邏輯為:訂單付款時間等于.時,返回0,訂單付款時間不等于.時,返回1。
closedata.sas7dbat
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
把左側下方的邏輯庫mylib下面的closedata數據集拖入右側的大窗口中??梢钥吹綌祿鳛橐粋€對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中closedata數據集的圖標 ,即可查看里面的數據。
? 在數據表closedata下打開“查詢生成器”,“選擇數據”部分選擇全部數據。
? 點擊“選項”,將輸出名稱改為mylib.closedata1,把標簽改為closedata1。
? 點擊左上角的“計算列”,彈出“計算列”窗口,點擊“新建”:新建計算列。
? 在第一步“選擇類型”中點選“重新碼列”;
? 在第二步“選擇列”中選擇“訂單付款時間”,點擊“下一步”按鈕;
? 在第三步“指定替換”中“添加”替換,選擇 “替換條件”窗口,訂單付款時間等于.時,使用此值(W)輸入0,勾選“該值的兩側應加引號(Q)”,點擊“確定”按鈕。按照同樣的方法添加訂單付款時間不等于.時,使用值1的條件,點擊“確定”按鈕。
? 列類型設為“字符”,添加完成后點擊“下一步”;
? 在第四步“修改其他選項”中將“標識符和列名”全部設為“col16_code”,“輸出格式”設置為“無”,點擊“下一步”按鈕;
? 點擊“完成”按鈕,關閉計算列窗口,點擊“運行”按鈕。
圖15 創建輔助列col16_code
? 在closedata1數據集窗口,執行“描述”“單因子頻數”。在“數據”選項下,把“col16_code”拖入“分析變量”,在“統計量”選項下,缺失值的“顯示頻數”和“包含在計算中”前面打勾。點擊“運行”按鈕,輸出結果見圖12.7。
圖12.7單因子頻數結果
從表中可以看出,交易關閉的訂單中有85.76%的買家只是拍下商品,但是未付款,后續由賣家或者系統關閉了交易,而有14.24%的買家申請退款成功,錢款已經退回買家支付寶賬戶,交易關閉。
結合上一部分的描述分析,可以得出,交易關閉訂單占總訂單的20.8%,這其中有85.76%的買家只是拍下商品,但是未付款,14.24%的買家申請退款。也就是說,總訂單中有17.83%(20.8% * 85.76% = 17.83%)的客戶想要購買,卻最終沒有付錢;2.96%(20.8% * 14.24% = 17.83%)的客戶購買以后選擇退貨。參考同行業指標,退貨率比較正常,后續銷售過程中應重點關注有購買欲望卻最終沒有購買的訂單,采取相應的銷售策略。
把該知識點的操作產生新的數據集closedata1.sas7bdat保存到路徑下,以備后續使用。
有的時候我們先要計算出分類變量來然后再進行頻數分布分析。交易關閉的訂單中有85.76%的買家只是拍下商品,但是未付款,后續由賣家或者系統關閉了交易,而有14.24%的買家申請退款成功,錢款已經退回買家支付寶賬戶,交易關閉。
結合上一部分的描述分析,可以得出,交易關閉訂單占總訂單的20.8%,這其中有85.76%的買家只是拍下商品,但是未付款,14.24%的買家申請退款。也就是說,總訂單中有17.83%(20.8% * 85.76% = 17.83%)的客戶想要購買,卻最終沒有付錢;2.96%(20.8% * 14.24% = 17.83%)的客戶購買以后選擇退貨。參考同行業指標,退貨率比較正常,后續銷售過程中應重點關注有購買欲望卻最終沒有購買的訂單,采取相應的銷售策略。
數據分析
客戶畫像(UserProfile)即給用戶打上標簽,用一種樸素、簡潔的方法來描述用戶信息。客戶畫像可以完美地抽象出一個用戶的信息全貌,為進一步精準、快速地分析用戶行為習慣、消費習慣等重要商業信息,提供了足夠的數據基礎。
RFM模型是Bult and Wansbeek于1995年提出來的,認為客戶行為三要素 Recency (R)、Frequency (F) 與 Monetary (M)構成了客戶購買潛力價值的核心組成部分。該模型經常應用于 CRM 框架下的客戶行為分析。
用聚類分析對客戶進行畫像。
聚類分析 FRM sas編程
SasEG
對個案進行聚類分析。
finaldata.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
把左側下方的邏輯庫mylib下面的finaldata數據集拖入右側的大窗口中??梢钥吹綌祿鳛橐粋€對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中finaldata數據集的圖標 ,即可查看里面的數據。
? 在數據表finaldata下打開“查詢生成器”,“選擇數據”部分選擇全部數據。
? 點擊“選項”,將輸出名稱改為mylib.rfmp,把標簽改為rfmp。
在查詢生成器中計算所有訂單距離2013年最后一天的訂單付款天數
操作步驟:
? 在findaldata數據表下打開“查詢生成器”,點擊“計算列”,在第一步“選擇類型”中點選“高級表達式”;
? 在第二步“生成高級表達式”中用觀測窗口結束時間減去入會時間,輸入“max(DATEPART(t1.col16))-DATEPART(t1.col16)”,可點選公式和變量名進行選擇,點擊“下一步”按鈕;(計算下載數據的日期(可以用數據中的訂單最新日期,)和所有訂單時間間隔,設置為變量recently)
? 在第三步“修改其他選項”中將“標識符和列名”全部設為“Recently”, 修改格式數值為BESTX3.,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 匯總組部分取消“自動選擇組”的勾選。見圖18。
? 點擊“運行”按鈕。
圖18 查詢生成器設定窗口。
分別計算RFM
操作步驟:
? 在rfmp數據集窗口下,點擊查詢生成器,將該查詢輸出結果設定為mylib.rfm1。將clo3(買家支付寶賬號)、Recently、col9(買家實際支付金額)、col1拖至“選擇數據”中,在數據框第三列的匯總欄中,分別單擊Recently、col1、col9(買家實際支付金額)三個變量的下拉菜單,選擇“MIN”、 “COUNT”、“SUM”。取消“自動選擇組”的勾選,點擊“編輯組”,選擇t1.col3。勾選“僅選擇非重復行”如下圖所示,
? 單擊“運行”按鈕。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24