圖書銷售綜合分析-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁案例分享圖書銷售綜合分析

圖書銷售綜合分析

2021-03-08

收藏

一、案例綜述

案例編號：

101004

案例名稱：

零售行業——圖書銷售綜合分析

作者姓名（或單位、或來源）：

劉莎莎

案例所屬行業：

h65 零售行業

案例所用軟件：

Sas EG

案例包含知識點：

因子分析度量尺度變量轉化為有序尺度變量、對應分析回歸分析 OLS VIF 方差膨脹因子多重共線性個案選擇 logistic回歸分析二元選擇模型離散因變量模型逐步回歸多重貢獻性樣本外預測樣本內預測模型預測隨機選擇樣本過濾變量的生成

案例描述：

零售行業銷售數據分析的行業背景。要想在如今的零售環境中獲得成功，零售商必須提供卓越的客戶體驗，出色地運營業務，并創建一個需求驅動的行銷和供應鏈。他們必須滿足越來越兩極化和專業化的客戶需求，這些客戶對于服務、選擇、質量和價格都抱有很高的期望。而且，他們必須對超出他們控制范圍的因素做出響應，這些因素包括競爭威脅、宏觀經濟趨勢和新興技術等。

建立在零售行業基礎的有效數據分析可以更透徹地了解客戶行為和購買模式，洞悉消費者的消費偏好，創造向上銷售和交叉銷售機遇；優化行銷水平，盡可能減少脫銷情況，并管理庫存成本；深入了解關鍵店鋪級指標，例如，銷售額、勞動力、庫存和客戶滿意度等；在關鍵收入和盈利能力目標方面協調公司和店鋪運營，當市場條件變化時，快速調整計劃和資源分配；通過比較和基準測試店鋪、渠道、地區和部門間的績效，提高成本節約；監控營業額和員工生產力。

本案例通過分析某書店圖書銷售情況，了解圖書銷售量的主要影響因素。

數據文件說明：數據文件名字為bookcustomer.xlsx。該數據集記錄的是一個圖書城的書籍購買記錄。每一個訂單的記錄記為一行，包括客戶編號、性別、郵編、距首次購買的月數、距最后一次購買的月數、在圖書上的總消費、非書籍產品總消費、總消費、總購買（書籍本書）、購買書籍的分類本數。該數據集共有50000條觀測值。

本案例共包含八個知識點。

第1個知識點是Saseg邏輯庫的建立和數據的導入，將數據導入saseg。

然后第2個知識點用函數生成新的變量（地區變量和城市變量），從而方便進行后續的計算和分析；

第3個知識點是地區變量的頻數統計和總消費量的分地區描述統計，從而對數據進行一個基本的描述統計分析；

第4個知識點是對消費者各類圖書購買數量進行相關性分析從而知道哪些書籍具有相關性；

第5個知識點是用RFM模型進行客戶畫像，從而起到對客戶進行分群的目的，以便采用不同的營銷策略；

第6個知識點是客戶總消費的影響因素分析，檢驗哪些變量對客戶總消費額的影響是顯著的。

第7個知識點是對書籍購買本數的分類求和，從而知道哪類書的銷售量最高，哪類書的銷售量最低，發現h類書籍的銷售量（本數）最低。

第8個知識點是關于是否購買h類書的Logistic回歸模型，從而知道哪些因素對購買h類書的決策產生影響，進而提高h類書的銷售量。

案例執行形式：

單人上機

二、案例知識點

知識點1：

知識點名稱：Saseg邏輯庫的建立和數據的導入

知識點所屬工作角色：

數據導入

知識點背景：

先要將外部數據導入到統計軟件中才能進行后續的分析和建模。

知識點描述

將excel數據導入到saseg中，并且將數據保存為sas格式。

知識點關鍵詞：

Excel導入saseg 數據導入

知識點所用軟件：

Saseg

操作目的：

將excel數據導入到saseg中。

知識點素材（包括數據）：

bookcustomer.xlsx

操作步驟:

? 打開excel文件，查看數據是否符合SAS要求的格式；

? 啟動sas eg

? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱，點擊“下一步”按鈕；

? 在電腦中選擇一個文件夾，將其路徑作為邏輯庫的路徑，單擊“下一步”按鈕；

? 點擊“下一步”按鈕，點擊“完成”按鈕，邏輯庫就建立成功了，接下來開始導入數據；

? 執行“文件”，“導入數據”，選擇數據所在文件夾，選中要打開的數據，點擊“打開”按鈕。在導入數據向導第一步，將輸出SAS數據集的邏輯庫改為上一步建立的永久邏輯庫，點擊“下一步”按鈕；勾選使用工作表中特定范圍內的單元格，選擇單元格范圍，左上方單元

填A2，右下方單元格選默認，勾選首行范圍包含字段名稱，點擊“下一步”按鈕；查看字段屬性，若有不符合原數據特征的，進行修改，并為數據加上漢語標簽，點擊“下一步”按鈕；點擊“完成”按鈕。

操作結果：

將上面生成的sas數據文件保存在文件夾中存為bookcustomer.sas7bdat，以備后續使用。

知識點小結：

想把excel格式數據導入到saseg中，先要將excel數據格式整理成比較標準的格式才不容易出錯。

知識點2：

知識點名稱：用函數生成新的變量（地區變量和城市變量）

知識點所屬工作角色：

變量計算

知識點背景：

有些指標不能直接參與數據分析過程需要對其進行計算整理生成新的變量。

知識點描述

采用函數對變量進行計算生成新的變量。

知識點關鍵詞：

變量計算函數變量名標簽

知識點所用軟件：

SasEG

操作目的：

對變量進行計算生成新的變量并且給變量添加中文標簽。

知識點素材（包括數據）：

bookcustomer.sas7bdat

操作步驟:

? 啟動sas eg

? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱（比如mylib），點擊“下一步”按鈕；

? 在電腦中選擇一個文件夾，將其路徑作為邏輯庫的路徑（保證該路徑下面有bookcustomer.sas7bdat這個文件），單擊“下一步”按鈕；

? 點擊“下一步”按鈕，點擊“完成”按鈕，邏輯庫就建立成功了。

? 在左側的邏輯庫里面中找到mylib,然后把該邏輯庫下面的bookcustomer.sas7bdat數據集拖入右側框里面。

? 切換到過程流窗口，可以看到數據已經導入進來了，雙擊數據圖標就可以查看數據具體內容。

? 右鍵點擊bookconsumer的圖標，選擇“查詢生成器”（在數據表下打開“查詢生成器”）。

? 將t1表中的數據全部拖入右側，選擇數據部分。

? 點擊“計算列”，點擊“新建”按鈕；

? 在“選擇類型”中點選“高級表達式”，點擊“下一步”按鈕；

? 在“生成高級表達式”中，“輸入表達式”部分用“郵編”生成地區名，輸入“ZIPNAMEL(t1.zip)”，也可以點選函數和變量名進行選擇，其中，ZIPNAMEL函數返回對應于其五位郵政編碼參數的州或美屬領地的名稱。這樣就把計算公式寫好了。然后點擊“下一步”按鈕；

? 在“修改其他選項”中將標識符和列名全部設為“state”，標簽設為“地區”，點擊“下一步”按鈕；

? 點擊“完成”按鈕；

? 在“計算列”對話框中，點擊“新建”按鈕；

? 在“選擇類型”中點選“高級表達式”，點擊“下一步”按鈕；

? 在“生成高級表達式”中用“郵編”生成城市名，輸入“ZIPCITY(t1.zip) ”，也可以點選函數和變量名進行選擇，其中，ZIPCITY函數返回城市名稱和對應于郵政編碼的雙字符州代碼。點擊“下一步”按鈕；

? 在“修改其他選項”中將標識符和列名全部設為“city”，標簽設為“城市”，點擊“下一步”按鈕；

? 點擊“完成”按鈕；

? 關閉“計算列”對話框；

? 將“查詢名稱”改為“計算地區和城市”，“輸出名稱改為mylib.bookconsumer1”。

? 點擊“選項”，將輸出數據的標簽改為bookconsumer1。

? 點擊“運行”按鈕。

? 回到過程流窗口

? 雙擊bookconsumer1的圖標，可以查看該數據集里面的數據。

? 可以看到state和city兩個變量已經生成。

? 將這個saseg文件保存為變量計算.egp

操作結果：

將上面整理的結果保存在文件夾中存為bookconsumer1.sas7dbat，以備后續使用。

知識點小結：

如果想生成新的變量需要通過查詢生成器的方式來生成?？梢詫Σ樵兘Y果數據集的名稱進行修改方便理解；在生成變量的過程中可以為新變量添加標簽。

知識點3：

知識點名稱：地區變量的頻數統計和總消費量的分地區描述統計

知識點所屬工作角色：

數據分析

知識點背景：

對數據進行建模之前通常對數據進行一個基本描述，比如分類變量看下頻數分布。數值變量計算均值，標準差等

知識點描述

對變量進行描述性分析。

知識點關鍵詞：

頻數統計描述統計均值標準差中位數最小值最大值分類匯總

知識點所用軟件：

SasEG

操作目的：

對分類變量進行頻數統計；對數值變量進行分類描述統計。

知識點素材（包括數據）：

Bookcustomer1.sas7bdat

操作步驟:

? 啟動sas eg

? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱（比如mylib），點擊“下一步”按鈕；

? 在電腦中選擇一個文件夾，將其路徑作為邏輯庫的路徑（保證該路徑下面有bookcustomer1.sas7bdat這個文件），單擊“下一步”按鈕；

? 點擊“下一步”按鈕，點擊“完成”按鈕，邏輯庫就建立成功了。

? 在左側的邏輯庫里面中找到mylib,然后把該邏輯庫下面的bookcustomer1.sas7bdat數據集拖入右側框里面。

? 切換到過程流窗口，可以看到數據已經導入進來了，雙擊數據圖標就可以查看數據具體內容。

對一個分類變量進行單因子頻數統計

? 在數據窗口下，執行“描述”，“單因子頻數”命令。在“數據”項下，將“state”拖至“任務角色”框中的“分析變量”下；

? 在“統計量”選項下，選擇“頻數和百分比”，勾選“缺失值”選項框下的“顯示頻數”和“包含在計算中”兩個選項；

? 在“結果”選項下，將“輸出數據的排序依據”選為“降序頻數”；

? 在“結果”選項下，勾選“創建帶頻數和百分比的數據集”。將輸出的數據文件的名字存為MYLIB.ONEWAYFREQUENCYOFCITY。

? 點擊“運行”按鈕。

? 回到過程流窗口，可以看到數據集和報表都生成了。

? 雙擊“sas報表單因子頻數”，可以看到紐約的頻數是最多的。

一個數值變量total的分地區描述統計

? 回到過程流窗口，打開bookconsumer1數據集。

? 執行“描述”，“匯總統計量”命令。

? 在“數據”選項卡中，將total拉入分析變量，state拉入分類變量。

? 在“統計量”-“基本”選項卡中，保持默認勾選的基礎上，勾選“總和”。

? 在“統計量”-“百分位數”選項卡中，勾選中位數。

? 點擊“運行”

可以看到紐約的總消費金額最大，同時紐約的單數也是最多的。從最小值最大值看的話也沒有明顯的異常值問題。

操作結果：

通過前面的操作我們獲得了數據集ONEWAYFREQUENCYOFCITY.sas7dbat，以備后續使用。

知識點小結：

如果想生成新的變量需要通過查詢生成器的方式來生成；可以對查詢結果數據集的名稱進行修改方便理解；在生成變量的過程中可以為新變量添加標簽；一般如果變量存在明顯異常值得話通過描述統計就可以看出。

知識點4：

知識點名稱：消費者各類圖書購買數量的相關性分析

知識點所屬工作角色：

數據分析

知識點背景：

對于可能存在關系的一些數值變量，通常需要查看其相關系數矩陣。

知識點描述

相關系數矩陣。

知識點關鍵詞：

相關系數

知識點所用軟件：

SasEG

操作目的：

對變量進行相關系數分析。

知識點素材（包括數據）：

Bookcustomer1.sas7bdat

操作步驟:

? 啟動sas eg

? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱（比如mylib），點擊“下一步”按鈕；

? 在電腦中選擇一個文件夾，將其路徑作為邏輯庫的路徑（保證該路徑下面有bookcustomer1.sas7bdat這個文件），單擊“下一步”按鈕；

? 點擊“下一步”按鈕，點擊“完成”按鈕，邏輯庫就建立成功了。

? 在左側的邏輯庫里面中找到mylib,然后把該邏輯庫下面的bookcustomer1.sas7bdat數據集拖入右側框里面。

? 切換到過程流窗口，可以看到數據已經導入進來了，雙擊數據圖標就可以查看數據具體內容。

對一個分類變量進行單因子頻數統計

? 在數據窗口下，執行“分析”，“多元“，“相關分析”命令。在打開的“相關分析”窗口中，“數據”項下，將“A類”、“B類”、“C類”、“D類”、“E類”、“F類”、“G類”、“H類”拖至“分析變量”；

? 在“選項”下，勾選“Pearson”相關系數；

? 在結果項下，選擇默認設置；

? 點擊“運行”按鈕。

圖9.8 Pearson相關系數

根據統計學理論，相關系數絕對值，則認為兩個變量顯著相關；，則認為兩個變量高度相關；，對應的兩變量中度相關；，對應的兩個變量低度相關；，兩個變量關系極弱，不相關。

由相關分析結果可以看出，消費者購買A類圖書和購買C類圖書低度相關，其他任何兩類圖書的購買幾乎不存在相關關系。因此在圖書銷售時，可以把A類和C類一起銷售，或者推出A類圖書和C類圖書一起購買的優惠活動。

操作結果：

該知識點的操作沒有產生新的數據集，只有報表輸出。

知識點小結：

相關系數大小的判別標準在不同行業中是不同的，這里計算的相關系數僅僅是兩兩相關系數，不考慮其他變量。

知識點5：

知識點名稱：用RFM模型進行客戶畫像

知識點所屬工作角色：

數據分析

知識點背景：

客戶畫像(UserProfile)即給用戶打上標簽，用一種樸素、簡潔的方法來描述用戶信息。客戶畫像可以完美地抽象出一個用戶的信息全貌，為進一步精準、快速地分析用戶行為習慣、消費習慣等重要商業信息，提供了足夠的數據基礎。

RFM模型是Bult and Wansbeek于1995年提出來的，認為客戶行為三要素 Recency (R)、Frequency (F) 與 Monetary (M)構成了客戶購買潛力價值的核心組成部分。該模型經常應用于 CRM 框架下的客戶行為分析。

知識點描述

用聚類分析對客戶進行畫像。

知識點關鍵詞：

聚類分析 FRM

知識點所用軟件：

SasEG

操作目的：

對個案進行聚類分析。

知識點素材（包括數據）：

Bookcustomer1.sas7bdat

操作步驟:

? 啟動sas eg

? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱（比如mylib），點擊“下一步”按鈕；

? 在電腦中選擇一個文件夾，將其路徑作為邏輯庫的路徑（保證該路徑下面有bookcustomer1.sas7bdat這個文件），單擊“下一步”按鈕；

? 點擊“下一步”按鈕，點擊“完成”按鈕，邏輯庫就建立成功了。

? 在左側的邏輯庫里面中找到mylib,然后把該邏輯庫下面的bookcustomer1.sas7bdat數據集拖入右側框里面。

? 切換到過程流窗口，可以看到數據已經導入進來了，雙擊數據圖標就可以查看數據具體內容。

? 在要分析的數據表下執行“分析”，“多元”，“聚類分析”命令。在“數據”項下，將“距最后一次購買的月數”、“總夠買”、“總消費”、“距首次購買的次數”拖至“任務角色”框中的“分析變量”下；

? 在“聚類”項下，選擇“K均值算法”，最大聚類數填8；

? 在“結果”項下，勾選“顯示輸出”和“K均值聚類”；將k均值聚類的結果數據集存為Local:mylib.CLKMKMeansDataBOOKCONSUMER1。

? 點擊“運行”按鈕。

可以根據上述的 “聚類均值”輸出結果表，參照RFM理論和實際業務情況進行分類，找出具有分析價值的一類或某幾類進行更進一步的分析。

操作結果：

將聚類結果保存為數據集CLKMKMeansDataBOOKCONSUMER1.sas7dbat,以備后續使用。

知識點小結：

關于聚類過程中所設定的聚成幾類，一般需要根據業務經驗而定，不能聚類過多。

知識點6：

知識點名稱：客戶總消費的影響因素分析

知識點所屬工作角色：

數據分析

知識點背景：

我們希望了解影響總消費的因素有哪些，哪些因素是顯著的，以便能夠提出相應的對策提高消費。

知識點描述

用回歸分析研究其他變量對總消費金額的影響是否顯著。

知識點關鍵詞：

回歸分析

知識點所用軟件：

SasEG

操作目的：

估計回歸模型。

知識點素材（包括數據）：

Bookcustomer1.sas7bdat

操作步驟:

? 啟動sas eg

? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱（比如mylib），點擊“下一步”按鈕；

? 在電腦中選擇一個文件夾，將其路徑作為邏輯庫的路徑（保證該路徑下面有bookcustomer1.sas7bdat這個文件），單擊“下一步”按鈕；

? 點擊“下一步”按鈕，點擊“完成”按鈕，邏輯庫就建立成功了。

? 在左側的邏輯庫里面中找到mylib,然后把該邏輯庫下面的bookcustomer1.sas7bdat數據集拖入右側框里面。

? 切換到過程流窗口，可以看到數據已經導入進來了，雙擊數據圖標就可以查看數據具體內容。

? 打開數據集，執行“分析”，“回歸”，“線性回歸”，彈出“線性回歸”窗口。在“數據”項下，將“總消費”拖至“因變量”，將“距首次購買的月數”、“距最后一次購買的月數”、“A類”、“B類”、“C類”、“D類”、“E類”、“F類”、“G類”、“H類”拖至“說明變量”；

? 在“模型”項下，“模型選擇方法”選擇默認的“全模型擬合”，其他項均選擇默認設置；

? 點擊“運行”按鈕。

由圖9.12可知，距首次購買的月數和距最后一次購買的月數這兩個變量在0.05的顯著水平下是不顯著的，因為其P值大于0.05，拒絕原假設，認為對因變量總消費的影響是不顯著的。

操作結果：

該知識點的操作沒有產生新的數據集。

知識點小結：

回歸分析中，解釋變量是否顯著，需要在給定顯著性水平的情況下才能確定。

知識點7：

知識點名稱：書籍購買本數的分類求和

知識點所屬工作角色：

數據分析

知識點背景：

我們想看各類書籍分別被賣了多少本，從而可以知道哪類書籍比較暢銷。

知識點描述

多變量求和。

知識點關鍵詞：

求和

知識點所用軟件：

SasEG

操作目的：

多變量求和并畫圖。

知識點素材（包括數據）：

Bookcustomer1.sas7bdat

操作步驟:

? 啟動sas eg

? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱（比如mylib），點擊“下一步”按鈕；

? 在電腦中選擇一個文件夾，將其路徑作為邏輯庫的路徑（保證該路徑下面有bookcustomer1.sas7bdat這個文件），單擊“下一步”按鈕；

? 點擊“下一步”按鈕，點擊“完成”按鈕，邏輯庫就建立成功了。

? 在左側的邏輯庫里面中找到mylib,然后把該邏輯庫下面的bookcustomer1.sas7bdat數據集拖入右側框里面。

? 切換到過程流窗口，可以看到數據已經導入進來了，雙擊數據圖標就可以查看數據具體內容。

? 打開數據表，點擊“查詢生成器”，將“A類”、“B類”、“C類”、“D類”、“E類”、“F類”、“G類”、“H類”拖至“選擇數據”框中，將“A類”、“B類”、“C類”、“D類”、“E類”、“F類”、“G類”、“H類”其后的匯總統計量選為SUM，匯總組為空，輸出名稱改為“mylib.sumofclass”。

? 點開選項。把標簽改為“各類書銷售本數”,點擊確定。

? 點擊“運行”按鈕。

? 雙擊“各類書銷售本數”圖表。

? 在數據表中，執行“數據”，”轉置”。彈出“轉置”窗口后，將“A類”、“B類”、“C類”、“D類”、“E類”、“F類”、“G類”、“H類”拖至“轉置變量”下，點擊“運行”按鈕。

? 點開“結果”選項卡。把輸出數據集的名稱改為MYLIB.sumofclass_1。

? 點擊運行按鈕

? 在轉置所得的數據表中，雙擊數據單元格，將數據切換至更新模式，選中“列1”右鍵單擊“屬性”，將名稱和標簽改為“購買本數”；選中“源”，右鍵單擊“屬性”，將名稱和標簽改為“書目大類”。

可以看到c類書目銷售最多，h類銷售最少。

? 在上面的數據窗口點擊“圖形”，“條形圖”。在“條形圖”選項卡頁面，選擇“簡單垂直條形圖”；在“數據”選項卡頁面，將“書目大類”拉入要繪圖的列，把“購買本數”拉入“總和”，如下圖所示。

? 點擊“運行”

操作結果：

將過程中生成的數據集sumofclass.sas7dbat和sumofclass.sas7dbat_1進行保存,以備后續使用。

知識點小結：

在數據窗口可以對變量名字和標簽進行修改，也可以對數據進行轉置操作從而形成新的數據集。

知識點8：

知識點名稱：是否購買h類書的Logistic回歸模型

知識點所屬工作角色：

數據分析

知識點背景：

我們想研究哪些變量對是否購買h類書的決策產生影響。

知識點描述

如果被解釋變量只有0，1兩個取值，這樣的離散被解釋變量不再適合普通的回歸，需要采用logistic回歸進行分析。

知識點關鍵詞：

logistic回歸分析二元選擇模型離散因變量模型變量計算啞變量生成

知識點所用軟件：

SasEG

操作目的：

構建logistic回歸模型。

知識點素材（包括數據）：

Bookcustomer1.sas7bdat

操作步驟:

? 啟動sas eg

? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱（比如mylib），點擊“下一步”按鈕；

? 在電腦中選擇一個文件夾，將其路徑作為邏輯庫的路徑（保證該路徑下面有bookcustomer1.sas7bdat這個文件），單擊“下一步”按鈕；

? 點擊“下一步”按鈕，點擊“完成”按鈕，邏輯庫就建立成功了。

? 在左側的邏輯庫里面中找到mylib,然后把該邏輯庫下面的bookcustomer1.sas7bdat數據集拖入右側框里面。

? 切換到過程流窗口，可以看到數據已經導入進來了，雙擊數據圖標就可以查看數據具體內容。

? 在數據表bookconusmer1下打開“查詢生成器”，將輸出名稱改為MYLIB.BOOKCONSUMER2。

? 點開“選項”，在“結果”選項卡中將“標簽”改為“BOOKCONSUMER2”。

? “選擇數據”部分選擇全部數據，點擊左上角的“計算列”，打開計算列窗口，點擊“新建”新建“計算列”。在第一步選擇類型中點選“重新碼列”；

? 在“選擇列”中選擇H類（classH），點擊“下一步”按鈕；

? 在“指定替換”中“添加”替換。

? 選擇“替換條件”選項卡中，classH大于0使用值1，勾選“該值的兩側應加等號”，點擊“確定”按鈕；

? 按照同樣的方法添加classH等于0使用值0的條件。

? “列類型”設為“字符”，添加完成后，點擊“下一步”按鈕；

? 在“修改其他選項”中將“標識符和列名”全部設為H_as_Y，“標簽”設置為“是否購買H類書籍”，格式設置為$CHAR12，點擊“下一步”按鈕；

? 點擊“完成”按鈕；

? 關閉計算列窗口，點擊“運行”按鈕。

? 在上步生成的數據中，執行“分析”，“回歸”，“Logistic回歸”。

? 在“Logistic回歸”窗口中，“數據”選項卡下，將“是否購買H類書籍”拖至因變量，將“距首次購買的月數”、“距最后一次購買的月數”、“總購買”、“在圖書上的總消費”、“在非書籍產品總消費”拖至“數量變量”，將“性別”和“地區”拖至“分類變量”，“性別”和“地區”的“編碼樣式”選擇“引用”；

? 在“模型”—“響應”項下，“針對該水平擬合模型”選“1”，其他選默認；

? 在“模型”—“效應”項下，將全部變量設置為“主效應”，勾選“包含截距”；其他項選擇默認。

? 在“圖形”選項卡下，取消“為回歸分析顯示圖形”的勾選。

? 點擊“運行”按鈕。

?

這部分給出的是虛擬變量定義方式。

這部分給出的是H類Logistic回歸最大似然估計值結果。結合上面兩個表格我們可以得出一些結論。在5%顯著性水平下，first變量對是否購買h類書籍無顯著影響。last和purch變量對是否購買h類書籍有顯著正影響,即這兩個變量越大，購買h類書的可能性越大。book和nonbook變量對是否購買h類書籍有顯著負影響,即這兩個變量越大，購買h類書的可能性越小。Gender中F變量前面的系數顯著為正，說明男生和女生相比購買h類書的可能性要大。State中Connecticut、 Delaware、 District of Columbia、 Maine、 Maryland、 Massachusetts、 New Hampshire、 New Jersey、 New York、 Pennsylvania、 Rhode Island、 Vermont這幾個區或者州系數顯著為正，說明這幾個州和virginia州相比，要比virginia州的人購買h類書籍的可能性要大。

Virgin islands州前面的系數不顯著，說明這個州和virginia州相比對h類書籍購買的可能性沒有顯著區別。

操作結果：

將過程中生成的數據集bookconsumer2.sas7dbat進行保存,以備后續使用。

知識點小結：

無論是logistic回歸還是普通回歸，如果解釋變量中包含分類變量的話，需要先將其變為虛擬變量再參與參數計算，注意虛擬變量前面系數的解釋。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數據分析條形圖字段線性回歸特征統計分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇上市公司財務指標綜合分析

下一篇銀行數據寬表構建和描述分析

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊