SPSS大戰多元回歸分析-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀SPSS大戰多元回歸分析

SPSS大戰多元回歸分析

2017-07-12

收藏

SPSS大戰多元回歸分析

使用多元回歸進行數據分析，分析軟件供選擇的比較多，主要有Eviews、Spss、Stata、Sas、Gretel等。多元回歸分析應用于各個領域，主要有經濟、醫學、農學等。今天小編為大家分享一篇SPSS大戰多元回歸的數據分析實例。線性回歸數據來自于國泰安數據服務中心的經濟研究數據庫。數據名稱為：全國各地區能源消耗量與產量，該數據的年度標識為2006年，地區包括我國30個省，直轄市，自治區（西藏地區無數據）。

1.1數據預處理

數據預處理包括的內容非常廣泛，包括數據清理和描述性數據匯總，數據集成和變換，數據歸約，數據離散化等。本文主要涉及的數據預處理只包括數據清理和描述性數據匯總。一般意義的數據預處理包括缺失值填寫和噪聲數據的處理。于此我們只對數據做缺失值填充，但是依然將其統稱數據清理。

1.1.1 數據導入與定義

單擊“打開數據文檔”，將xls格式的全國各地區能源消耗量與產量的數據導入SPSS中，如圖1-1所示。

（圖1-1 導入數據）

導入過程中，各個字段的值都被轉化為字符串型（String），我們需要手動將相應的字段轉回數值型。單擊菜單欄的“”-->“”將所選的變量改為數值型。如圖1-2所示：

（圖1-2 定義變量數據類型）

1.1.2 數據清理

數據清理包括缺失值的填寫和還需要使用SPSS分析工具來檢查各個變量的數據完整性。單擊“”-->“”，將檢查所輸入的數據的缺失值個數以及百分比等。如圖1-3所示：

（圖1-3缺失值分析）

能源數據缺失值分析結果如表1-1所示：

SPSS提供了填充缺失值的工具，點擊菜單欄“”-->“”，即可以使用軟件提供的幾種填充缺失值工具，包括序列均值，臨近點中值，臨近點中位數等。結合本次實習數據的具體情況，我們不使用SPSS軟件提供的替換缺失值工具，主要是手動將缺失值用零值來代替。

1.1.3 描述性數據匯總

描述性數據匯總技術用來獲得數據的典型性質，我們關心數據的中心趨勢和離中趨勢，根據這些統計值，可以初步得到數據的噪聲和離群點。中心趨勢的量度值包括：均值（mean），中位數（median），眾數（mode）等。離中趨勢量度包括四分位數（quartiles），方差（variance）等。

SPSS提供了詳盡的數據描述工具，單擊菜單欄的“”-->“”-->“”，將彈出如圖2-4所示的對話框，我們將所有變量都選取到，然后在選項中勾選上所希望描述的數據特征，包括均值，標準差，方差，最大最小值等。由于本次數據的單位不盡相同，我們需要將數據標準化，同時勾選上“將標準化得分另存為變量”。

（圖1-4 描述性數據匯總）

得到如表1-2所示的描述性數據匯總。

（表1-2 描述性數據匯總）

標準化后得到的數據值，以下的回歸分析將使用標準化數據。如圖1-5所示：

（圖1-5 數據標準化）

我們還可以通過描述性分析中的“”來得到各個變量的眾數，均值等，還可以根據這些量繪制直方圖。我們選取個別變量（能源消費總量）的直方圖，可以看到我們因變量基本符合正態分布。如圖1-6所示：

（圖1-6能源消費總量）

1.2 回歸分析

我們本次實驗主要考察地區能源消費總額（因變量）與煤炭消費量、焦炭消費量、原油消費量、原煤產量、焦炭產量、原油產量之間的關系。以下的回歸分析所涉及只包括以上幾個變量，并使用標準化之后的數據。

1.2.1 參數設置

單擊菜單欄“”-->“”-->“”，將彈出如圖1-7所示的對話框，將通過選擇因變量和自變量來構建線性回歸模型。因變量：標準化能源消費總額；自變量：標準化煤炭消費量、標準化焦炭消費量、標準化原油消費量、標準化原煤產量、標準化焦炭產量、標準化原油產量。自變量方法選擇：進入，個案標簽使用地名，不使用權重最小二乘法回歸分析—即WLS權重為空。

（圖1-7選擇線性回歸變量還需要設置統計量的參數）

我們選擇回歸系數中的“”和其他項中的“”。選中估計可輸出回歸系數B及其標準誤，t值和p值，還有標準化的回歸系數beta。選中模型擬合度復選框：模型擬合過程中進入、退出的變量的列表，以及一些有關擬合優度的檢驗：R，R2和調整的R2, 標準誤及方差分析表。如圖1-8所示：

（圖1-8 設置回歸分析統計量）

在設置繪制選項的時候，我們選擇繪制標準化殘差圖，其中的正態概率圖是rankit圖。同時還需要畫出殘差圖，Y軸選擇：ZRESID，X軸選擇: ZPRED。如圖1-9所示：

（圖1-9 設置繪制）

左上框中各項的意義分別為:

“DEPENDNT”因變量

“ZPRED”標準化預測值

“ZRESID”標準化殘差

“DRESID”刪除殘差

“ADJPRED”調節預測值

“SRESID”學生化殘差

“SDRESID”學生化刪除殘差

許多時候我們需要將回歸分析的結果存儲起來，然后用得到的殘差、預測值等做進一步的分析，“保存”按鈕就是用來存儲中間結果的?？梢源鎯Φ挠校侯A測值系列、殘差系列、距離（Distances）系列、預測值可信區間系列、波動統計量系列。本次實驗暫時不保存任何項。

設置回歸分析的一些選項，有：步進方法標準單選鈕組：設置納入和排除標準，可按P值或F值來設置。在等式中包含常量復選框：用于決定是否在模型中包括常數項，默認選中。如圖1-10所示：

（圖1-10 設置選項）

1.2.2 結果輸出與分析

在以上選項設置完畢之后點擊確定，SPSS將輸出一系列的回歸分析結果。我們來逐一貼出和分析，并根據它得到最后的回歸方程以及驗證回歸模型。

表1-3所示，是回歸分析過程中輸入、移去模型記錄。具體方法為：enter（進入）

輸入／移去的變量

（表1-3 輸入的變量）

表1-4所示是模型匯總，R稱為多元相關系數，R方（R2）代表著模型的擬合優度。我們可以看到該模型是擬合優度良好。

模型匯總

（表1-4 模型匯總）

表1-5所示是離散分析。，F的值較大,代表著該回歸模型是顯著。也稱為失擬性檢驗。

（表1-5 離散分析）

表1-6所示的是回歸方程的系數，根據這些系數我們能夠得到完整的多元回歸方程。觀測以下的回歸值，都是具有統計學意義的。因而，得到的多元線性回歸方程：Y=0.008+1.061x1+0.087 x2+0.157 x3-0.365 x4-0.105 x5-0.017x6

（x1為煤炭消費量，x2為焦炭消費量，x3為原油消費量，x4為原煤產量，x5為原炭產量，x6為原油產量，Y是能源消費總量）

結論：能量消費總量由主要與煤炭消費總量所影響，成正相關；與原煤產量成一定的反比。

系數

（表1-6回歸方程系數）

模型的適合性檢驗，主要是殘差分析。殘差圖是散點圖，如圖1-11所示：

（圖1-11殘差圖）

可以看出各散點隨機分布在e=0為中心的橫帶中，證明了該模型是適合的。同時我們也發現了兩個異常點，就是廣東省和四川省，這種離群點是值得進一步研究的。

還有一種殘差正態概率圖（rankit圖）可以直觀地判斷殘差是否符合正態分布。如圖1-12所示：

（圖1-12 rankit（P-P）圖）

它的直方圖如圖1-13所示：

（圖1-13 rankit（直方）圖）

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

線性回歸直方圖字段正態分布數據標準化數據分析特征散點圖

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數據分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數據人才培養標準教育事業！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊