
SPSS大戰多元回歸分析
使用多元回歸進行數據分析,分析軟件供選擇的比較多,主要有Eviews、Spss、Stata、Sas、Gretel等。多元回歸分析應用于各個領域,主要有經濟、醫學、農學等。今天小編為大家分享一篇SPSS大戰多元回歸的數據分析實例。線性回歸數據來自于國泰安數據服務中心的經濟研究數據庫。數據名稱為:全國各地區能源消耗量與產量,該數據的年度標識為2006年,地區包括我國30個省,直轄市,自治區(西藏地區無數據)。
1.1數據預處理
數據預處理包括的內容非常廣泛,包括數據清理和描述性數據匯總,數據集成和變換,數據歸約,數據離散化等。本文主要涉及的數據預處理只包括數據清理和描述性數據匯總。一般意義的數據預處理包括缺失值填寫和噪聲數據的處理。于此我們只對數據做缺失值填充,但是依然將其統稱數據清理。
1.1.1 數據導入與定義
單擊“打開數據文檔”,將xls格式的全國各地區能源消耗量與產量的數據導入SPSS中,如圖1-1所示。
(圖1-1 導入數據)
導入過程中,各個字段的值都被轉化為字符串型(String),我們需要手動將相應的字段轉回數值型。單擊菜單欄的“”-->“
”將所選的變量改為數值型。如圖1-2所示:
(圖1-2 定義變量數據類型)
1.1.2 數據清理
數據清理包括缺失值的填寫和還需要使用SPSS分析工具來檢查各個變量的數據完整性。單擊“”-->“
”,將檢查所輸入的數據的缺失值個數以及百分比等。如圖1-3所示:
(圖1-3缺失值分析)
能源數據缺失值分析結果如表1-1所示:
SPSS提供了填充缺失值的工具,點擊菜單欄“”-->“”,即可以使用軟件提供的幾種填充缺失值工具,包括序列均值,臨近點中值,臨近點中位數等。結合本次實習數據的具體情況,我們不使用SPSS軟件提供的替換缺失值工具,主要是手動將缺失值用零值來代替。
1.1.3 描述性數據匯總
描述性數據匯總技術用來獲得數據的典型性質,我們關心數據的中心趨勢和離中趨勢,根據這些統計值,可以初步得到數據的噪聲和離群點。中心趨勢的量度值包括:均值(mean),中位數(median),眾數(mode)等。離中趨勢量度包括四分位數(quartiles),方差(variance)等。
SPSS提供了詳盡的數據描述工具,單擊菜單欄的“”-->“”-->“”,將彈出如圖2-4所示的對話框,我們將所有變量都選取到,然后在選項中勾選上所希望描述的數據特征,包括均值,標準差,方差,最大最小值等。由于本次數據的單位不盡相同,我們需要將數據標準化,同時勾選上“將標準化得分另存為變量”。
(圖1-4 描述性數據匯總)
得到如表1-2所示的描述性數據匯總。
(表1-2 描述性數據匯總)
標準化后得到的數據值,以下的回歸分析將使用標準化數據。如圖1-5所示:
(圖1-5 數據標準化)
我們還可以通過描述性分析中的“”來得到各個變量的眾數,均值等,還可以根據這些量繪制直方圖。我們選取個別變量(能源消費總量)的直方圖,可以看到我們因變量基本符合正態分布。如圖1-6所示:
(圖1-6能源消費總量)
1.2 回歸分析
我們本次實驗主要考察地區能源消費總額(因變量)與煤炭消費量、焦炭消費量、原油消費量、原煤產量、焦炭產量、原油產量之間的關系。以下的回歸分析所涉及只包括以上幾個變量,并使用標準化之后的數據。
1.2.1 參數設置
單擊菜單欄“”-->“”-->“”,將彈出如圖1-7所示的對話框,將通過選擇因變量和自變量來構建線性回歸模型。因變量:標準化能源消費總額;自變量:標準化煤炭消費量、標準化焦炭消費量、標準化原油消費量、標準化原煤產量、標準化焦炭產量、標準化原油產量。自變量方法選擇:進入,個案標簽使用地名,不使用權重最小二乘法回歸分析—即WLS權重為空。
(圖1-7選擇線性回歸變量還需要設置統計量的參數)
我們選擇回歸系數中的“”和其他項中的“
”。選中估計可輸出回歸系數B及其標準誤,t值和p值,還有標準化的回歸系數beta。選中模型擬合度復選框:模型擬合過程中進入、退出的變量的列表,以及一些有關擬合優度的檢驗:R,R2和調整的R2, 標準誤及方差分析表。如圖1-8所示:
(圖1-8 設置回歸分析統計量)
在設置繪制選項的時候,我們選擇繪制標準化殘差圖,其中的正態概率圖是rankit圖。同時還需要畫出殘差圖,Y軸選擇:ZRESID,X軸選擇: ZPRED。如圖1-9所示:
(圖1-9 設置繪制)
左上框中各項的意義分別為:
“DEPENDNT”因變量
“ZPRED”標準化預測值
“ZRESID”標準化殘差
“DRESID”刪除殘差
“ADJPRED”調節預測值
“SRESID”學生化殘差
“SDRESID”學生化刪除殘差
許多時候我們需要將回歸分析的結果存儲起來,然后用得到的殘差、預測值等做進一步的分析,“保存”按鈕就是用來存儲中間結果的??梢源鎯Φ挠校侯A測值系列、殘差系列、距離(Distances)系列、預測值可信區間系列、波動統計量系列。本次實驗暫時不保存任何項。
設置回歸分析的一些選項,有:步進方法標準單選鈕組:設置納入和排除標準,可按P值或F值來設置。在等式中包含常量復選框:用于決定是否在模型中包括常數項,默認選中。如圖1-10所示:
(圖1-10 設置選項)
1.2.2 結果輸出與分析
在以上選項設置完畢之后點擊確定,SPSS將輸出一系列的回歸分析結果。我們來逐一貼出和分析,并根據它得到最后的回歸方程以及驗證回歸模型。
表1-3所示,是回歸分析過程中輸入、移去模型記錄。具體方法為:enter(進入)
輸入/移去的變量
(表1-3 輸入的變量)
表1-4所示是模型匯總,R稱為多元相關系數,R方(R2)代表著模型的擬合優度。我們可以看到該模型是擬合優度良好。
模型匯總
(表1-4 模型匯總)
表1-5所示是離散分析。,F的值較大,代表著該回歸模型是顯著。也稱為失擬性檢驗。
(表1-5 離散分析)
表1-6所示的是回歸方程的系數,根據這些系數我們能夠得到完整的多元回歸方程。觀測以下的回歸值,都是具有統計學意義的。因而,得到的多元線性回歸方程:Y=0.008+1.061x1+0.087 x2+0.157 x3-0.365 x4-0.105 x5-0.017x6
(x1為煤炭消費量,x2為焦炭消費量,x3為原油消費量,x4為原煤產量,x5為原炭產量,x6為原油產量,Y是能源消費總量)
結論:能量消費總量由主要與煤炭消費總量所影響,成正相關;與原煤產量成一定的反比。
系數
(表1-6回歸方程系數)
模型的適合性檢驗,主要是殘差分析。殘差圖是散點圖,如圖1-11所示:
(圖1-11殘差圖)
可以看出各散點隨機分布在e=0為中心的橫帶中,證明了該模型是適合的。同時我們也發現了兩個異常點,就是廣東省和四川省,這種離群點是值得進一步研究的。
還有一種殘差正態概率圖(rankit圖)可以直觀地判斷殘差是否符合正態分布。如圖1-12所示:
(圖1-12 rankit(P-P)圖)
它的直方圖如圖1-13所示:
(圖1-13 rankit(直方)圖)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25