
SPSS回歸分析:自動線性模型
一、自動線性模型(分析-回歸-自動線性建模)
1、 目標(分析-回歸-自動線性建模-構建選項)
2、基本(分析-回歸-自動線性建模-構建選項)
自動準備數據。該選項允許在內部轉換目標和預測變量,以使模型的預測能力最大化;將保存模型的任何轉換并應用到新數據用于評分。轉換字段的原始版本將從模型中排除。默認情況下,執行以下自動數據準備?!蛉掌谂c時間處理。每個日期預測變量被轉換成新的連續預測變量,其中包含自參考日期(1970-01-01)以來經過的時間。每個時間預測變量被轉換成新的連續預測變量,其中包含自參考時間(00:00:00)以來經過的時間?!蛘{整測量級別。具有少于5個不同值的連續預測變量將被重新設計成有序預測變量。具有多于10個不同值的有序預測變量將被重新設計成連續預測變量?!螂x群值處理。如果連續預測變量的值位于截斷值(平均值的3個標準差)之外,則將其設為截斷值?!?a href='/map/queshizhi/' style='color:#000;font-size:inherit;'>缺失值處理。名義預測變量的缺失值被替換為訓練分區的眾數。有序預測變量的缺失值被替換為訓練分區的中位數。連續預測變量的缺失值被替換為訓練分區的平均值?!蚴鼙O督的合并。這將減少與目標關聯的需處理的字段數,得到更簡約的模型。通過輸入與目標間的關系可以確定類似的類別。無顯著差異(即p值大于0.1)的類別則被合并。如果所有類別合并為一個類別,則字段的原始和派生版本將從模型中排除,因為它們沒有作為預測變量的值。
3、模型選擇(分析-回歸-自動線性建模-構建選項)
1)模型選擇方法。選擇一種模型選擇方法(下面將詳細介紹)或無,后者簡單地輸入所有可用預測變量作為主效應模型項。默認使用前向逐步。
2)前向逐步選擇。在開始時模型中沒有任何效應,然后在每個步驟中添加和刪除效應,直到根據逐步選擇標準不能再添加或刪除效應為止。
3)納入/移除標準。此為用于決定是將某個效應添加到還是剔除出模型的統計量?!蛐畔蕜t(AICC)基于模型中給定訓練集合的似然估計,并可調整以懲罰過度復雜模型?!騀統計量基于有關模型錯誤改進情況的某個統計量檢驗?!蛘{整R方基于訓練集合的擬合度,并可調整以懲罰過度復雜模型?!蚍乐惯^度擬合準則(ASE)基于防止過度擬合集的擬合度(平均方差,或ASE)。防止過度擬合集是不用于訓練模型且大約為原始數據集30%的隨機子樣本。
4)最佳子集選擇。這將檢查“所有可能的”模型,或至少檢查可能模型的較大子集(大于“前向逐步”方法),以選擇滿足相應標準的最佳子集?!蛐畔蕜t(AICC)基于模型中給定訓練集合的似然估計,并可調整以懲罰過度復雜模型?!蛘{整R方基于訓練集合的擬合度,并可調整以懲罰過度復雜模型?!蚍乐惯^度擬合準則(ASE)基于防止過度擬合集的擬合度(平均方差,或ASE)。防止過度擬合集是不用于訓練模型且大約為原始數據集30%的隨機子樣本。
二、結果說明(運行后的結果解釋)
1、模型概要:模型及其擬合的快照概覽摘要
2、自動數據準備:此視圖顯示在自動數據準備(ADP)步驟中排除了哪些字段,以及轉換字段的派生方式等信息。對于每個轉換或排除字段,在此表中列出了字段名、在分析中的角色,以及ADP步驟所采取的操作。這些字段按其名稱的字母升序排列。對每個字段可能執行的操作包括:◎導出持續時間:月份以月為單位,計算從包含日期的字段值到當前系統日期所經過的時間?!驅С龀掷m時間:小時以小時為單位,計算從包含時間的字段值到當前系統時間所經過的時間?!驅y量級別從連續改為有序:將不到5個唯一值的連續字段重新設計為有序字段?!驅y量級別從有序改為連續:將超過10個唯一值的有序字段重新設計為連續字段?!騽h除離群值:如果連續預測變量的值位于截斷值(平均值的3個標準差)之外,則將其設為截斷值?!蛱鎿Q缺失值:分別使用眾數、中位數和平均值替換名義字段、有序字段和連續字段的缺失值?!蚝喜㈩悇e以最大化與目標的關聯:根據輸入與目標間的關系確定“類似”的預測變量類別。無顯著差異(即p值大于0.05)的類別則被合并?!蚺懦A款A測變量/在離群值處理之后/在合并類別之后:刪除具有單個值的預測變量,可能在執行其他ADP操作之后。
3、預測變量重要性:通常,您需要將建模工作專注于最重要的預測變量字段,并考慮刪除或忽略那些最不重要的預測變量字段。預測變量重要性圖表可以在模型估計中指示每個預測變量的相對重要性,從而幫助您實現這一點。由于它們是相對值,因此顯示的所有預測變量的值總和為1.0。預測變量重要性與模型精度無關。它只與每個預測變量在預測中的重要性有關,而不涉及預測是否精確。
4、由觀測預測:這將顯示一個分級散點圖,其中預測值位于垂直軸上,而觀測值位于水平軸上。理想情況下,該點應在45度線上;您可以從該視圖上判斷出任何被模型預測為較差的紀錄。
5、殘差:有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式?!?a href='/map/zhifangtu/' style='color:#000;font-size:inherit;'>直方圖。此為學生化殘差的分級直方圖,并帶有正態分布交疊。線性模型假設殘差具有正態分布,因此理想情況下直方圖應相當接近平滑線?!騊-P圖。此為分級概率-概率(P-P)圖,將學生化殘差與正態分布進行對比。如果繪制點的坡度比正態線更平緩,則殘差顯示出比正態分布更顯著的變異性;如果更陡峭,則殘差的變異性低于正態分布。如果繪制點呈S型曲線,則殘差為偏斜分布。
6、離群值:此表列出對模型施加過度影響的記錄,并顯示記錄ID(如果在“字段”選項卡上指定)、目標值,以及Cook距離。Cook距離是在特定記錄從模型系數的計算中排除的情況下,所有記錄的殘差變化幅度的測量。較大的Cook距離表示在排除記錄后系數會發生顯著變化,因此應被視為有一定影響。應仔細檢查有影響的記錄,以確定是在模型估計中給予較低權重,按照特定可接受閾值截斷離群值,還是徹底移除有影響的記錄。
7、效應:有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式?!驁D表。在此圖表中,將按預測變量重要性遞減順序,從上到下排列顯示效應。在圖表中,連接線條根據效應的顯著性進行加權,粗線條表示較顯著的效應(p值較?。?。懸停在連接線條上將顯示工具提示,以指示效應的p值和重要性。這是默認值?!虮恚捍藶榭傮w模型與單獨模型效應的ANOVA表。各個效應將按預測變量重要性遞減順序,從上到下排列顯示。注意,在默認情況下,此表處于折疊狀態,只顯示總體模型結果。要查看單獨模型效應的結果,在表中單擊校正的模型單元格。
8、系數:此視圖顯示模型中每個系數的值。注意,由于因子(分類預測變量)在模型內部經過指示符編碼,因此包含因子的效應通常具有多個關聯系數;每種類別一個關聯系數,但對應于冗余(參考)參數的類別除外。有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式?!驁D表。在此圖表中,首先顯示截距,然后按預測變量重要性遞減順序,從上到下排列顯示效應。在包含因子的效應中,系數按照數據值的升序進行排列。在圖表中,連接線條根據系數的顯著性(參見圖表鍵)而具有不同顏色,粗線條表示較顯著的系數(p值較?。?。懸停在連接線條上將顯示工具提示,以指示與參數關聯的效應的系數值、p值和重要性。這是默認樣式?!虮恚哼@將顯示單獨模型系數的值、顯著性檢驗,以及置信區間。在截距后面,各個效應將按預測變量重要性遞減順序,從上到下排列顯示。在包含因子的效應中,系數按照數據值的升序進行排列。注意,在默認情況下,此表處于折疊狀態,只顯示每個模型參數的系數、顯著性和重要性。要查看標準誤、t統計量和置信區間,在表中單擊系數單元格。懸停在表中的模型參數名稱上,將顯示工具提示,以指示參數名稱、與參數關聯的效應以及與模型參數關聯的值標簽(對于分類預測變量)。當自動數據準備合并分類預測變量的相似類別時,這尤其適合用于查看新創建的類別。
9、估計平均值:只為顯著的預測變量顯示這些圖表。在圖表中,目標的模型估計值位于垂直軸上,預測變量的每個值位于水平軸上,所有其他預測變量保持恒定。它提供了有關每個預測變量系數在目標上的效應的直觀表示,非常有用。
10、模型構建匯總:◎前向逐步。如果選擇算法為前向逐步,此表將顯示逐步選擇算法中的最近10步。對于其中每個步驟,顯示在此步驟上選擇標準的值與模型中的效應。這允許您了解每個步驟對模型的貢獻大小。每列允許您對行進行排序,因此可以方便地看到在給定步驟上模型中有哪些效應?!蜃罴炎蛹?。如果選擇算法為最佳子集,此表將顯示前10個模型。對于每個模型,顯示選擇標準的值與模型中的效應。您可以從中了解這些最佳模型的穩定性;如果它們傾向于具有存在少量差異的相似效應,那么您可以充分確信它們的確是“最佳”模型;如果它們傾向于具有迥異的效應,那么某些效應可能太相似,需要進行合并(或刪除一些)。每列允許您對行進行排序,因此可以方便地看到在給定步驟上模型中有哪些效應。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25