熱線電話:13121318867

登錄
首頁精彩閱讀SPSS回歸分析:自動線性模型
SPSS回歸分析:自動線性模型
2017-11-19
收藏

SPSS回歸分析:自動線性模型

一、自動線性模型(分析-回歸-自動線性建模)

1、 目標(分析-回歸-自動線性建模-構建選項)

2、基本(分析-回歸-自動線性建模-構建選項)

自動準備數據。該選項允許在內部轉換目標和預測變量,以使模型的預測能力最大化;將保存模型的任何轉換并應用到新數據用于評分。轉換字段的原始版本將從模型中排除。默認情況下,執行以下自動數據準備?!蛉掌谂c時間處理。每個日期預測變量被轉換成新的連續預測變量,其中包含自參考日期(1970-01-01)以來經過的時間。每個時間預測變量被轉換成新的連續預測變量,其中包含自參考時間(00:00:00)以來經過的時間?!蛘{整測量級別。具有少于5個不同值的連續預測變量將被重新設計成有序預測變量。具有多于10個不同值的有序預測變量將被重新設計成連續預測變量?!螂x群值處理。如果連續預測變量的值位于截斷值(平均值的3個標準差)之外,則將其設為截斷值?!?a href='/map/queshizhi/' style='color:#000;font-size:inherit;'>缺失值處理。名義預測變量的缺失值被替換為訓練分區的眾數。有序預測變量的缺失值被替換為訓練分區的中位數。連續預測變量的缺失值被替換為訓練分區的平均值?!蚴鼙O督的合并。這將減少與目標關聯的需處理的字段數,得到更簡約的模型。通過輸入與目標間的關系可以確定類似的類別。無顯著差異(即p值大于0.1)的類別則被合并。如果所有類別合并為一個類別,則字段的原始和派生版本將從模型中排除,因為它們沒有作為預測變量的值。

3、模型選擇(分析-回歸-自動線性建模-構建選項)

1)模型選擇方法。選擇一種模型選擇方法(下面將詳細介紹)或無,后者簡單地輸入所有可用預測變量作為主效應模型項。默認使用前向逐步。

2)前向逐步選擇。在開始時模型中沒有任何效應,然后在每個步驟中添加和刪除效應,直到根據逐步選擇標準不能再添加或刪除效應為止。

3)納入/移除標準。此為用于決定是將某個效應添加到還是剔除出模型的統計量?!蛐畔蕜t(AICC)基于模型中給定訓練集合的似然估計,并可調整以懲罰過度復雜模型?!騀統計量基于有關模型錯誤改進情況的某個統計量檢驗?!蛘{整R方基于訓練集合的擬合度,并可調整以懲罰過度復雜模型?!蚍乐惯^度擬合準則(ASE)基于防止過度擬合集的擬合度(平均方差,或ASE)。防止過度擬合集是不用于訓練模型且大約為原始數據集30%的隨機子樣本。

4)最佳子集選擇。這將檢查“所有可能的”模型,或至少檢查可能模型的較大子集(大于“前向逐步”方法),以選擇滿足相應標準的最佳子集?!蛐畔蕜t(AICC)基于模型中給定訓練集合的似然估計,并可調整以懲罰過度復雜模型?!蛘{整R方基于訓練集合的擬合度,并可調整以懲罰過度復雜模型?!蚍乐惯^度擬合準則(ASE)基于防止過度擬合集的擬合度(平均方差,或ASE)。防止過度擬合集是不用于訓練模型且大約為原始數據集30%的隨機子樣本。

二、結果說明(運行后的結果解釋)

1、模型概要:模型及其擬合的快照概覽摘要

2、自動數據準備:此視圖顯示在自動數據準備(ADP)步驟中排除了哪些字段,以及轉換字段的派生方式等信息。對于每個轉換或排除字段,在此表中列出了字段名、在分析中的角色,以及ADP步驟所采取的操作。這些字段按其名稱的字母升序排列。對每個字段可能執行的操作包括:◎導出持續時間:月份以月為單位,計算從包含日期的字段值到當前系統日期所經過的時間?!驅С龀掷m時間:小時以小時為單位,計算從包含時間的字段值到當前系統時間所經過的時間?!驅y量級別從連續改為有序:將不到5個唯一值的連續字段重新設計為有序字段?!驅y量級別從有序改為連續:將超過10個唯一值的有序字段重新設計為連續字段?!騽h除離群值:如果連續預測變量的值位于截斷值(平均值的3個標準差)之外,則將其設為截斷值?!蛱鎿Q缺失值:分別使用眾數、中位數和平均值替換名義字段、有序字段和連續字段缺失值?!蚝喜㈩悇e以最大化與目標的關聯:根據輸入與目標間的關系確定“類似”的預測變量類別。無顯著差異(即p值大于0.05)的類別則被合并?!蚺懦A款A測變量/在離群值處理之后/在合并類別之后:刪除具有單個值的預測變量,可能在執行其他ADP操作之后。

3、預測變量重要性:通常,您需要將建模工作專注于最重要的預測變量字段,并考慮刪除或忽略那些最不重要的預測變量字段。預測變量重要性圖表可以在模型估計中指示每個預測變量的相對重要性,從而幫助您實現這一點。由于它們是相對值,因此顯示的所有預測變量的值總和為1.0。預測變量重要性與模型精度無關。它只與每個預測變量在預測中的重要性有關,而不涉及預測是否精確。

4、由觀測預測:這將顯示一個分級散點圖,其中預測值位于垂直軸上,而觀測值位于水平軸上。理想情況下,該點應在45度線上;您可以從該視圖上判斷出任何被模型預測為較差的紀錄。

5、殘差:有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式?!?a href='/map/zhifangtu/' style='color:#000;font-size:inherit;'>直方圖。此為學生化殘差的分級直方圖,并帶有正態分布交疊。線性模型假設殘差具有正態分布,因此理想情況下直方圖應相當接近平滑線?!騊-P圖。此為分級概率-概率(P-P)圖,將學生化殘差與正態分布進行對比。如果繪制點的坡度比正態線更平緩,則殘差顯示出比正態分布更顯著的變異性;如果更陡峭,則殘差的變異性低于正態分布。如果繪制點呈S型曲線,則殘差為偏斜分布。

6、離群值:此表列出對模型施加過度影響的記錄,并顯示記錄ID(如果在“字段”選項卡上指定)、目標值,以及Cook距離。Cook距離是在特定記錄從模型系數的計算中排除的情況下,所有記錄的殘差變化幅度的測量。較大的Cook距離表示在排除記錄后系數會發生顯著變化,因此應被視為有一定影響。應仔細檢查有影響的記錄,以確定是在模型估計中給予較低權重,按照特定可接受閾值截斷離群值,還是徹底移除有影響的記錄。

7、效應:有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式?!驁D表。在此圖表中,將按預測變量重要性遞減順序,從上到下排列顯示效應。在圖表中,連接線條根據效應的顯著性進行加權,粗線條表示較顯著的效應(p值較?。?。懸停在連接線條上將顯示工具提示,以指示效應的p值和重要性。這是默認值?!虮恚捍藶榭傮w模型與單獨模型效應的ANOVA表。各個效應將按預測變量重要性遞減順序,從上到下排列顯示。注意,在默認情況下,此表處于折疊狀態,只顯示總體模型結果。要查看單獨模型效應的結果,在表中單擊校正的模型單元格。

8、系數:此視圖顯示模型中每個系數的值。注意,由于因子(分類預測變量)在模型內部經過指示符編碼,因此包含因子的效應通常具有多個關聯系數;每種類別一個關聯系數,但對應于冗余(參考)參數的類別除外。有多種不同的顯示樣式,可以從樣式下拉列表中訪問這些樣式?!驁D表。在此圖表中,首先顯示截距,然后按預測變量重要性遞減順序,從上到下排列顯示效應。在包含因子的效應中,系數按照數據值的升序進行排列。在圖表中,連接線條根據系數的顯著性(參見圖表鍵)而具有不同顏色,粗線條表示較顯著的系數(p值較?。?。懸停在連接線條上將顯示工具提示,以指示與參數關聯的效應的系數值、p值和重要性。這是默認樣式?!虮恚哼@將顯示單獨模型系數的值、顯著性檢驗,以及置信區間。在截距后面,各個效應將按預測變量重要性遞減順序,從上到下排列顯示。在包含因子的效應中,系數按照數據值的升序進行排列。注意,在默認情況下,此表處于折疊狀態,只顯示每個模型參數的系數、顯著性和重要性。要查看標準誤、t統計量和置信區間,在表中單擊系數單元格。懸停在表中的模型參數名稱上,將顯示工具提示,以指示參數名稱、與參數關聯的效應以及與模型參數關聯的值標簽(對于分類預測變量)。當自動數據準備合并分類預測變量的相似類別時,這尤其適合用于查看新創建的類別。

9、估計平均值:只為顯著的預測變量顯示這些圖表。在圖表中,目標的模型估計值位于垂直軸上,預測變量的每個值位于水平軸上,所有其他預測變量保持恒定。它提供了有關每個預測變量系數在目標上的效應的直觀表示,非常有用。

10、模型構建匯總:◎前向逐步。如果選擇算法為前向逐步,此表將顯示逐步選擇算法中的最近10步。對于其中每個步驟,顯示在此步驟上選擇標準的值與模型中的效應。這允許您了解每個步驟對模型的貢獻大小。每列允許您對行進行排序,因此可以方便地看到在給定步驟上模型中有哪些效應?!蜃罴炎蛹?。如果選擇算法為最佳子集,此表將顯示前10個模型。對于每個模型,顯示選擇標準的值與模型中的效應。您可以從中了解這些最佳模型的穩定性;如果它們傾向于具有存在少量差異的相似效應,那么您可以充分確信它們的確是“最佳”模型;如果它們傾向于具有迥異的效應,那么某些效應可能太相似,需要進行合并(或刪除一些)。每列允許您對行進行排序,因此可以方便地看到在給定步驟上模型中有哪些效應。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢