熱線電話:13121318867

登錄
首頁精彩閱讀SPSS分類分析:最近鄰元素分析
SPSS分類分析:最近鄰元素分析
2017-11-15
收藏

SPSS分類分析:最近鄰元素分析

一、最近鄰元素分析(分析-分類-最近鄰元素)

1、概念:根據個案間的相似性來對個案進行分類。類似個案相互靠近,而不同個案相互遠離。因此,通過兩個個案之間的距離可以測量他們的相似性。相互靠近的個案稱為“鄰元素?!碑敵霈F新個案(保持)時,將計算它與模型中每個個案之間的距離。計算得出最相似個案–最近鄰元素–的分類,并將新個案放入包含最多最近鄰元素的類別中。

2、變量:(分析-分類-最近鄰元素-變量)

◎目標(可選)。如果未指定目標(因變量或響應),則過程僅查找k個最近鄰元素–而不會執行任何分類或預測?!驑藴驶潭?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征。標準化特征具有相同的值范圍,這可改進估計算法的性能。使用經調整后的標準化[2*(x min)/(max min)] 1。調整后的標準化值介于1和1之間?!蚪裹c個案標識(可選)。這可以標記感興趣的個案。例如,研究員希望確定學區的測驗分數–焦點個案–是否與類似學區的測驗分數相當。他使用最近鄰元素分析來查找在給定特征組方面最相似的學區。然后,他將焦點學區的測驗分數與最近鄰學區的分數進行比較?!騻€案標簽(可選)。在特征空間圖表、對等圖表和象限圖中使用這些值來標記個案。

3、相鄰元素:(分析-分類-最近鄰元素-相鄰元素)

1)最近鄰元素的數目(k)。指定最近鄰元素的數目。注意,使用大量的鄰元素不一定會得到更準確的模型。2)距離計算。該度規用于指定在測量個案相似性中使用的距離度規?!駿uclidean度規。兩個個案x和y之間的距離,為個案值之間的平方差在所有維度上之和的平方根?!虺鞘薪謪^度規。兩個個案之間的距離是個案值之間絕對差在所有維度上之和。又稱為Manhattan距離。

4、特征:(分析-分類-最近鄰元素-特征

如果在“變量”選項卡中指定了目標,使用“特征”選項卡可以為特征選擇請求或指定選項。默認情況下,特征選擇會考慮所有特征,但可以選擇特征子集以強制納入模型。

中止準則。在每一步上,如果添加特征可以使誤差最?。ㄓ嬎銥榉诸惸繕说恼`差率和刻度目標的平方和誤差),則考慮將其納入模型中。繼續向前選擇,直到滿足指定的條件?!蛑付ǖ?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征數目。除了那些強制納入模型的特征外,算法還會添加固定數目的特征。指定一個正整數。減少所選擇的數目值可以創建更簡約的模型,但存在缺失重要特征的風險。增加所選擇的數目值可以涵蓋所有重要特征,但又存在因特征添加而增加模型誤差的風險?!蚪^對誤差比率的最小變化。當絕對誤差比率變化表明無法通過添加更多特征來進一步改進模型時,算法會停止。指定一個正數。減少最小變化值將傾向于包含更多特征,但存在包含對模型價值不大的特征的風險。增加最小變化值將傾向于排除更多特征,但存在丟失對模型較重要的特征的風險。最小變化的“最佳”值將取決于您的數據和具體應用。請參見輸出中的“特征選擇誤差日志”,以幫助您評估哪些特征最重要。

5、分區(分析-分類-最近鄰元素-分區

使用“分區”選項卡可以將數據集劃分為培訓和堅持集,并在適當時候將個案分配給交叉驗證折。

1)訓練和堅持分區。此組指定將活動數據集劃分為訓練樣本或堅持樣本的方法。訓練樣本包含用于訓練最近鄰元素模型的數據記錄;數據集中的某些個案百分比必須分配給訓練樣本以獲得一個模型。堅持樣本是用于評估最終模型的獨立數據記錄集;堅持樣本的誤差給出一個模型預測能力的“真實”估計值,因為堅持個案不用于構建模型?!螂S機分配個案到分區。指定分配給訓練樣本的個案百分比。其余的分配給堅持樣本?!蚴褂米兞糠峙鋫€案。指定一個將活動數據集中的每個個案分配到訓練或堅持樣本中的數值變量。變量為正值的個案被分配到訓練樣本中,值為0或負值的個案被分配到堅持樣本中。具有系統缺失值的個案會從分析中排除。分區變量的任何用戶缺失值始終視為有效。

2)交叉驗證折。V折交叉驗證用于確定“最佳”鄰元素數目。因性能原因,它無法與特征選擇結合使用。交叉驗證將樣本劃分為許多子樣本,或折。然后,生成最近鄰元素模型,并依次排除每個子樣本中的數據。第一個模型基于第一個樣本折的個案之外的所有個案,第二個模型基于第二個樣本折的個案之外的所有個案,依此類推。對于每個模型,估計其錯誤的方法是將模型應用于生成它時所排除的子樣本?!白罴选弊罱徳財禐樵谡壑挟a生最小誤差的數量?!螂S機分配個案到折。指定應當用于交叉驗證的折數。該過程將個案隨機分配到折,從1編號到V(折數)?!蚴褂米兞糠峙鋫€案。指定一個將活動數據集中的每個個案分配到折中的數值變量。變量必須為數值,其值為從1到V的數字。如果此范圍中的任何值缺失,且位于任何拆分上(如果拆分文件有效),這將導致誤差。

3)為Mersenne扭曲器設置種子。設置種子允許您復制分析。使用此控件類似于將“Mersenne扭曲器”設為活動生成器并在“隨機數生成器”對話框中指定固定起始點,兩者的重大差別在于在此對話框中設置種子會保留隨機數生成器的當前狀態并在分析完成后恢復該狀態。

二、結果說明(運行后的結果解釋)

1、模型視圖:在“輸出”選項卡中選擇圖表和表時,過程會在查看器中創建“最近鄰元素模型”對象。激活(雙擊)該對象,可獲得模型的交互式視圖。此模型視圖有2個面板窗口:◎第一個面板顯示模型概覽,稱為主視圖?!虻诙€面板顯示兩種視圖類型之一

2、特征空間:特征空間圖表是有關特征空間(如果存在3個以上特征,則為子空間)的交互式圖形。每條軸代表模型中的某個特征,圖表中的點位置顯示個案這些特征在培訓和堅持分區中的值。

3、變量重要性:通常,您將需要將建模工作專注于最重要的變量,并考慮刪除或忽略那些最不重要的變量。變量重要性圖表可以在模型估計中指示每個變量的相對重要性,從而幫助您實現這一點。由于它們是相對值,因此顯示的所有變量的值總和為1.0。變量重要性與模型精度無關。它只與每個變量在預測中的重要性有關,而不涉及預測是否精確。

4、對等:該圖表顯示焦點個案及其在每個特征和目標上k個最近鄰元素。它僅在“特征空間”圖表中選擇了焦點個案時可用。

5、最近鄰元素距離:該表只顯示焦點個案的k個最近鄰元素與距離。它僅當在“變量”選項卡上指定了焦點個案標識符時可用,且僅顯示由此變量標識的焦點個案。

6、象限圖:該圖表顯示焦點個案及其在散點圖(點圖,取決于目標的測量級別)上k個最近鄰元素。目標在y軸上,刻度特征在x軸上,按特征劃分面板。它僅當存在目標,且在“特征空間”圖表中選擇了焦點個案時可用。

7、特征選擇誤差日志:對于該圖表上的點,其y軸值為模型的誤差(誤差率或平方和誤差,取決于目標的測量級別),x軸上列出模型的特征(加上x軸左側的所有特征)。該圖表僅當存在目標,且特征選擇有效時可用。

8、K選擇誤差日志:對于該圖表上的點,其y軸值為模型的誤差(誤差率或平方和誤差,取決于目標的測量級別),x軸上為最近鄰元素數目(k)。該圖表僅當存在目標,且k選擇有效時可用。

9、分類表:該表顯示按分區對目標觀察與預測值的交叉分類。它僅當存在分類目標時可用。堅持分區中的(缺失)行包含在目標上具有缺失值的堅持個案。這些個案對“堅持樣本:整體百分比”有貢獻,但對“正確百分比”無影響。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢