
SPSS分類分析:最近鄰元素分析
一、最近鄰元素分析(分析-分類-最近鄰元素)
1、概念:根據個案間的相似性來對個案進行分類。類似個案相互靠近,而不同個案相互遠離。因此,通過兩個個案之間的距離可以測量他們的相似性。相互靠近的個案稱為“鄰元素?!碑敵霈F新個案(保持)時,將計算它與模型中每個個案之間的距離。計算得出最相似個案–最近鄰元素–的分類,并將新個案放入包含最多最近鄰元素的類別中。
2、變量:(分析-分類-最近鄰元素-變量)
◎目標(可選)。如果未指定目標(因變量或響應),則過程僅查找k個最近鄰元素–而不會執行任何分類或預測?!驑藴驶潭?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征。標準化特征具有相同的值范圍,這可改進估計算法的性能。使用經調整后的標準化[2*(x min)/(max min)] 1。調整后的標準化值介于1和1之間?!蚪裹c個案標識(可選)。這可以標記感興趣的個案。例如,研究員希望確定學區的測驗分數–焦點個案–是否與類似學區的測驗分數相當。他使用最近鄰元素分析來查找在給定特征組方面最相似的學區。然后,他將焦點學區的測驗分數與最近鄰學區的分數進行比較?!騻€案標簽(可選)。在特征空間圖表、對等圖表和象限圖中使用這些值來標記個案。
3、相鄰元素:(分析-分類-最近鄰元素-相鄰元素)
1)最近鄰元素的數目(k)。指定最近鄰元素的數目。注意,使用大量的鄰元素不一定會得到更準確的模型。2)距離計算。該度規用于指定在測量個案相似性中使用的距離度規?!駿uclidean度規。兩個個案x和y之間的距離,為個案值之間的平方差在所有維度上之和的平方根?!虺鞘薪謪^度規。兩個個案之間的距離是個案值之間絕對差在所有維度上之和。又稱為Manhattan距離。
如果在“變量”選項卡中指定了目標,使用“特征”選項卡可以為特征選擇請求或指定選項。默認情況下,特征選擇會考慮所有特征,但可以選擇特征子集以強制納入模型。
中止準則。在每一步上,如果添加特征可以使誤差最?。ㄓ嬎銥榉诸惸繕说恼`差率和刻度目標的平方和誤差),則考慮將其納入模型中。繼續向前選擇,直到滿足指定的條件?!蛑付ǖ?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征數目。除了那些強制納入模型的特征外,算法還會添加固定數目的特征。指定一個正整數。減少所選擇的數目值可以創建更簡約的模型,但存在缺失重要特征的風險。增加所選擇的數目值可以涵蓋所有重要特征,但又存在因特征添加而增加模型誤差的風險?!蚪^對誤差比率的最小變化。當絕對誤差比率變化表明無法通過添加更多特征來進一步改進模型時,算法會停止。指定一個正數。減少最小變化值將傾向于包含更多特征,但存在包含對模型價值不大的特征的風險。增加最小變化值將傾向于排除更多特征,但存在丟失對模型較重要的特征的風險。最小變化的“最佳”值將取決于您的數據和具體應用。請參見輸出中的“特征選擇誤差日志”,以幫助您評估哪些特征最重要。
使用“分區”選項卡可以將數據集劃分為培訓和堅持集,并在適當時候將個案分配給交叉驗證折。
1)訓練和堅持分區。此組指定將活動數據集劃分為訓練樣本或堅持樣本的方法。訓練樣本包含用于訓練最近鄰元素模型的數據記錄;數據集中的某些個案百分比必須分配給訓練樣本以獲得一個模型。堅持樣本是用于評估最終模型的獨立數據記錄集;堅持樣本的誤差給出一個模型預測能力的“真實”估計值,因為堅持個案不用于構建模型?!螂S機分配個案到分區。指定分配給訓練樣本的個案百分比。其余的分配給堅持樣本?!蚴褂米兞糠峙鋫€案。指定一個將活動數據集中的每個個案分配到訓練或堅持樣本中的數值變量。變量為正值的個案被分配到訓練樣本中,值為0或負值的個案被分配到堅持樣本中。具有系統缺失值的個案會從分析中排除。分區變量的任何用戶缺失值始終視為有效。
2)交叉驗證折。V折交叉驗證用于確定“最佳”鄰元素數目。因性能原因,它無法與特征選擇結合使用。交叉驗證將樣本劃分為許多子樣本,或折。然后,生成最近鄰元素模型,并依次排除每個子樣本中的數據。第一個模型基于第一個樣本折的個案之外的所有個案,第二個模型基于第二個樣本折的個案之外的所有個案,依此類推。對于每個模型,估計其錯誤的方法是將模型應用于生成它時所排除的子樣本?!白罴选弊罱徳財禐樵谡壑挟a生最小誤差的數量?!螂S機分配個案到折。指定應當用于交叉驗證的折數。該過程將個案隨機分配到折,從1編號到V(折數)?!蚴褂米兞糠峙鋫€案。指定一個將活動數據集中的每個個案分配到折中的數值變量。變量必須為數值,其值為從1到V的數字。如果此范圍中的任何值缺失,且位于任何拆分上(如果拆分文件有效),這將導致誤差。
3)為Mersenne扭曲器設置種子。設置種子允許您復制分析。使用此控件類似于將“Mersenne扭曲器”設為活動生成器并在“隨機數生成器”對話框中指定固定起始點,兩者的重大差別在于在此對話框中設置種子會保留隨機數生成器的當前狀態并在分析完成后恢復該狀態。
二、結果說明(運行后的結果解釋)
1、模型視圖:在“輸出”選項卡中選擇圖表和表時,過程會在查看器中創建“最近鄰元素模型”對象。激活(雙擊)該對象,可獲得模型的交互式視圖。此模型視圖有2個面板窗口:◎第一個面板顯示模型概覽,稱為主視圖?!虻诙€面板顯示兩種視圖類型之一
2、特征空間:特征空間圖表是有關特征空間(如果存在3個以上特征,則為子空間)的交互式圖形。每條軸代表模型中的某個特征,圖表中的點位置顯示個案這些特征在培訓和堅持分區中的值。
3、變量重要性:通常,您將需要將建模工作專注于最重要的變量,并考慮刪除或忽略那些最不重要的變量。變量重要性圖表可以在模型估計中指示每個變量的相對重要性,從而幫助您實現這一點。由于它們是相對值,因此顯示的所有變量的值總和為1.0。變量重要性與模型精度無關。它只與每個變量在預測中的重要性有關,而不涉及預測是否精確。
4、對等:該圖表顯示焦點個案及其在每個特征和目標上k個最近鄰元素。它僅在“特征空間”圖表中選擇了焦點個案時可用。
5、最近鄰元素距離:該表只顯示焦點個案的k個最近鄰元素與距離。它僅當在“變量”選項卡上指定了焦點個案標識符時可用,且僅顯示由此變量標識的焦點個案。
6、象限圖:該圖表顯示焦點個案及其在散點圖(點圖,取決于目標的測量級別)上k個最近鄰元素。目標在y軸上,刻度特征在x軸上,按特征劃分面板。它僅當存在目標,且在“特征空間”圖表中選擇了焦點個案時可用。
7、特征選擇誤差日志:對于該圖表上的點,其y軸值為模型的誤差(誤差率或平方和誤差,取決于目標的測量級別),x軸上列出模型的特征(加上x軸左側的所有特征)。該圖表僅當存在目標,且特征選擇有效時可用。
8、K選擇誤差日志:對于該圖表上的點,其y軸值為模型的誤差(誤差率或平方和誤差,取決于目標的測量級別),x軸上為最近鄰元素數目(k)。該圖表僅當存在目標,且k選擇有效時可用。
9、分類表:該表顯示按分區對目標觀察與預測值的交叉分類。它僅當存在分類目標時可用。堅持分區中的(缺失)行包含在目標上具有缺失值的堅持個案。這些個案對“堅持樣本:整體百分比”有貢獻,但對“正確百分比”無影響。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25