熱線電話:13121318867

登錄
首頁精彩閱讀用SPSS做判別分析的流程介紹
用SPSS做判別分析的流程介紹
2016-03-22
收藏

用SPSS做判別分析的流程介紹

如何用SPSS做判別分析呢?下面我們就說說用SPSS的整個操作流程。

1.Discriminant Analysis判別分析主對話框    

如圖 1-1 所示

2012052023252976

 

2012052023255186

圖 1-1    Discriminant Analysis 主對話框
(1)選擇分類變量及其范圍
在主對話框中左面的矩形框中選擇表明已知的觀測量所屬類別的變量(一定是離散變量),
按上面的一個向右的箭頭按鈕,使該變量名移到右面的Grouping Variable 框中。
此時矩形框下面的Define Range 按鈕加亮,按該按鈕屏幕顯示一個小對話框如圖1-2 所示,供指定該分類變量的數值范圍。

 

2012052023261213

圖 1-2   Define Range 對話框

在Minimum 框中輸入該分類變量的最小值在Maximum 框中輸入該分類變量的最大值。按Continue 按鈕返回主對話框。
(2)指定判別分析的自變量

 

2012052023263330

圖 1-3    展開 Selection Variable 對話框的主對話框
在主對話框的左面的變量表中選擇表明觀測量特征的變量,按下面一個箭頭按鈕。
把選中的變量移到Independents 矩形框中,作為參與判別分析的變量。
(3) 選擇觀測量

2012052023265733

圖 1-4    Set Value 子對話框
如果希望使用一部分觀測量進行判別函數的推導而且有一個變量的某個值可以作為這些觀測量的標識,
則用Select 功能進行選擇,操作方法是單擊Select 按鈕展開Selection Variable。選擇框如圖1-3 所示。
并從變量列表框中選擇變量移入該框中再單擊Selection Variable 選擇框右側的Value按鈕,
展開Set Value(子對話框)對話框,如圖1-4 所示,鍵入標識參與分析的觀測量所具有的該變量值,
一般均使用數據文件中的所有合法觀測量此步驟可以省略。
(4) 選擇分析方法

2012052023274860

 

在主對話框中自變量矩形框下面有兩個選擇項,被選中的方法前面的圓圈中加有黑點。這兩個選擇項是用于選擇判別分析方法的
l      Enter independent together 選項,當認為所有自變量都能對觀測量特性提供豐富的信息時,使用該選擇項。選擇該項將不加選擇地使用所有自變量進行判別分析,建立全模型,不需要進一步進行選擇。
l      Use stepwise method 選項,當不認為所有自變量都能對觀測量特性提供豐富的信息時,使用該選擇項。因此需要判別貢獻的大小,再進行選擇當鼠標單擊該項時Method 按鈕加亮,可以進一步選擇判別分析方法。
2.Method對話框 如圖 1-5 所示:

2012052023283388

 

圖 1-5    Stepwise Method 對話框
單擊“Method”按鈕展開Stepwise Method對話框。
(1)Method 欄選擇進行逐步判別分析的方法
可供選擇的判別分析方法有:
l   Wilks’lambda 選項,每步都是Wilk 的概計量最小的進入判別函數
l   Unexplained variance 選項,每步都是使各類不可解釋的方差和最小的變量進入判別函數。
l   Mahalanobis’distance 選項,每步都使靠得最近的兩類間的Mahalanobis 距離最大的變量進入判別函數
l   Smallest F ratio 選項,每步都使任何兩類間的最小的F 值最大的變量進入判刑函數
l   Rao’s V 選項,每步都會使Rao V 統計量產生最大增量的變量進入判別函數??梢詫σ粋€要加入到模型中的變量的V 值指定一個最小增量。選擇此種方法后,應該在該項下面的V-to-enter 后的矩形框中輸入這個增量的指定值。當某變量導致的V值增量大于指定值的變量后進入判別函數。
(2) Criteria 欄選擇逐步判別停止的判據
可供選擇的判據有:
l    Use F value 選項,使用F值,是系統默認的判據當加人一個變量(或剔除一個變量)后,對在判別函數中的變量進行方差分析。當計算的F值大于指定的Entry 值時,該變量保留在函數中。默認值是Entry為3.84:當該變量使計算的F值小于指定的Removal 值時,該變量從函數中剔除。默認值是Removal為2.71。即當被加入的變量F 值為3.84 時才把該變量加入到模型中,否則變量不能進入模型;或者,當要從模型中移出的變量F值<2.71時,該變量才被移出模型,否則模型中的變量不會被移出.設置這兩個值時應該注意Entry值〉Removal 值。
l    Use Probability of F選項,用F檢驗的概率決定變量是否加入函數或被剔除而不是用F值。加入變量的F值概率的默認值是0.05(5%);移出變量的F 值概率是0.10(10%)。Removal值(移出變量的F值概率) >Entry值(加入變量的F值概率)。
(3) Display欄顯示選擇的內容
對于逐步選擇變量的過程和最后結果的顯示可以通過Display 欄中的兩項進行選擇:
l    Summary of steps 復選項,要求在逐步選擇變量過程中的每一步之后顯示每個變量的統計量。
l    F for Pairwise distances 復選項,要求顯示兩兩類之間的兩兩F 值矩陣。
3.Statistics對話框 指定輸出的統計量如圖1-6 所示:

2012052023285770

圖 1-6    Statistics 對話框
可以選擇的輸出統計量分為以下3 類:
(l) 描述統計量
在 Descriptives 欄中選擇對原始數據的描述統計量的輸出:
l  Means 復選項,可以輸出各類中各自變量的均值MEAN、標準差std Dev 和各自變量總樣本的均值和標準差。
l  Univariate ANOV 復選項,對各類中同一自變量均值都相等的假設進行檢驗,輸出單變量的方差分析結果。
l  Box’s M 復選項,對各類的協方差矩陣相等的假設進行檢驗。如果樣本足夠大,表明差異不顯著的p 值表明矩陣差異不明顯。
(2) Function coefficients 欄:選擇判別函數系數的輸出形式
l  Fisherh’s 復選項,可以直接用于對新樣本進行判別分類的費雪系數。對每一類給出一組系數。并給出該組中判別分數最大的觀測量。
l  Unstandardized 復選項,未經標準化處理的判別系數。
(3) Matrices 欄:選擇自變量的系數矩陣
l  Within-groups correlation matrix復選項,即類內相關矩陣,
它是根據在計算相關矩陣之前將各組(類)協方差矩陣平均后計算類內相關矩陣。
l   Within-groups covariance matrix復選項,即計算并顯示合并類內協方差矩陣,
是將各組(類)協方差矩陣平均后計算的。區別于總協方差陣。
l   Separate-groups covariance matrices復選項,對每類輸出顯示一個協方差矩陣。
l   Total covariance matrix復選項,計算并顯示總樣本的協方差矩陣。
4.Classification 對話框指定分類參數和判別結果 如圖1-7 所示

2012052023291449

圖 1-7    Classification 對話框
在主對話框中單擊Classify 按鈕展開相應的對話框
(1) 在 Prior Probabilities欄中選擇先驗概率,兩者選其一
l  All groups equal 選項,各類先驗概率相等。若分為m類,則各類先驗概率均為1/m。
l  Compute from groups sizes選項,由各類的樣本量計算決定,即各類的先驗概率與其樣本量成正比。
(2) Use Covariance Matrix 欄:選擇分類使用的協方差矩陣
l  Within-groups選項,指定使用合并組內協方差矩陣進行分類。
l  Separate-groups選項,指定使用各組協方差矩陣進行分類。
由于分類是根據判別函數,而不是根據原始變量,因此該選擇項不是總等價于二次判別。
(3) Plots 欄選擇要求輸出的統計圖
l  Combined-groups復選項,生成一張包括各類的散點圖。
散點圖是根據前兩個判別函數值作的散點圖。如果只有一個判別函數就輸出直方圖。
l  Separate-groups復選項,根據前兩個判別函數值對每一類生成一張激點圖,共分為幾類就生成幾張散點圖。如果只有一個判別函數就輸出直方圖。
l  Territorial map復選項,生成用于根據函數值把觀測量分到各組中去的邊界圖。此種統計圖把一張圖的平面劃分出與類數相同的區域。每一類占據一個區各類的均值在各區中用*號標出。如果僅有一個判別函數,則不作此圖。
(4) Display 欄選擇生成到輸出窗中的分類結果
l  Casewise results復選項,要求輸出每個觀測量包括判別分數、實際類、預測類(根據判別函數求得的分類結果)和后驗概率等。選擇此項還可以選擇其附屬選擇項:Limits cases to復選項,并在后面的小矩形框中輸入觀測量數n 選擇。此項則僅對前n個觀測量輸出分類結果。觀測數量大時可以選擇此項。
l  Summary table復選項,要求輸出分類的小結,給出正確分類觀測量數(原始類和根據判別函數計算的預測類相同)和錯分觀測量數和錯分率。
l  Leave-one-out classification復選項,輸出對每個觀測量進行分類的結果,所依據的判別是由除該觀測量以外的其他觀測量導出的。也稱為交互校驗結果
(5) 在Classification對話框的最下面有一個選擇項,用以選擇對缺失值的處理方法。選中 Replace missing value with mean復選項,即用該變量的均值代替缺失值。該選擇項前面的小矩形框中出現“.”時表示選定所示的處理方法.
5.Save對話框,指定生成并保存在數據文件中的新變量。如圖1-8 所示:

2012052023293496

圖 1-8    Save 對話框
(1)  Predicted group membership復選項,要求建立一個新變量,預測觀測量的分類。是根據判別分數把觀測量按后驗概率最大指派所屬的類。每運行一次Discriminant過程,就建立一個表明使用判別函數預測各觀測量屬于哪一類的新變量。第1 次運行建立新變量的變量名為dis_l,如果在工作數據文件中不把前一次建立的新變量刪除,第n次運行Descriminant 過程建立的新變量默認的變量名為dis_n。
(2)  Discriminant score復選項,要求建立表明判別分數的新變量。該分數是由未標準化的判別系數乘自變量的值,將這些乘積求和后加上常數得來。每次運行Discriminant過程都給出一組表明判別分數的新變量,建立幾個判別函數就有幾個判別分數變量。參與分析的觀測量共分為m類,則建立m個典則判別函數。指定該選擇項,就可以生成m-l 個表明判別分數的新變量。
(3)  Probabilities of group membership復選項,要求建立新變量,表明觀測量屬于某一類的概率。有m類,對一個觀測量就會給出m個概率值,因此建立m 個新變量.
6.選擇好各選擇項之后,點擊“OK”按鈕,提交運行Discriminant過程。
附:判別分析
判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統計分析方法。
其基本原理是按照一定的判別準則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定系數,并計算判別指標。據此即可確定某一樣本屬于何類。
當得到一個新的樣品數據,要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。
根據判別中的組數,可以分為兩組判別分析和多組判別分析;
根據判別函數的形式,可以分為線性判別和非線性判別;
根據判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;
根據判別標準不同,可以分為距離判別、Fisher判別、Bayes判別法等。

判別函數

判別分析通常都要設法建立一個判別函數,然后利用此函數來進行批判,判別函數主要有兩種,即線性判別函數(Linear Discriminant Function)和典則判別函數(Canonical Discriminate Function)。
線性判別函數是指對于個總體,如果各組樣品互相獨立,且服從多元正態分布,就可建立線性判別函數,形式如下:
Yi=a0+a1x1+a2x2+a3x3+…+anxn (i=1、2、…k)
其中,是K判別組數;是Yi判別指標(又稱判別分數或判別值),根據所用的方法不同,可能是概率,也可能是坐標值或分值;x1…xn是自變量或預測變量,即反映研究對象特征的變量;a0….an是各變量系數,也稱判別系數。建立函數必須使用一個訓練樣品。所謂訓練樣品就是已知實際分類且各指標的觀察值也已測得的樣品,它對判別函數的建立非常重要。
典則判別函數是原始自變量的線性組合,通過建立少量的典則變量可以比較方便地描述各類之間的關系,例如可以用話散點圖和平面區域圖直觀地表示各類之間的相對關系等。

判別函數的建立方法

建立判別函數的方法一般由四種:全模型法、向前選擇法、向后選擇法和逐步選擇法。
1)全模型法是指將用戶指定的全部變量作為判別函數的自變量,而不管該變量是否對研究對象顯著或對判別函數的貢獻大小。此方法適用于對研究對象的各變量有全面認識的情況。如果未加選擇的使用全變量進行分析,則可能產生較大的偏差。
2)向前選擇法是從判別模型中沒有變量開始,每一步把一個隊判別模型的判斷能力貢獻最大的哦變量引入模型,直到沒有被引入模型的變量都不符合進入模型的條件時,變量引入過程結束。當希望較多變量留在判別函數中時,使用向前選擇法。
3)向后選擇法與向前選擇法完全相反。它是把用戶所有指定的變量建立一個全模型。每一步把一個對模型的判斷能力貢獻最小的變量剔除模型,知道模型中的所用變量都不符合留在模型中的條件時,剔除工作結束。在希望較少的變量留在判別函數中時,使用向后選擇法。
4)逐步選擇法是一種選擇最能反映類間差異的變量子集,建立判別函數的方法。它是從模型中沒有任何變量開始,每一步都對模型進行檢驗,將模型外對模型的判別貢獻最大的變量加入到模型中,同時也檢查在模型中是否存在“由于新變量的引入而對判別貢獻變得不太顯著”的 變量,如果有,則將其從模型中出,以此類推,知道模型中的所有變量都符合引入模型的條件,而模型外所有變量都不符合引入模型的條件為之,則整個過程結束。

判別方法

判別方法是確定待判樣品歸屬于哪一組的方法,可分為參數法和非參數法,也可以根據資料的性質分為定性資料的判別分析和定量資料的判別分析。此處給出的分類主要是根據采用的判別準則分出幾種常用方法。除最大似然法外,其余幾種均適用于連續性資料。
1)最大似然法:用于自變量均為分類變量的情況,該方法建立在獨立事件概率乘法定理的基礎上,根據訓練樣品信息求得自變量各種組合情況下樣品被封為任何一類的概率。當新樣品進入是,則計算它被分到每一類中去的條件概率(似然值),概率最大的那一類就是最終評定的歸類。
2)距離判別:其基本思想是有訓練樣品得出每個分類的重心坐標,然后對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的類。最常用的距離是馬氏距離,偶爾也采用歐式距離。距離判別的特點是直觀、簡單,適合于對自變量均為連續變量的情況下進行分類,且它對變量的分布類型無嚴格要求,特別是并不嚴格要求總體協方差陣相等。
3)Fisher判別:亦稱典則判別,是根據線性Fisher函數值進行判別,通常用于線性判別問題,使用此準則要求各組變量的均值有顯著性差異。該方法的基本思想是投影,即將原來在R維空間的自變量組合投影到維度較低的D維空間去,然后在D維空間中再進行分類。投影的原則是使得每一類的差異盡可能小,而不同類間投影的離差盡可能大。Fisher判別的優勢在于對分布、方差等都沒有任何限制,應用范圍比較廣。另外,用該判別方法建立的判別方差可以直接用手工計算的方法進行新樣品的判別,這在許多時候是非常方便的。
4)Bayes判別:許多時候用戶對各類別的比例分布情況有一定的先驗信息,比如客戶對投遞廣告的反應絕大多數都是無回音,如果進行判別,自然也應當是無回音的居多。此時,Bayes判別恰好適用。Bayes判別就是根據總體的先驗概率,使誤判的平均損失達到最小二進行的判別。其最大優勢是可以用于多組判別問題。但是適用此方法必須滿足三個假設條件,即各種變量必須服從多元正態分布、各組協方差矩陣必須相等、各組變量均值均有顯著性差異。

判別函數效果的驗證方法

對于判別分析,用戶往往很關心建立的判別函數用于判別分析時的準確度如何。通常的效果驗證方法如自身驗證、外部數據驗證、樣品二分法、交互驗證、Bootstrap法。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢