熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學統計】11.物以類聚,人以群分!
【從零開始學統計】11.物以類聚,人以群分!
2014-07-04
收藏
在統計學的應用中,有一些方法與回歸這類定量數據為主的分析不同,他們更傾向于定性的分析,比如判別,比如聚類……這類分析或許搞經濟的,搞金融的不太會去使用,但在醫藥,咨詢服務類公司則會經常(或相比經濟金融界較多)使用到。今天,就來介紹一下判別分析和聚類分析。
       把他們放在一起討論,主要是因為他們都有一個“類”的概念,比如咱先看看判別分析:
       判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統計分析方法。其基本原理是按照一定的判別準則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定系數,并計算判別指標。據此即可確定某一樣本屬于何類。當得到一個新的樣品數據,要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。
       判別分析的類別很多,常用的有:適用于定性指標或計數資料的有最大似然法、訓練迭代法;適用于定量指標或計量資料的有:Fisher二類判別、Bayers多類判別以及逐步判別。

那聚類分析呢?
       聚類分析又稱群分析,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。
       聚類分析的方法常用的有:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。 (如果百度過聚類分析,又點開了維基百科或者百度百科,可以發現百科里對聚類分析的算法介紹比樓主多很多,也復雜很多,還有各種算法間的比較,樓主當初也愣住了,但是看了又看,由于應用的領域不同,所以劃分確實很多,但如果不是做深入數據挖掘的話,上述的幾種方法已經夠用了,當然你要是需要用到其他復雜的算法,那樓主的帖子估計也不適合你看,畢竟寫它的目的僅僅為了普及知識而已……)

Q1:什么是類別?
A:類別指具有相同屬性或者特征指標的個體(有的人稱之為樣品)的集合。用來標明相同屬性、相同的特征指標,無論在判別分析還是在聚類分析中,我們都喜歡用“距離”,同一類別的個體之間距離小,不同總體的樣本之間距離大。

Q2:距離是什么?有哪些距離呢?
A:距離是一個原則性的定義,滿足對稱性、非負性。距離的分類主要有絕對距離、馬氏距離、歐幾里得距離(歐氏距離)。
  • 絕對距離:平面直角坐標系中兩點的橫坐標的差的絕對值與縱坐標的差的絕對值的和叫做這兩點的絕對距離(引自百度百科),通俗點的話我們常說的這棟樓高100米,這就是一個絕對距離,它的前提是需要一個水平點。
  • 馬氏距離:用來表示數據的協方差距離,用來計算兩個未知樣本集的相似度設有兩個個體(點)X與Y(假定為一維數據,即在數軸上)是來自均數為,協方差陣為的總體(類別)A的兩個個體(點),則個體X與Y的馬氏距離為1.jpg ,類似地可以定義個體X與總體(類別)A的距離為2.jpg
  • 歐幾里德距離(歐氏距離):是一個通常采用的距離定義,指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。二維平面上兩點a(x1,y1)與b(x2,y2)間的歐氏距離: 3.jpg 

       在判別和聚類分析中,馬氏距離和歐氏距離運用較多,因為歐氏距離計算相對簡單,而馬氏距離也有很多優點:它不受量綱的影響,兩點之間的馬氏距離與原始數據的測量單位無關;由標準化數據和中心化數據(即原始數據與均值之差)計算出的二點之間的馬氏距離相同;馬氏距離還可以排除變量之間的相關性的干擾,但它的缺點是夸大了變化微小的變量的作用。


判別分析與聚類分析的區別:

聚類分析

判別分析

基本原理

將個體(樣品)或者對象(變量)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在于使類間元素的同質性最大化和類與類間元素的異質性最大化。

從已知的各種分類情況中總結規律(訓練出判別函數),當新樣品進入時,判斷其與判別函數之間的相似程度(概率最大,距離最近,離差最小等判別準則)  

假設條件

對變量的多元正態性,方差齊性等要求較高

分組類型在兩組以上,解釋變量必須是可測的;每個解釋變量不能是其它解釋變量的線性組合;各解釋變量之間服從多元正態分布,且各組解釋變量的協方差矩陣相等

應用領域

細分市場,消費行為劃分,設計抽樣方案等

對客戶進行信用預測,尋找潛在客戶,臨床上用于鑒別診斷



判別分析的步驟:
1、研究問題(選擇對象,評估一個多元問題各組的差異,將觀測個體歸類,確定組與組之間的判別函數)
2、設計要點(選擇解釋變量,考慮樣本量,簡歷分析樣本的保留樣本)

3、假定(解釋變量的正態性、線性關系、解釋變量間不存在多重共線性、協方差陣相等)
4、估計判別函數(聯立估計或者逐步估計,判別函數的顯著性)
5、判別函數的解釋(需要幾個判別函數)
6、評價判別函數(權重、載荷、偏F值)

判別分析的誤用(假設一份分析報告點評下錯誤):
網友的想法:分別視4月,5月,6月三個月的離網用戶數據分別為三組(GROUP),每個用戶的指標包含號碼、品牌 、區域 、月消費金額、計費時長、gprs流量、彩信量、短信量、數據業務取消種類、賬戶余額、親情套餐捆綁、營銷捆綁剩余月份 。希望通過這些指標分析出離網用戶的特征,并找到閾值。
在他的分析報告中分組變量的選?。核姆纸M變量分為了三組,希望以月份來判別。
這里就有了第一點錯誤。先回憶下判別分析,假如有2個人,已知一個中國人,一個日本人,判別分析就是據此對再來一個人的歸屬的推斷。網友希望分析出離網用戶卻誤操作為月。
第一個問題理清后,接著出現了第二個問題,對他的分析報告認真檢索發現他的數據全都是離網用戶數據,不可能進行判別。

注:在做判別分析時fisher和貝葉斯函數都是常用的方法,但是fisher自身并不完美,所以一般做分析的時候也勾選上貝葉斯函數。除此之外,最后判別函數的書寫,一定要去分Z和非Z數據。

聚類方法實例:
聚類的方法有很多,統計軟件也自帶很多聚類方法,畫譜系圖也很容易,但是考試的時候沒有電腦,往往最容易考的就是讓你手工計算繪圖的系統聚類法(最長或最短距離進行聚類的一種),這里咱們就用一個實例來演示一下,既能闡明步驟,又能加深理解:

設有12個個體,各測了3個指標


編號



指標



X1



X2



X3



1



5



7



10



2



7



1



5



3



3



2



14



4



6



5



2



5



6



6



9



6



7



7



7



7



8



1



4



8



20



7



9



9



19



8



12



10



7



4



4



11



4



5



13



12



6



5



7



1、計算各類(個體間)的距離
聚類1.jpg 
a2a7距離(2)最近,將其合并,并命名為G13。重新計算其他10類與G13之間的距離,它們與G13間的距離按最小距離法定義,因此

D1,13=min{D1,2,D1,7}=min{13,15}=13

D3,13=min{D3,2,D3,7}=min{14,16}=14

聚類2.jpg

2014-6-2 18:04:07 上傳
下載附件 (33 KB)

……以此類推,最終得到下表:

聚類3.jpg

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢