熱線電話:13121318867

登錄
首頁精彩閱讀數據分析方法匯總(2)
數據分析方法匯總(2)
2016-01-18
收藏

數據分析方法匯總(2)


八、聚類分析

樣本個體或指標變量按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。

1、性質分類:

Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈 使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等

R型聚類分析:對指標進行分類處理,又稱指標聚類分析 使用相似系數作為統計量衡量相似度,相關系數、列聯系數等

2、方法分類:

1)系統聚類法: 適用于小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類

2)逐步聚類法 :適用于大樣本的樣本聚類

3)其他聚類法 :兩步聚類、K均值聚類等

九、判別分析

1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體

2、與聚類分析區別

1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本

2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類

3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然后才能對樣本進行分類

3、進行分類 :

1)Fisher判別分析法 :

以距離為判別準則來分類,即樣本與哪個類的距離最短就分到哪一類, 適用于兩類判別;

以概率為判別準則來分類,即樣本屬于哪一類的概率最大就分到哪一類,適用于

適用于多類判別。

2)BAYES判別分析法 :

BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用;

十、主成分分析

將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變量,并用其中較少的幾個新指標變量就能綜合反應原多個指標變量中所包含的主要信息 。

十一、因子分析

一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、并估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法

與主成分分析比較:

相同:都能夠起到済理多個原始變量內在結構關系的作用

不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關系,是比主成分分析更深入的一種多元統計方法

用途:

1)減少分析變量個數

2)通過對變量間相關關系探測,將原始變量進行分類

十二、時間序列分析

動態數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用于解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。

主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型

十三、生存分析

用來研究生存時間的分布規律以及生存時間和相關因索之間關系的一種統計分析方法

1、包含內容:

1)描述生存過程,即研究生存時間的分布規律

2)比較生存過程,即研究兩組或多組生存時間的分布規律,并進行比較

3)分析危險因素,即研究危險因素對生存過程的影響

4)建立數學模型,即將生存時間與相關危險因素的依存關系用一個數學式子表示出來。

2、方法:

1)統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論

2)非參數檢驗:檢驗分組變量各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,并且檢驗危險因素對生存時間的影響。

A 乘積極限法(PL法)

B 壽命表法(LT法)

3)半參數橫型回歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法

4)參數模型回歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更準確地分析確定變量之間的變化規律

十四、典型相關分析

相關分析一般分析兩個變里之間的關系,而典型相關分析是分析兩組變里(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。

典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變量與另一組變量之間單變量的多重線性相關性研究轉化為對少數幾對綜合變量之間的簡單線性相關性的研究,并且這少數幾對變量所包含的線性相關性的信息幾乎覆蓋了原變量組所包含的全部相應信息。

十五、R0C分析

R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線

用途:

1、R0C曲線能很容易地査出任意界限值時的對疾病的識別能力

用途 ;

2、選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的準確性就越高;

3、兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的準確性。

十六、其他分析方法

多重響應分析、距離分祈、項目分祈、對應分祈、決策樹分析、神經網絡、系統方程、蒙特卡洛模擬等。

想要理解更多數據分析方面的知識,可以到CDA數據分析師官網,這里有數據分析方面的頂級人才交流與學習,讓我們能夠把更好的得到屬于自己的成功。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢