熱線電話:13121318867

登錄
首頁精彩閱讀統計中分類算法總結
統計中分類算法總結
2016-03-19
收藏

統計中分類算法總結

對于很多做統計的人員來說,對統計中的算法知道的不是很全面,下面就對統計中分類算法做個總結。

數據轉換

主要有兩種:

l   歸一化處理

主要通過把數據歸一到一特定的區間范圍,如[0,1],便于明確樣本值在指標整體中的位置.

應用場景: 歸一化處理基本上是所有分析計算之前必做的一個預處理.

l   標準化處理

主要是通過把數據標準到正態分布區間內,便于各FEATURE之間的計算,即考慮綜合指標的之間的作用時.

應用場景: 標準化處理主要用在聚類分析中.

假設檢驗

主要有四種常見的檢驗方式:

一)   連續型指標的檢驗

l   T檢驗

應用場景: 判斷二分類變量對一連續型指標的顯著影響

前提條件: 沒有,就是針對二分類變量的

原理: 判斷不同水平間目標連續指標的均值是否相等

例子: 性別對某APP訪問量的影響

l   單因素方差分析

應用場景: 判斷多分類變量對一連續型指標的顯著影響

前提條件:

1)       多分類變量

2)       各水平(分組)數據的特征:

a)         服從正態分布

b)         方差相等(方差齊次)

檢驗流程:

例子: 各年齡段對某APP訪問量的影響

l   單因素協方差分析

應用場景: 在某一連續變量影響下,判斷多分類變量對目標連續指標的顯著影響

前提條件:

1)       另一連續變量對目標連續型指標有影響

2)       多分類變量

3)       各水平(分組)數據的特征:

a)         服從正態分布

b)         方差相等(方差齊次)

4)       連續變量與分類變量無交互作用

如何判斷兩者之間的交互作用:

1)       分別做它們與目標連續指標的回歸分析, 觀察斜率是否相同. 如果相同, 則無交互作用; 否則, 有交互作用

2)       直接根據AOV(Y ~ X1*X2)作回歸分析, 觀察綜合因素X1*X2對應的概率P是否小于0.05(默認). 即T檢驗對應斜率等于0的概率.如果小于0.05, 則有交互作用; 否則, 無交互作用.

例子: 注冊時間的影響下不同年齡段對某APP訪問量的顯著影響

二)   非連續型指標的檢驗

l   卡方檢驗

應用場景: 對比分類變量在不同水平下的轉換率數據是否有顯著差異

前提條件:

1)       目標變量為分類變量(例如: 網站用戶數可分為下訂單數與非下訂單數)

原理: 判斷目標分類變量在不同水平下差異. 這里具體的可以參考卡方公式

例子: 網站改版前后對訂單的轉換有無影響(訂單的轉換率的顯著變化)

數據定性與定量處理

說的定性就是把連續型的數據轉換成分類型的數據(即離散化或者叫水平化); 定量處理就是把分類型的數據轉換成連續型的數據. 這個問題在之前, 個人一直以為: 定性處理很簡單, 不就是簡單地”分段”嘛! 但是定量怎么處理呢? 下面有講, 這里著重提一下, 主要通過把”某個變量取某個水平值”的問題轉換成”某個變量等于某個水平值的概率”的問題. 這就實現了量化處理。
定性與定量的處理一般都是針對特定的算法做的,比方說,在要用回歸的方式來解決分類問題,而且此時解釋變量中有分類型的變量,此時就需要做定量處理;又比方說,在某些不支持輸入變量為分類型的變量的算法中,需要先做定性處理后才能使用該算法。

回歸建模

需要注意以下幾個細節:

l  相關參數的理解

1)        各系數對應的P值

意義: 對應的系數是否有意義. 小于0.05(默認), 則有意義; 否則, 無意義

原理: 通過T檢驗, 判斷各系數等0的概率. 即等于0與不等0兩水平下,對目標連續指標是否有顯著的影響. 小于0.05(默認), 則有顯著影響(不可為0); 否則, 無顯著影響(可以為0)

2)        調整后的卡方值, 即 Adjusted R-squared

意義: 整體系數對目標變量的關聯性

= 0 , 則完全不相關

<0.09 , 則不相關

>0.09 且 < 0.25, 則低度相關

>0.25 且 < 0.64, 則中度相關

>0.64, 則高度相關

= 1, 則完全相關

原理: 通過卡方檢驗, 判斷整體模型的有效性

3)         F檢驗對應的P值

意義: 檢驗整體模型的參數等于0的概率

原理: 通過F檢驗判斷整體模型的有效性

l  模型的修訂

1)        UPDATE方法

主要通過增加變量或者減少變量,或者對目標變量做變換(取對數或者指數等). 這是一種人為修訂模型的方法.

2)        STEP

主要通過減少變量的方法來使各變量都能通過T檢驗. 這是一種自動修訂模型的方法.

l  分類型變量在回歸中的處理

主要通過將分類型變量的水平取值轉換成”是否等于某水平取值”的模式. 可以理解為取某個水平值的概率.

幾個常用的回歸方法:

l  線性回歸

主要是多變量回歸

l  Logic 回歸

Logic回歸本質上屬于分類方法, 因為它的目標變量是分類型變量, 嚴格上說是二分類. 只是它通過特定的公式把分類問題轉換成了回歸問題. 將目標變量由分類型變量轉換成了連續型變量, 即”等于某個水平值的概率”. 由公式計算出的值大于0.5 即為正類; 否則為負類. Logic公式可以把一個線性模型的目標值歸一到0-1之間.

大概步驟:

1)        目標變量的LOGIC轉化. 必要時把解釋變量中的分類型也轉化成連續型的.

2)        模型的修訂(其中的線性部分)

3)        預測和性能的衡量

l  回歸樹 CART

它不僅可以處理回歸問題,也可以處理分類問題. 也就是說目標變量可以是分類型變量,也可以是連續型變量. 理論上它可以處理幾乎所有的分類問題.

回歸樹主要問題在剪枝上. 通過觀察每次分裂項, 選擇合適的分裂次數即可. CP值的大小基本上代表了結點的混合程度, 理論上隨著分裂, CP的值是越來越小的, XERR(預測的誤差)是先減小后增大, XSTD代表預測誤差的標準差. 一般選擇CP的原則是, 選擇最小XERR值正負對應的XSTD范圍內,最小的XERR對應的項.

分類建模

幾種常見的分類方法:

l  K鄰近KNN

它適合解決分類問題,但也可以解決回歸問題。即目標變量可以是分類型的也可以是連續型的。

原理:通過計算與哪K個樣本點最近, 就把目標點劃分到K個點中目標分類最多的分類. 因為它要跟每個點做計算, 因此計算量相當大.

l  決策樹(C4.5 CART)

它適合處理多分類問題, 輸入可以是連續型的變量也可以是分類型的變量.屬于規則性的分類方法。

1)       C4.5 它是在最原始的決策樹算法上做的一個改進方法, 仍然使用熵來評估分裂條件的貢獻大小. 它根據取的每個水平值做分支條件, 因此是一種多叉樹, 相比CART而言. 同樣它的重點在后剪枝上面.

這種方法在WEKA里面有非常成熟的一套實現. 在R中可以把相應的包給IMPORT進來后, 直接調用.

2)       CART 前面已經提到后, 它在這里扮演的角色就是處理分類問題了. 它使用GINI來評估分裂條件的貢獻大小. 屬于二叉樹, 相比C4.5. 關于它的剪枝方法不多介紹了.

l  樸素貝葉斯分類

前提條件是各解釋變量間相互獨立, 因為在很多時候, 解釋變量是無法做到完全獨立的, 不過, 貝葉斯神經網絡可以解決獨立性問題, 只是相對要復雜很多.

原理:目標是計算X條件下取Y各水平值時的條件概率,選取其中條件概率最大的Y水平值。由于對于特定的X取值,本質上就是從訓練集中取X Y聯合概率分布中最大值。

l  支持向量機SVM

適合處理二分類問題

原理:

在樣本點的特征空間中尋找一個合適的超平面, 使它的MARGIN邊緣最大化. 落在邊緣上的樣本點即為支持向量, 計算目標分類時只需要根據這些向量計算即可, 因此計算量特別小, 如果向量越多, 就越接近于KNN算法. 因此, 可以說KNN 是SVM的一種特殊.

優勢:

1)在高維空間中特別有效,但維度最好不要超過樣本數。

2)計算時只使用支持向量,內存利用率高

劣勢:

1)維度數如果過高(遠遠超過樣本量)效果就不好

l  AdaBoost 和 隨機森林

適合處理二分類問題

原理:

它們主要是通過把簡單的分類器, 加上權重后組合成一個大的分類器, 然后用它來處理分類問題.

步驟:

1)用戶指定一個迭代次數,初始化每個實例的權重。

2)選擇簡單分類器。每次迭代中,遍歷每個屬性的每個取值及每個條件(大于或者小于),根據它對樣本實例進行劃分,滿足條件即為1;不滿足條件即為-1。最后取誤差率最小的組合條件作為簡單分類器。

3)根據簡單分類器的誤差計算出該分類器的權重,然后再更新每個實例的權重。

4)將該簡單分類器加入到組合分類器中,統計當前組合分類器的誤差個數。如果誤差個數達到0或者指定的下限值,就停止迭代。

l  人工神經網絡

可以解決多分類問題

原理:主要分為三層,輸入層、隱藏層、輸出層,各層的數據都是以神經元的形式呈現的。輸出層中的神經元對應到輸入的維度,即有多個輸入維度就有多少個神經元;隱藏層中神經元的個數作為參數的形式由應用傳入,它跟分類的個數有關;輸出層中神經元的個數對應到分類的個數,即如果是二分類,一個神經元就成(大于0.5為1,小于0.5為0),如果是多分類,幾分類就對應幾個神經元(每個神經元的輸出對應一個分類,大于0.5為真,小于0.5為假,這也是將分類問題轉化為線性問題的一個地方)。各層之間的關系通過一個一元一階線性函數來關聯的。在遍歷每個實例的過程中,計算輸出層中神經元的輸出誤差,以此,然后倒推計算出隱藏層的輸出誤差,分別更新隱藏層與輸出層之間關聯函數的系數和輸出層與隱藏層之間關聯函數的系數。

注意:

二分類器與多分類器本質上沒有明顯的界限, 可以重復利用二分類器來解決多分類問題, 所以分類問題不必在分類方法上有所顧慮, 注重的是分類的性能問題.

分類器性能評估

l  最簡單的方式是直接觀察分類器在測試集中的預測準確率大小

l  由于交叉驗證需要做大量的計算,耗費大量的CPU,因此在機器能夠承受的情況下,

通過交叉驗證的方式來取平均預測準確率的大小,從而判斷分類器的性能。

l  對于某些場景,比如在二分類問題中,應用比較關注預測為正例的正確率,此時,會經常用到ROC曲線及AUC面積來考證一個分類器的性能。這種方式主要應用在金融領域,對用戶的信用度進行評估時。

補充:

1)ROC曲線是FPR(預測為正例,但為錯誤判斷的概率)與TPR(預測為正例,而且也為正確判斷的概率)曲線。FPR = FP/(TN+FP) 表示負例當中被錯誤地預測為正例的比例;查全率或者叫recall ,TPR = TP/(TP+FN) 表示正例當中被正確地預測為正例的比例。

2)AUC面積指的是ROC曲線下的面積,即ROC曲線與X軸(FPR)圍成的面積。面積越大,分類器的性能越好。

l  對于某些場景,比如類似精準營銷的問題,希望通過對全體消費者進行分類,從而得到具有較高響應率的客戶群,以便實現投入產出比。這時,可以選擇提升曲線或者洛倫茲曲線作為評估分類器的指標。在提升曲線中,在Y軸值盡量大的情況下X軸值不能太小。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢