熱線電話:13121318867

登錄
首頁精彩閱讀數據的標準化處理及實際應用
數據的標準化處理及實際應用
2016-07-01
收藏

數據的標準化處理及實際應用

數據標準化處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理后,各指標即處于同一數量級,適合進行綜合對比評價。

極差法

極差法是對原始數據的線性變換,首先計算指標值得最小值、最大值,計算極差,通過極差法將指標值映射到[0-1]之間。公式為:

新數據=(原數據-極小值)/(極大值-極小值)

Z-score 標準化法

SPSS默認的數據標準化方法即是Z得分法,這種方法基于原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。經過處理的數據符合標準正態分布,即均值為0,標準差為1。公式為:

其中μ為所有樣本數據的均值,σ為所有樣本數據的標準差。

數據標準化的另外一個實用之處

在實際應用中,數據標準化不只是用于指標的可比性處理,還有一些非常實用的用處,利用標準化方法將指標歸到最適于我們觀測的范圍,更加直觀。且看案例:

有一組數據,是學生參加某次社會公益活動的數據,其中有一指標為:在校綜合評價指數,反映學生在校綜合表現水平。

可以看出這個指標的范圍為[0-140],但這個范圍不太符合我們在學校里的習慣,在學校里經常用[0-100]的百分制,60分以上基本認可為及格,現在這個范圍不能直觀的反映學生在校表現水平。此時,極差法是一個非常好的選擇,我們可以將[0-140]數值,映射到[0-100],便于直觀對比學生的表現。

公式為:(原數據-極小值)/(極大值-極小值)*100

我們再來看看結果:

此時,[0-100]的范圍非常符合我們日常的比較標準,能直觀的反映學生的在校綜合表現,已經達到目的。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢