熱線電話:13121318867

登錄
首頁大數據時代數據處理中,偏態數據如何正態化?
數據處理中,偏態數據如何正態化?
2020-07-17
收藏

數據處理過程中,經常會遇到偏態數據。我們都知道數據整體服從正態分布,那樣本均值和方差則相互獨立。因此大家都會希望數據事成正態分布的,但是現實情況卻是:大多數情況下,數據都是偏態分布的,這時候就需要我們將偏態數據正態化。今天,小編跟大家分享的就是將偏態數據正態化的處理方法,希望對大家研究和學習偏態數據有所幫助。

一、正態分布偏態分布

首先我們先來了解一下什么是正態分布,什么是偏態分布。

由圖中可知,正態分布,兩頭低,中間高,整個形態是對稱鐘形的一個分布的狀態。大量連續數據測量時,我們最希望的就是數據可以成這種狀態,也就是正態分布,一個標準的正態分布是u(均值)=0.σ(標準差)=1.

橫坐標代表隨機變量X的一個取值,在均值(u=0)附近概率密度最大,越偏離均值,概率密度減小,不在(u-3σ,u+3σ)范圍內的數據就屬于統計學意義上的異常值了。

根據圖中可以看出,偏態分布,分為兩種情況,左偏又叫負偏態,以及右偏又叫正偏態,也可以用偏度來表示,偏度>0.也就是頻數分布的高峰向左偏移,呈右(正)偏態分布;偏度<0.即頻數分布的高峰向右偏移,呈左(負)偏態分布;|偏度|>1.呈高度偏態,0.5<|偏度|<1.呈中等偏態。

二、檢驗數據是否服從正態分布


rom scipy.stats import norm
sns.distplot(train['SalePrice'],fit=norm)
#均值和方差
(mu,sigma) = norm.fit(train['SalePrice'])
print('n mu = {:.2f} and sigma = {:.2f}n'.format(mu, sigma))
plt.legend(['Normal dist. ($mu=$ {:.2f} and $sigma=$ {:.2f} )'.format(mu, sigma)],
            loc='best')
plt.ylabel('Frequency')
plt.title('SalePrice distribution')

fig =plt.figure()
res = stats.probplot(train['SalePrice'], plot=plt)
plt.show()


三、偏態數據處理

如果檢測到數據是呈偏態分布,我們需要將其其變換為正態分布,常用的幾種變換方式為:

1、對數變換:即將原始數據X的對數值作為新的分布數據,適用于相乘關系的數據、高度偏態的數據

2、平方根變換:即即將原始數據X的平方根作為新的分布數據。適用于泊松分布(方差與均數近似相等)的數據、輕度偏態的數據

3、倒數變換1/x:即將原始數據X的倒數作為新的分析數據。適用于兩端波動較大的數據

4、反正弦變換:即將原始數據X的平方根反正弦值做為新的分析數據。適用于百分比的數據、中度偏態的數據


#用對數化解決偏態 log(1+x)
train['SalePrice'] = np.log1p(train['SalePrice'])
sns.distplot(train['SalePrice'],fit=norm)
(mu, sigma) = norm.fit(train['SalePrice'])
print( 'n mu = {:.2f} and sigma = {:.2f}n'.format(mu, sigma))

#Now plot the distribution
plt.legend(['Normal dist. ($mu=$ {:.2f} and $sigma=$ {:.2f} )'.format(mu, sigma)],
            loc='best')
plt.ylabel('Frequency')
plt.title('SalePrice distribution')

#Get also the QQ-plot
fig = plt.figure()
res = stats.probplot(train['SalePrice'], plot=plt)
plt.show()


相關性分析是一項重要的數據分析工具,可以幫助我們理解變量之間的關系并做出相應的推斷。通過散點圖、相關系數回歸分析等方法,我們可以定量地衡量變量之間的相關程度,并將其應用于各個領域的研究與實踐中。深入理解相關性分析的原理和應用,對于數據科學家和決策者來說都是至關重要的技能。


想深入學習統計學知識,為數據分析筑牢根基?那快來看看統計學極簡入門課程!

學習入口:https://edu.cda.cn/goods/show/3386?targetId=5647&preview=0

課程由專業數據分析師打造,完全免費,60 天有效期且隨到隨學。它用獨特思路講重點,從數據種類到統計學體系,內容通俗易懂。學完它,能讓你輕松入門統計學,還能提升數據分析能力。趕緊點擊鏈接開啟學習,讓自己在數據領域更上一層樓!

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢