
在數據處理過程中,經常會遇到偏態數據。我們都知道數據整體服從正態分布,那樣本均值和方差則相互獨立。因此大家都會希望數據事成正態分布的,但是現實情況卻是:大多數情況下,數據都是偏態分布的,這時候就需要我們將偏態數據正態化。今天,小編跟大家分享的就是將偏態數據正態化的處理方法,希望對大家研究和學習偏態數據有所幫助。
由圖中可知,正態分布,兩頭低,中間高,整個形態是對稱鐘形的一個分布的狀態。大量連續數據測量時,我們最希望的就是數據可以成這種狀態,也就是正態分布,一個標準的正態分布是u(均值)=0.σ(標準差)=1.
橫坐標代表隨機變量X的一個取值,在均值(u=0)附近概率密度最大,越偏離均值,概率密度減小,不在(u-3σ,u+3σ)范圍內的數據就屬于統計學意義上的異常值了。
根據圖中可以看出,偏態分布,分為兩種情況,左偏又叫負偏態,以及右偏又叫正偏態,也可以用偏度來表示,偏度>0.也就是頻數分布的高峰向左偏移,呈右(正)偏態分布;偏度<0.即頻數分布的高峰向右偏移,呈左(負)偏態分布;|偏度|>1.呈高度偏態,0.5<|偏度|<1.呈中等偏態。
二、檢驗數據是否服從正態分布
rom scipy.stats import norm sns.distplot(train['SalePrice'],fit=norm) #均值和方差 (mu,sigma) = norm.fit(train['SalePrice']) print('n mu = {:.2f} and sigma = {:.2f}n'.format(mu, sigma)) plt.legend(['Normal dist. ($mu=$ {:.2f} and $sigma=$ {:.2f} )'.format(mu, sigma)], loc='best') plt.ylabel('Frequency') plt.title('SalePrice distribution') fig =plt.figure() res = stats.probplot(train['SalePrice'], plot=plt) plt.show()
三、偏態數據處理
如果檢測到數據是呈偏態分布,我們需要將其其變換為正態分布,常用的幾種變換方式為:
1、對數變換:即將原始數據X的對數值作為新的分布數據,適用于相乘關系的數據、高度偏態的數據
2、平方根變換:即即將原始數據X的平方根作為新的分布數據。適用于泊松分布(方差與均數近似相等)的數據、輕度偏態的數據
3、倒數變換1/x:即將原始數據X的倒數作為新的分析數據。適用于兩端波動較大的數據
4、反正弦變換:即將原始數據X的平方根反正弦值做為新的分析數據。適用于百分比的數據、中度偏態的數據
#用對數化解決偏態 log(1+x) train['SalePrice'] = np.log1p(train['SalePrice']) sns.distplot(train['SalePrice'],fit=norm) (mu, sigma) = norm.fit(train['SalePrice']) print( 'n mu = {:.2f} and sigma = {:.2f}n'.format(mu, sigma)) #Now plot the distribution plt.legend(['Normal dist. ($mu=$ {:.2f} and $sigma=$ {:.2f} )'.format(mu, sigma)], loc='best') plt.ylabel('Frequency') plt.title('SalePrice distribution') #Get also the QQ-plot fig = plt.figure() res = stats.probplot(train['SalePrice'], plot=plt) plt.show()
相關性分析是一項重要的數據分析工具,可以幫助我們理解變量之間的關系并做出相應的推斷。通過散點圖、相關系數和回歸分析等方法,我們可以定量地衡量變量之間的相關程度,并將其應用于各個領域的研究與實踐中。深入理解相關性分析的原理和應用,對于數據科學家和決策者來說都是至關重要的技能。
想深入學習統計學知識,為數據分析筑牢根基?那快來看看統計學極簡入門課程!
學習入口:https://edu.cda.cn/goods/show/3386?targetId=5647&preview=0
課程由專業數據分析師打造,完全免費,60 天有效期且隨到隨學。它用獨特思路講重點,從數據種類到統計學體系,內容通俗易懂。學完它,能讓你輕松入門統計學,還能提升數據分析能力。趕緊點擊鏈接開啟學習,讓自己在數據領域更上一層樓!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24