
使用Python進行描述性統計
1 描述性統計是什么?
描述性統計是借助圖表或者總結性的數值來描述數據的統計手段。數據挖掘工作的數據分析階段,我們可借助描述性統計來描繪或總結數據的基本情況,一來可以梳理自己的思維,二來可以更好地向他人展示數據分析結果。數值分析的過程中,我們往往要計算出數據的統計特征,用來做科學計算的NumPy和SciPy工具可以滿足我們的需求。Matpotlob工具可用來繪制圖,滿足圖分析的需求。
2 使用NumPy和SciPy進行數值分析
2.1 基本概念
與Python中原生的List類型不同,Numpy中用ndarray類型來描述一組數據:
from numpy import array
from numpy.random import normal, randint
#使用List來創造一組數據
data = [1, 2, 3]
#使用ndarray來創造一組數據
data = array([1, 2, 3])
#創造一組服從正態分布的定量數據
data = normal(0, 10, size=10)
#創造一組服從均勻分布的定性數據
data = randint(0, 10, size=10)
2.2 中心位置(均值、中位數、眾數)
數據的中心位置是我們最容易想到的數據特征。借由中心位置,我們可以知道數據的一個平均情況,如果要對新數據進行預測,那么平均情況是非常直觀地選擇。數據的中心位置可分為均值(Mean),中位數(Median),眾數(Mode)。其中均值和中位數用于定量的數據,眾數用于定性的數據。
對于定量數據(Data)來說,均值是總和除以總量(N),中位數是數值大小位于中間(奇偶總量處理不同)的值:
均值相對中位數來說,包含的信息量更大,但是容易受異常的影響。使用NumPy計算均值與中位數:
from numpy import mean, median
#計算均值
mean(data)
#計算中位數
median(data)
對于定性數據來說,眾數是出現次數最多的值,使用SciPy計算眾數:
[python] view plain copy
from scipy.stats import mode
#計算眾數
mode(data)
2.3 發散程度(極差、方差、標準差、變異系數)
對數據的中心位置有所了解以后,一般我們會想要知道數據以中心位置為標準有多發散。如果以中心位置來預測新數據,那么發散程度決定了預測的準確性。數據的發散程度可用極差(PTP)、方差(Variance)、標準差(STD)、變異系數(CV)來衡量,它們的計算方法如下:
極差是只考慮了最大值和最小值的發散程度指標,相對來說,方差包含了更多的信息,標準差基于方差但是與原始數據同量級,變異系數基于標準差但是進行了無量綱處理。使用NumPy計算極差、方差、標準差和變異系數:
2.4 偏差程度(z-分數)
之前提到均值容易受異常值影響,那么如何衡量偏差,偏差到多少算異常是兩個必須要解決的問題。定義z-分數(Z-Score)為測量值距均值相差的標準差數目:
當標準差不為0且不為較接近于0的數時,z-分數是有意義的,使用NumPy計算z-分數:
通常來說,z-分數的絕對值大于3將視為異常
2.5 相關程度
有兩組數據時,我們關心這兩組數據是否相關,相關程度有多少。用協方差(COV)和相關系數(CORRCOEF)來衡量相關程度:
協方差的絕對值越大表示相關程度越大,協方差為正值表示正相關,負值為負相關,0為不相關。相關系數是基于協方差但進行了無量綱處理。使用NumPy計算協方差和相關系數:
2.6 回顧
3 使用Matplotlib進行圖分析
3.1 基本概念
使用圖分析可以更加直觀地展示數據的分布(頻數分析)和關系(關系分析)。柱狀圖和餅形圖是對定性數據進行頻數分析的常用工具,使用前需將每一類的頻數計算出來。直方圖和累積曲線是對定量數據進行頻數分析的常用工具,直方圖對應密度函數而累積曲線對應分布函數。散點圖可用來對兩組數據的關系進行描述。在沒有分析目標時,需要對數據進行探索性的分析,箱形圖將幫助我們完成這一任務。
在此,我們使用一組容量為10000的男學生身高,體重,成績數據來講解如何使用Matplotlib繪制以上圖形,創建數據的代碼如下
柱狀圖是以柱的高度來指代某種類型的頻數,使用Matplotlib對成績這一定性變量繪制柱狀圖的代碼如下:
而餅形圖是以扇形的面積來指代某種類型的頻率,使用Matplotlib對成績這一定性變量繪制餅形圖的代碼如下:
3.2.2 定量分析(直方圖、累積曲線)
直方圖類似于柱狀圖,是用柱的高度來指代頻數,不同的是其將定量數據劃分為若干連續的區間,在這些連續的區間上繪制柱。使用Matplotlib對身高這一定量變量繪制直方圖的代碼如下:
使用Matplotlib對身高這一定量變量繪制累積曲線的代碼如下:
3.3 關系分析(散點圖)
在散點圖中,分別以自變量和因變量作為橫縱坐標。當自變量與因變量線性相關時,在散點圖中,點近似分布在一條直線上。我們以身高作為自變量,體重作為因變量,討論身高對體重的影響。使用Matplotlib繪制散點圖的代碼如下:
3.4 探索分析(箱形圖)
在不明確數據分析的目標時,我們對數據進行一些探索性的分析,通過我們可以知道數據的中心位置,發散程度以及偏差程度。使用Matplotlib繪制關于身高的箱形圖的代碼如下:
繪制出來的箱形圖中,包含3種信息:
3.5 回顧
4 總結
描述性統計是容易操作,直觀簡潔的數據分析手段。但是由于簡單,對多元變量的關系難以描述?,F實生活中,自變量通常是多元的:決定體重不僅有身高,還有飲食習慣,肥胖基因等等因素。通過一些高級的數據處理手段,我們可以對多元變量進行處理,例如特征工程中,可以使用互信息方法來選擇多個對因變量有較強相關性的自變量作為特征,還可以使用主成分分析法來消除一些冗余的自變量來降低運算復雜度。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24