
作者 | George Seif
來源 | 中國統計網
本文講述了數據分析師應當了解的五個統計基本概念:統計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統計方法。
從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。
利用統計學,我們可以更深入、更細致地觀察數據是如何進行精確組織的,并且基于這種組織結構,如何能夠以最佳的形式來應用其它相關的技術以獲取更多的信息。今天,我們來看看數據分析師需要掌握的5個基本的統計學概念,以及如何有效地進行應用。
01
特征統計
特征統計可能是數據科學中最常用的統計學概念。它是你在研究數據集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。理解特征統計并且在代碼中實現都是非常容易的。請看下圖:
上圖中,中間的直線表示數據的中位數。中位數用在平均值上,因為它對異常值更具有魯棒性。第一個四分位數本質上是第二十五百分位數,即數據中的25%要低于該值。第三個四分位數是第七十五百分位數,即數據中的75%要低于該值。而最大值和最小值表示該數據范圍的上下兩端。
箱形圖很好地說明了基本統計特征的作用:
02
我們可以將概率定義為一些事件將要發生的可能性大小,以百分數來表示。在數據科學領域中,這通常被量化到0到1的區間范圍內,其中0表示事件確定不會發生,而1表示事件確定會發生。那么,概率分布就是表示所有可能值出現的幾率的函數。請看下圖:
常見的概率分布,均勻分布(上)、正態分布(中間)、泊松分布(下):
如果遇到一個高斯分布,那么我們知道有很多算法,在默認情況下高思分布將會被執行地很好,因此首先應該找到那些算法。如果是泊松分布,我們必須要特別謹慎,選擇一個在空間擴展上對變化要有很好魯棒性的算法。
03
降維這個術語可以很直觀的理解,意思是降低一個數據集的維數。在數據科學中,這是特征變量的數量。請看下圖:
上圖中的立方體表示我們的數據集,它有3個維度,總共1000個點。以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的數據,比如從立方體一側的角度,可以看到劃分所有的顏色是很容易的。通過降維,我們將3D數據展現到2D平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。
另一種方式是我們可以通過特征剪枝來減少維數。利用這種方法,我們刪除任何所看到的特征對分析都不重要。例如,在研究數據集之后,我們可能會發現,在10個特征中,有7個特征與輸出具有很高的相關性,而其它3個則具有非常低的相關性。那么,這3個低相關性的特征可能不值得計算,我們可能只是能在不影響輸出的情況下將它們從分析中去掉。
用于降維的最常見的統計技術是PCA,它本質上創建了特征的向量表示,表明了它們對輸出的重要性,即相關性。PCA可以用來進行上述兩種降維方式的操作。
04
過采樣和欠采樣
過采樣和欠采樣是用于分類問題的技術。例如,我們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開我們嘗試和使用的許多機器學習技術來給數據建模并進行預測。那么,過采樣和欠采樣可以應對這種情況。請看下圖:
在上面圖中的左右兩側,藍色分類比橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。
欠采樣意味著我們將只從樣本多的分類中選擇一些數據,而盡量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分布。我們只是通過更少的抽樣來讓數據集更均衡。
過采樣意味著我們將要創建少數分類的副本,以便具有與多數分類相同的樣本數量。副本將被制作成保持少數分類的分布。我們只是在沒有獲得更多數據的情況下讓數據集更加均衡。
05
完全理解為什么在我們使用貝葉斯統計的時候,要求首先理解頻率統計失敗的地方。大多數人在聽到“概率”這個詞的時候,頻率統計是首先想到的統計類型。它涉及應用一些數學理論來分析事件發生的概率,明確地說,我們唯一計算的數據是先驗數據(prior data)。
假設我給了你一個骰子,問你擲出6點的幾率是多少,大多數人都會說是六分之一。
但是,如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的數據,而給你作弊的骰子的因素并沒有被考慮進去。
貝葉斯統計確實考慮了這一點,我們可以通過貝葉斯法則來進行說明:
在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關于事件發生概率的數據。方程中的P(E|H)稱為可能性,根據頻率分析得到的信息,實質上是現象正確的概率。例如,如果你要擲骰子10000次,并且前1000次全部擲出了6個點,那么你會非常自信地認為是骰子作弊了。
如果頻率分析做的非常好的話,那么我們會非常自信地確定,猜測6個點是正確的。同時,如果骰子作弊是真的,或者不是基于其自身的先驗概率和頻率分析的,我們也會考慮作弊的因素。正如你從方程式中看到的,貝葉斯統計把一切因素都考慮在內了。當你覺得之前的數據不能很好地代表未來的數據和結果的時候,就應該使用貝葉斯統計方法。
推薦學習書籍
《CDA一級教材》適合CDA一級考生備考,也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校,累計已有10萬+在讀~
免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23