
假設檢驗(HypothesisTesting),或者叫做顯著性檢驗(SignificanceTesting)是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。其基本原理是先對總體的特征作出某種假設,然后通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。既然以假設為前提,那么在進行檢驗前需要提出相應的假設:
H0:原假設或零假設(nullhypothesis),即需要去驗證的假設;一般首先認定原假設是正確的,然后根據顯著性水平選擇是接受還是拒絕原假設。
H1:備擇假設(alternativehypothesis),一般是原假設的否命題;當原假設被拒絕時,默認接受備擇假設。
如原假設是假設總體均值μ=μ0,則備擇假設為總體均值μ≠μ0,檢驗的過程就是計算相應的統計量和顯著性概率,來驗證原假設應該被接受還是拒絕。
T檢驗
T檢驗(TTest)是最常見的一種假設檢驗類型,主要驗證總體均值間是否存在顯著性差異。T檢驗屬于參數假設檢驗,所以它適用的范圍是數值型的數據,在網站分析中可以是訪問數、獨立訪客數、停留時間等,電子商務的訂單數、銷售額等。T檢驗還需要符合一個條件——總體符合正態分布。
這里不介紹t統計量是怎么計算的,基于t統計量的顯著性概率是怎么查詢的,其實這些計算工具都可以幫我們完成,如果有興趣可以查閱統計類書籍,里面都會有相應的介紹。這里介紹的是用Excel的數據分析工具來實現T檢驗:
Excel默認并沒有加載“數據分析”工具,所以需要我們自己添加加載項,通過文件—選項—加載項—勾選“分析工具庫”來完成添加,之后就可以在“數據”標簽的最右方找到數據分析這個按鈕了,然后就可以開始做T檢驗了,這里以最常見的配對樣本t檢驗為例,比較某個電子商務網站在改版前后訂單數是否產生了顯著性差異,以天為單位,抽樣改版前后各10天的數據進行比較:
改版前訂單數改版后訂單數
首先建立假設:
H0:μ1=μ2,改版前后每天訂單數均值相等;
H1:μ1≠μ2,改版前后每天訂單數均值不相等。
將數據輸入Excel,使用Excel的數據分析工具,選擇“t檢驗:平均值的成對二樣本分析”,輸出檢驗結果:
看到右側顯示的結果是不是有點暈了,看上去有點專業,其實也并不難,只要關注一個數值的大小——單尾的P值,這里是0.00565,如果需要驗證在95%的置信水平下的顯著性,那么0.00565顯然小于0.05(1-95%),拒絕零假設,認為改版前后的訂單數存在顯著性差異。簡單說下為什么選擇單尾顯著性概率P,而不是雙尾,對于大部分網站分析的應用環境,我們一般需要驗證改動前后數值是否存在明顯提升或下降,所以一般而言只會存在一類可能——或者提升或者下降,所以只要檢驗單側的概率即可,就像上面例子中改版后的訂單數均值1240.6大于改版前的1097.3,我們需要驗證的就是這種“大于”是否是顯著的,也就是做的是左側單邊檢驗,這種情況下只要關注單尾的顯著性概率P即可。
卡方檢驗
卡方檢驗(chi-squaretest),也就是χ2檢驗,用來驗證兩個總體間某個比率之間是否存在顯著性差異??ǚ綑z驗屬于非參數假設檢驗,適用于布爾型或二項分布數據,基于兩個概率間的比較,早期用于生產企業的產品合格率等,在網站分析中可以用于轉化率、BounceRate等所有比率度量的比較分析,其實在之前的文章——AbandonmentRate的影響因素進行過相關的應用。這里同樣不去介紹χ2是如何計算得到的,以及基于χ2統計量的顯著性概率的查詢等,這里直接以轉化率為例來比較網站改版前后轉化率是否發生了顯著性差異,抽樣改版前后各3天的網站分析數據——總訪問數和轉化的訪問數,用“轉化訪問數/總訪問數”計算得到轉化率:
改版前改版后
總訪問數3056733651
轉化訪問數29763698
轉化率9.74%10.99%
首先建立假設:
H0:r1=r2,改版前后轉化率相等;
H1:r1≠r2,改版前后轉化率不相等。
其實這是一個最簡單的四格卡方檢驗的例子,也無需使用SPSS(當然你足夠熟悉SPSS也可以使用類似的統計分析工具),為了簡化中間的計算步驟,我這里用Excel直接制作了一個簡單的卡方檢驗的模板,只要在相應的單元格輸入統計數據就能自動顯示檢驗的結果:
點擊下載:卡方檢驗示例
Excel中淺藍色的單元格都支持輸入,包括原用方案和測試方案的總訪問數和轉化訪問數,另外置信度95%也是支持修改了,如果你需要99%的置信水平,只要修改這個單元格即可。
怎么看檢驗結果?其實非常簡單,只要看那個紅色的“存在”單元格的顯示結果即可,上面的案例中兩者的轉化率“存在”顯著性差異,如果不存在,則該單元格相應的就會顯示“不存在”,有了這個模板對于A/BTesting等類似的數據比較也顯得非常簡單容易,或者說其實這個Excel模板就是為了A/BTesting而量身定制的。
好了,就到這里吧,其實這篇文章并不是想從專業的統計學的角度來介紹T檢驗和卡方檢驗,只是想讓大家了解這兩個方法的原理和適用條件,能夠用最簡單的方式去使用諸如此類的方法讓數據更具說服力,請繼續關注之后奉上的應用實例。(文章來源:CDA數據分析師)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25