
基礎準備
兩樣本推斷性統計基礎:兩樣本估計和假設檢驗基礎。
通過對比單樣本估計和假設檢驗的學習,可以列出獨立兩樣本均值差的估計和假設檢驗在不同情況的置信區間公式,有以下總結:
兩樣本的t分布
t分布在單樣本估計和假設檢驗要求:正態總體,可以使用t分布進行兩樣本估計和假設檢驗;兩樣本估計和假設檢驗要求:除了正態總體外,還要假設兩總體方差相等(方差齊性)才能使用t分布,原因是兩總體方差相等,才能得到自由度為n1+n2-2的均值差抽樣分布的方差,推導公式如下:
參照上表,標準差已知的正態分布總體均值差抽樣分布為正態分布,可以得到獨立樣本均值差的置信區間,置信區間公式推導過程如下:
范例1:一位森林學家想知道還把高度對紅杉樹高度的影響。他測量了海平面上100棵成樹的高度(總體1,標準差已知為30英尺),高度均值為320英尺;海拔3000英尺的73棵成樹的高度(總體2,標準差已知為45英尺),高度均值為255英尺;問:兩總體均值差的95%置信區間是多少?
解:不同海拔的紅杉樹的高度可以認為是正態分布的,總體方差已知,而且不同海拔的紅杉樹是獨立樣本,可以直接用上面置信區間公式計算,過程如下:
和單樣本假設檢驗一樣(單樣本的假設檢驗),兩樣本假設檢驗問題也有一對統計假設:零假設和對立假設;同樣也存在兩側和單側假設檢驗,而且單側假設檢驗又分為右側檢驗和左側檢驗。兩樣本假設檢驗中,一般把零假設為兩均值差為0,對立假設根據題意選擇雙側假設或是單側假設;兩樣本假設檢驗的步驟和單樣本假設檢驗一樣。
從上表可知:標準差已知的正態總體均值差的抽樣分布為正態分布,進行標準正態變換后可以假設檢驗,過程見下方范例。
范例2:獨立隨機樣本取自均值未知,標準差已知的兩個正態分布總體,第一個總體,標準差為0.73,樣本容量為25,樣本均值為7.3;第二個總體,標準差為0.89,樣本容量為20,樣本均值為6.7;在顯著水平為0.01下作兩總體均值差等于0的右尾檢驗。
均值差的置信區間:標準差未知,但假定相等的正態分布總體的獨立小樣本(小于30)
如上表所示,標準差未知,但假定相等的正態分布總體小樣本,均值差的抽樣分布符合t分布,可用表中置信區間計算公式,計算過程見范例。
范例3:為研究睡眠對記憶力的影響,一位心理學家在兩種條件下對人群進行試驗,內容是有關北極野外生活的紀實電影的細節回憶,這兩種條件是:(1)電影在早上7點反映,被測人晚上睡眠正常,第二天晚上給他們50個有關電影的多項選擇題;(2)電影早7點反映,被測人白天情況如常,未睡覺,同一天晚上7點給他們50個問題,樣本是獨立的,每組為15人,結果為:第1組,均值為37.2個正確,方差為3.33;第2組,均值為35.6個正確,方差為3.24。假定兩種條件下的總體都是正態分布,且方差相等,計算總體均值差95%的置信區間。
均值差的假設檢驗:標準差未知,但假定相等的正態分布總體的獨立小樣本(小于30)
同上(置信區間),該條件下的假設檢驗適用t分布。
范例4:為檢測某種激素對失眠的影響,一個醫生給兩組臨睡前的病人服用不同劑量的激素,然后測量他們從服藥到入睡的時間,第一組服用的是5mg的劑量,第二組服用的是15mg的劑量,樣本是獨立的,結果為:第一組,樣本容量為10人,均值為14.8min,方差為4.36;第二組,樣本容量為12人,均值為10.2min,方差為4.66。假定兩個條件下的總體是正態分布,并且有同方差,在顯著水平0.02下,用臨界決策規則作零假設:兩總體均值差為0的雙側檢驗。
均值差的置信區間:標準差未知的任何總體分布的獨立大樣本(大于等于30)
對于獨立大樣本(樣本容量大于等于30),均值差的抽樣分布是正態分布,可以轉為標準正態分布,進而使用Z分布進行均值差區間估計;當然,如果是正態總體且方差是齊性的,也可以使用t分布。
范例5:一位機場管理人員讓你估計一下,兩條航線中哪一條更遵守他們的計劃起飛時間。對每條航線你隨機測量了30架飛機的計劃起飛和實際起飛時間差?,F在不能假定時間總體是正態分布,或是方差齊性的,獨立樣本結果:航線1,平均時間差12.4min,標準差3.72;航線2,平均時間差11.7min,標準差3.6。問兩條航線平均時間差的差值的99%置信區間是什么?
均值差的假設檢驗:標準差未知的任何總體分布的獨立大樣本(大于等于30)
同上的解釋:對于獨立大樣本(樣本容量大于等于30),均值差的抽樣分布是正態分布,可以轉為標準正態分布,進而使用Z分布進行均值差區間估計;當然,如果是正態總體且方差是齊性的,也可以使用t分布。
范例6:一位機場管理人員讓你估計一下,兩條航線中哪一條更遵守他們的計劃起飛時間。對每條航線你隨機測量了30架飛機的計劃起飛和實際起飛時間差?,F在不能假定時間總體是正態分布,或是方差齊性的,獨立樣本結果:航線1,平均時間差12.4min,標準差3.72;航線2,平均時間差11.7min,標準差3.6。在0.01顯著水平下,用臨界值決策規則作零假設:兩條航線延誤時間的差等于0的雙側檢驗。
均值差的置信區間:成對樣本
對于成對樣本,需要用到不同于上面描述的獨立兩樣本的估計方法,而應該用成對樣本模型,模型推導如下:
范例7:某個醫學研究中心研究一種激素用量對于睡眠的影響。為了避免隨機選擇的偶然性(例如用15mg的病人比5mg的年輕)對試驗結果的影響,于是根據可能影響睡眠的年齡、性別、健康情況一起其它因素選擇了12對病人,然后將每對病人隨機分配到5mg組和15mg組。對每個病人測量從服藥到入睡的時間,然后計算每對的時間差,結果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。由這些數據計算5mg組合15mg組的95%置信區間,假定差值的總體是正態分布。
均值差的假設檢驗:成對樣本
同上,成對樣本均值差的假設檢驗也用t分布。
范例8:某個醫學研究中心研究一種激素用量對于睡眠的影響。為了避免隨機選擇的偶然性(例如用15mg的病人比5mg的年輕)對試驗結果的影響,于是根據可能影響睡眠的年齡、性別、健康情況一起其它因素選擇了12對病人,然后將每對病人隨機分配到5mg組和15mg組。對每個病人測量從服藥到入睡的時間,然后計算每對的時間差,結果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。在顯著水平0.05下,用臨界值決策桂策做零假設:兩總體均值差為0的右側檢驗,假設差值總體是正態分布。
方差比
上一篇兩樣本估計和假設檢驗基礎講過,兩樣本均值估計和假設檢驗用均值差表示,而兩樣本方差估計和假設檢驗則應該用方差比。這里就引出了F分布(F分布回顧:兩樣本估計和假設檢驗基礎)。
方差比的置信區間:參數未知的正態分布總體的獨立樣本
范例9:為檢測某種激素對失眠的影響,一個醫生給兩組臨睡前的病人服用不同劑量的激素,然后測量他們從服藥到入睡的時間,第一組服用的是5mg的劑量,第二組服用的是15mg的劑量,樣本是獨立的,結果為:第一組,樣本容量為10人,均值為14.8min,方差為4.36;第二組,樣本容量為12人,均值為10.2min,方差為4.66。假定兩種條件下的總體都是正態分布,計算量總體方差比的90%置信區間。
范例10:為檢測某種激素對失眠的影響,一個醫生給兩組臨睡前的病人服用不同劑量的激素,然后測量他們從服藥到入睡的時間,第一組服用的是5mg的劑量,第二組服用的是15mg的劑量,樣本是獨立的,結果為:第一組,樣本容量為10人,均值為14.8min,方差為4.36;第二組,樣本容量為12人,均值為10.2min,方差為4.66。假定兩總體方差齊性,在0.01顯著水平下,用臨界值決策規則作這個假定的雙側檢驗。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25