
例6.1 不同裝配方式對生產的過濾系統數量的差異性檢驗
某城市過濾水系統生產公司,有A、B、C3種方式進行過濾水系統的裝配,該公司為了研究三種裝配方式生產的過濾系統數量是否有差異,從全體裝配工人中抽取了15名工人,然后隨機地指派一種裝配方式,這樣每個裝配方式就有5個工人。在指派裝配方法和培訓工作都完成后,一周內對每名工人的裝配過濾系統數量進行統計如下:
方法A | 方法B | 方法C |
---|---|---|
58 | 58 | 48 |
64 | 69 | 57 |
55 | 71 | 59 |
66 | 64 | 47 |
67 | 68 | 49 |
請根據數據判斷3種裝配方式有無差異
分析過程:由于目標是判斷3種裝配方式有無差異,多樣本的檢驗用方差分析
于是我們有了原假設和備擇假設
:均值不全相等
import pandas as pd
import numpy as np
from scipy import stats
# 數據
A = [58,64,55,66,67]
B = [58,69,71,64,68]
C = [48,57,59,47,49]
data = [A, B, C]
# 方差的齊性檢驗
w, p = stats.levene(*data)
if p < 0.05:
print('方差齊性假設不成立')
# 成立之后, 就可以進行單因素方差分析
f_value, p_value = stats.f_oneway(*data)
# 輸出結果
print("F_value:", f_value)
print("p_value:", p_value)
F_value: 9.176470588235295
p_value: 0.0038184120755124806
結論 選擇顯著性水平 0.05 的話,p = 0.0038 < 0.05
,故拒絕原假設。支持三種裝配方式裝配數量均值不全相等的備則假設。
例6.2 不同優惠金額對購買轉化率的差異性檢驗
某公司營銷中心為了提升銷量,針對某產品設計了3種不同金額的優惠,想測試三種優惠方式對于用戶的購買轉化率是否有顯著影響,先收集到了三種不同方式在6個月內的轉化率數據
請根據數據判斷3種不同優惠金額的轉化率有無差異
優惠A | 優惠B | 優惠C |
---|---|---|
0.043 | 0.05 | 0.048 |
0.047 | 0.048 | 0.05 |
0.051 | 0.045 | 0.047 |
0.049 | 0.055 | 0.056 |
0.045 | 0.048 | 0.054 |
0.0469 | 0.0491 | 0.0509 |
分析過程:由于目標是判斷3種不同金額的優惠券對于轉化率有無差異,多樣本的檢驗用方差分析
于是我們有了原假設和備擇假設
:認為這幾組之間的購買率不一樣
P < 0.05 拒絕原假設,傾向于支持不同優惠金額購買率不一樣的備擇假設。認為不同優惠金額會對購買率產生影響 P > 0.05 無法拒絕原假設。認為不同優惠金額不會對購買率產生影響
import pandas as pd
import numpy as np
from scipy import stats
A = [0.043 , 0.047 , 0.051 , 0.049 , 0.045 , 0.0469]
B = [0.05 , 0.048 , 0.045 , 0.055 , 0.048 , 0.0491]
C = [0.048 , 0.05 , 0.047 , 0.056 , 0.054 , 0.0509]
data = [A, B, C]
# 方差的齊性檢驗
w, p = stats.levene(*data)
if p < 0.05:
print('方差齊性假設不成立')
# 成立之后, 就可以進行單因素方差分析
f_value, p_value = stats.f_oneway(*data)
# 輸出結果
print("F_value:", f_value)
print("p_value:", p_value)
# F_value: 2.332956563862427
# p_value: 0.13116820340181937
結論 選擇顯著性水平 0.05 的話,p = 0.1311 > 0.05
,故無法拒絕原假設。認為不同優惠金額不會對購買率產生影響
這里的等重復實驗,意思就是針對每個組合做大于等于兩次的實驗,比如下方例子中表里A1和B1的組合里面有2個數字,即說明做了兩次實驗,如果是3個數字則說明3次實驗,依次類推。
例6.3 不同燃料種類和推進器的火箭射程差異性檢驗
火箭的射程與燃料的種類和推進器的型號有關,現對四種不同的燃料與三種不同型號的推進器進行試驗,每種組合各發射火箭兩次,測得火箭的射程如表(以海里計)(設顯著性水平為0.05)
燃料 | B1 | B2 | B3 |
---|---|---|---|
A1 | 58.2 , 52.6 | 56.2 , 41.2 | 65.3 , 60.8 |
A2 | 49.1 , 42.8 | 54.1 , 50.5 | 51.6 , 48.4 |
A3 | 60.1 , 58.3 | 70.9 , 73.2 | 39.2 , 40.7 |
A4 | 75.8 , 71.5 | 58.2 , 51.0 | 48.7 , 41.0 |
import numpy as np
import pandas as pd
d = np.array([[58.2, 52.6, 56.2, 41.2, 65.3, 60.8],
[49.1, 42.8, 54.1, 50.5, 51.6, 48.4],
[60.1, 58.3, 70.9, 73.2, 39.2, 40.7],
[75.8, 71.5, 58.2, 51.0, 48.7,41.4]
])
data = pd.DataFrame(d)
data.index=pd.Index(['A1','A2','A3','A4'],name='燃料')
data.columns=pd.Index(['B1','B1','B2','B2','B3','B3'],name='推進器')
# pandas寬表轉長表
data = data.reset_index().melt(id_vars =['燃料'])
data = data.rename(columns={'value':'射程'})
data.sample(5)
燃料 | 推進器 | 射程 |
---|---|---|
A2 | B3 | 48.4 |
A3 | B2 | 73.2 |
A3 | B3 | 39.2 |
A4 | B1 | 71.5 |
A2 | B2 | 54.1 |
import statsmodels.api as sm
from statsmodels.formula.api import ols
# 進行雙因素方差分析
model = ols('射程~C(燃料) + C(推進器)+C(燃料):C(推進器)', data =data).fit()
# 打印方差分析表
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table
sum_sq | df | F | PR(>F) | |
---|---|---|---|---|
C(燃料) | 261.675 | 3 | 4.41739 | 0.025969 |
C(推進器) | 370.981 | 2 | 9.3939 | 0.00350603 |
C(燃料):C(推進器) | 1768.69 | 6 | 14.9288 | 6.15115e-05 |
Residual | 236.95 | 12 | nan | nan |
結論:
對燃料因素來說,其p = 0.0259 < 0.05
所以拒絕,認為燃料對射程影響顯著;
對推進器因素來說,其p = 0.0035 < 0.05
,所以拒絕,認為推進器對射程影響顯著;
對燃料和推進器的交互因素來說,其p = 0.000062< 0.05
,所以拒絕,認為交互因素其對射程影響顯著。
在等重復實驗中,我們為了檢驗實驗中兩個因素的交互作用,針對每對組合至少要做2次以上實驗,才能夠將交互作用與誤差分離開來,在處理實際問題時候,如果我們一直不存在交互作用,或者交互作用對實驗指標影響極小,則可以不考慮交互作用,此時每對組合只做一次實驗,類似下方例子中的表中數據:
例6.4 不同時間、不同地點顆粒狀物含量差異性檢驗 無重復實驗
下面給出了在5個不同地點、不同時間空氣中的顆粒狀物(單位:mg/m°)含 量的數據記錄于表中,試在顯著性水平下檢驗不同時間、不同地點顆粒狀物含量有無顯著差異?(假設兩者沒有交互作用〉
因素B -地點 | ||||||
---|---|---|---|---|---|---|
因素A - 時間 | ||||||
1995年10月 | 76 | 67 | 81 | 56 | 51 | |
1996年01月 | 82 | 69 | 96 | 59 | 70 | |
1996年05月 | 68 | 59 | 67 | 54 | 42 | |
1996年08月 | 63 | 56 | 64 | 58 | 37 |
import numpy as np
import pandas as pd
d = np.array([
[76,67,81,56,51],
[82,69,96,59,70],
[68,59,67,54,42],
[63,56,64,58,37]])
data = pd.DataFrame(d)
data.index=pd.Index(['1995年10月','1996年01月','1996年05月','1996年08月'],name='時間')
data.columns=pd.Index(['B1','B2','B3','B4','B5'],name='地點')
# pandas寬表轉長表
data = data.reset_index().melt(id_vars =['時間'])
data = data.rename(columns={'value':'顆粒狀物含量'})
data.sample(5)
隨機查看5條轉化后的數據:
時間 | 地點 | 顆粒狀物含量 |
---|---|---|
1996年05月 | B4 | 54 |
1995年10月 | B4 | 56 |
1996年05月 | B3 | 67 |
1996年01月 | B2 | 69 |
1996年01月 | B3 | 96 |
import statsmodels.api as sm
from statsmodels.formula.api import ols
# 進行雙因素方差分析
model = ols('顆粒狀物含量~C(時間) + C(地點)', data =data).fit()
# 打印方差分析表
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table
sum_sq | df | F | PR(>F) | |
---|---|---|---|---|
C(時間) | 1182.95 | 3 | 10.7224 | 0.00103293 |
C(地點) | 1947.5 | 4 | 13.2393 | 0.000234184 |
Residual | 441.3 | 12 | nan | nan |
結論:
對時間因素來說,其p = 0.001033 < 0.05
所以拒絕,認為時間對顆粒狀物含量影響顯著;
對地點因素來說,其p = 0.000234 < 0.05
,所以拒絕,認為地點對顆粒狀物含量影響顯著;
下期將為大家帶來《統計學極簡入門》之相關分析
這里分享一個你一定用得到的小程序——CDA數據分析師考試小程序。
它是專為CDA數據分析認證考試報考打造的一款小程序??梢詭湍憧焖賵竺荚?、查成績、查證書、查積分,通過該小程序,考生可以享受更便捷的服務。
掃碼加入CDA小程序,與圈內考生一同學習、交流、進步!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25