熱線電話:13121318867

登錄
首頁大數據時代什么是卡方分布?它與卡方檢驗有關系嗎?
什么是卡方分布?它與卡方檢驗有關系嗎?
2020-08-03
收藏

卡方分布是著名的三大抽樣分布之一,在各種統計檢驗中都有著重要的意義。小編今天就跟大家分享一下有關卡方分布的一些理論知識,希望對于大家有所幫助。

一、什么是卡方分布?

1、卡方分布來源

卡方分布是阿貝(Abbe)在1863年首次提出的,后來由海爾墨特(Hermert)以及現代統計學的奠基人之一的卡·皮爾遜(C.K. Pearson)分別在1875年和1900年推導出來,是統計學中的非常實用的一個有名的分布。

2、卡方分布定義

概率密度

設X為自由度為的卡方隨機變量, 那么它的概率密度函數就是

R代碼繪制:


x <- seq(0, 60, 0.005)

f_nx <- function(x, n){
  x^(n/2-1)*exp(-x/2)/(2^(n/2)*gamma(n/2))
}
## 當然你也可以用R自帶的 dchisq()函數來計算概率密度

n <- 1
plot(x, f_nx(x, n), type='l', ylim=c(0, 0.25), ylab=expression(f[n](x)))
text(3, 0.25, paste('n =', n))

n <- 4
lines(x, f_nx(x, n), type='l', col='red')
text(5, 0.17, paste('n =', n) , col='red')

n <- 10
lines(x, f_nx(x, n), type='l', col='blue')
text(12, 0.1, paste('n =', n) , col='blue')

n <- 20
lines(x, f_nx(x, n), type='l', col='purple')
text(20, 0.075, paste('n =', n) , col='purple')

n <- 30
lines(x, f_nx(x, n), type='l', col='green')
text(30, 0.062, paste('n =', n) , col='green')

n <- 40
lines(x, f_nx(x, n), type='l', col='pink')
text(44, 0.05, paste('n =', n) , col='pink')
 


當自由度n越大,概率密度曲線越趨于對稱

4、χ2 變量性質:

卡方分布擁有具有k個自由度的,是一個由k個獨立標準正態隨機變量的和而構成的分布通常用于卡方檢驗中。

二、什么是卡方檢驗?

1、卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。屬于非參數檢驗,主要是對兩個或兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析進行對比??ǚ綑z驗的根本思想就是比較理論頻數和實際頻數的吻合程度或者擬合優度問題。/2、卡方檢驗的計算公式為:

其中,A是實際值,T是理論值。

x2是用于衡量實際值與理論值的差異程度的,這也是卡方檢驗的核心思想,其主要包含了以下兩個信息:

1. 實際值與理論值偏差的絕對大小(由于平方的存在,差異是被放大的)

2. 差異程度與理論值的相對大小

3、

對某無序分類變量各水平在兩組或多組間的分布是否一致進行考察可以說是卡方檢驗最主要的用途了,除此之外.卡方檢驗還有很多其他用途。主要可以分為以下幾個方面:

(1)檢驗某個連續變量的分布與某種理論分布是否一致。

(2)檢驗某個分類變量各類出現的概率與指定概率是否一致。

(3)檢驗某兩種方法的結果是否保持一致。

(4)檢驗某兩個分類變量是不是相互獨立的。

(5)檢驗控制某種或者某幾種分類因素的作用之后,判斷兩個分類變量是不是相互獨立的。

推薦學習書籍
《CDA一級教材》適合CDA一級考生備考,也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校,累計已有10萬+在讀~

免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢