
R語言與抽樣技術學習筆記(Jackknife)
R語言與抽樣技術學習筆記(Randomize,Jackknife,bootstrap)
Jackknife算法
Jackknife的想法在我很早的一篇博客《R語言與點估計學習筆記(刀切法與最小二乘估計)》就提到過。其思想以一言蔽之就是:將樣本視為總體,在“總體”中不放回地抽取一些“樣本”來做統計分析。今天我們來討論Jackknife應該怎么做以及為什么要這么做。
Jackknife的算法描述
Jackknife方法利用系統的劃分數據集的辦法來推測總體樣本估計量的一些性質。Quenouille建議用它來估計偏差,隨后John Tukey證實它用來估計估計量的方差也是極好的。
假設我們有隨機樣本X1,?,Xn,并從中計算統計量T去估計總體的參數μ。在Jackknife方法下,我們將給定數據集劃分為r組,每組數據量為k。
現在,我們移除樣本中第jth組數據,并用剩下的數據來估計參數μ,并將估計量記為T(?j)。T(?j)的均值Tˉˉˉ(?)可以用來估計參數μ,T(?j)也可以用來獲取估計量T更多的信息,但是必須要指出的是Jackknife不會提供比總體樣本更多的信息(任何抽樣技術都是不會的?。。。?;當T是無偏估計時,T(?j)也是,T是有偏的估計量時,T(?j)也是,但是會有一點點的不同。
我們有時也對T與T(?j)的不同進行加權處理,得到新的統計量:
這就是許多文獻中提到的Jackknife“偽值”,并將這些偽值的均值稱為“Jackknifed”T,記為T(J)。顯然 通常情況下,我們取k=1,r=n。在某些特定條件下,它是最優的。
現在我們來考慮一下Jackknife對估計量偏差與方差的估計。我們這里采用偽值來考慮問題,認為偽值的偏差就是估計量的偏差,偽值的方差就是估計量的方差。那么我們有
我們不妨取r=n,k=1,T對μ的估計的偏差肯定是,忽略高階量,那么偏差的近似估計量為:
雖然這些偽值不是獨立的,但是,我們仍不妨假設他們是獨立的,因為這樣我們利用偽值估計估計量的方差變得十分簡單:
我們以正態總體為例來考慮這個問題。
data.sim <- rnorm(30, 5, 3)
(mu.hat <- mean(data.sim))
## [1] 4.339
[plain] view plain copy
print?
n <- length(data.sim)
mu.jack <- NULL
for (i in 1:n) {
mu.jack[i] <- mean(data.sim[-i])
}
(jack.estimate <- mean(mu.jack))
## [1] 4.339
可以看到,矩估計的估計值為4.3393,Jackknife估計為4.3393,較真值5而言,估計效果還是可以的。我們還可以計算偏差:
(bias <- (n - 1) * (mean(mu.jack) - mu.hat))
## [1] 0
可以看到,這是一個無偏估計,不是嗎?
當然,要估計我們采取的估計量的方差也是可以的:
var <- mean((mu.jack - mean(mu.jack))^2) * (n - 1)
print(var)
## [1] 0.4612
可以看到估計量的方差為0.4612與正態總體均值的標準差的理論值0.3相差不大。
Jackknife與偏差糾正
我們這里將要說明Jackknife最大的作用——糾正偏差。
我們都知道,我們對參數估計最常用的辦法就是矩估計與極大似然估計。然而這兩種估計不一定是無偏的。例如[0,θ]上的均勻分布U(θ)的參數θ的極大似然估計就不是無偏的,在比如正態分布N(μ,σ)中標準差的似然估計也不是無偏的。這些很容易證明,當然,你也可以查閱王兆軍的《數理統計講義》,上面給出了詳細的說明?! ‘斎贿@些偏差我們都可以通過對估計量做一些變換得到無偏估計量,但是這些常數還是不太容易通過普適的辦法得到,而大偏差估計往往被視為估計的不足,得到一種在不增加方差的基礎上,糾正偏差的辦法是很好的,這就是我們現在討論的Jackknife。
設T(X)是基于樣本X的參數g(θ)的估計量,且滿足,Jackknife偏差修正估計量為
,Jackknife統計量具有如下性質:
證明十分的簡單,注意到J(T)的表達式,利用定義即可證明。(上一小節我們也間接地證明過了這一事實)
我們最后來看一個例子:我們知道均勻分布U(θ)的參數θ的極大似然估計是漸進無偏而非真正無偏的,我們假設樣本為x1,?,xn,θ的極大似然估計是x(n)(即樣本中的最大值),我們知道,所以似然估計的偏差是
,我們使用Jackknife看看能不能縮減方差:
data.sim <- runif(100, 0, 7)
theta.hat <- max(data.sim)
theta.jack <- NULL
for (i in 1:length(data.sim)) {
theta.jack[i] <- max(data.sim[-i])
}
n <- length(data.sim)
theta.jackestimate <- n * theta.hat - (n - 1) * mean(theta.jack)
cat("original bias is ", 7 - theta.hat, "after jackknife the bias is ", 7 -
theta.jackestimate)
## original bias is 0.002576 after jackknife the bias is -0.1084
我們從上面的運行結果可以清楚的看到Jackknife之后,偏差確實減少了。這也是符合我們的想法的,因為當k變大時,Jackknife估計更接近均值的兩倍,即它更接近矩估計,而矩估計是無偏的。當然一味追求無偏是不對的,對于一個有偏估計,其偏差趨于0時,可能導致方差變得很大。
Jackknife失效
若估計量不夠平滑,每次刪掉一個數據的Jackknife就會失效,估計也不再具備相合性。
例如:利用Jackknife方法估計從1到100中隨機抽出的10個數的中位數的標準差。
## M= 46 46 40 40 40 46 40 46 46 40
## [1] 9
我們可以看到這個估計量的標準差很不對的,因為每次缺省1個值,中位數也就至多會有兩個取值,無論你的樣本容量取值多大,這都是不對的。Enfro(1993)提出了delete K Jackknife算法解決這個問題。但是這個要求還是很高的,它要求n,k都比較大。那么好的估計方法應該是什么呢?這就要用到我們接下來將要介紹的bootstrap方法。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25