【從零開始學統計】8.樣本好才是真的好！-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀【從零開始學統計】8.樣本好才是真的好！

【從零開始學統計】8.樣本好才是真的好！

2014-07-04

收藏

之前做的幾個系列都得到了大家的支持，也有很多童鞋指出了樓主寫的紕漏，樓主很感謝大家（這樣才能有進步嘛……）。
   那么這次樓主想說說抽樣的問題。抽樣這個話題，其實有那么點……一般作分析的都是處于數據處理或者處理的后期了，而抽樣問題則是在設計樣本抽樣框時會遇到的，屬于數據搜集的前期（甚至決定著數據的搜集）。做后期的，前期怎樣其實后期的并不關心，但如何抽樣卻能決定樣本的好壞，大致了解下總有好處（當然繁雜的諸如如何確定樣本量之類的公式這里就不出現了）。

首先，暫從概念講起：
   簡單隨機抽樣也稱單純隨機抽樣，是指從總體N個單位中任意抽取n個單位作為樣本,使每個可能被抽中樣本概率相等的一種抽樣方式。
   分層抽樣又稱分類抽樣或類型抽樣，它首先將總體的N個單位分成互不交叉、互不重復的k個部分，我們稱之為層；然后在每個層內分別抽選n1、n2、... nk個樣本。

分層抽樣的優點：分層抽樣的優點是可以降低總的抽樣誤差，在全國性抽樣調查設計中經常使用分層抽樣方法。

整群抽樣是首先將總體中各單位歸并成若干互不交叉、互不重復的集合，稱之為群；然后以群為抽樣單位抽取樣本的一種抽樣方式。

整群抽樣的優點：整群抽樣的優點是實施方便、節省經費；缺點是往往由于不同群之間的差異較大，由此而引起的抽樣誤差往往大于簡單隨機抽樣。在全國性人口、社會抽樣調查中，整群抽樣是經常采用的方法。

   等距抽樣也稱系統抽樣或機械抽樣，它首先將總體中各單位按一定順序排列,根據樣本容量要求確定抽選間隔。然后隨機確定起點，每隔一定間隔抽取一個單位。等距抽樣在全國性人口、社會抽樣調查中經常采用。還有很多其他的抽樣方法比如多階段抽樣，雙重抽樣，PPS抽樣等……這里就不做贅述了。
     這些抽樣方法往往我們會結合起來一起用，比如，我們要了解某市400個國營企業的生產經營情況，決定采取類型隨機抽樣法抽取20個企業作為樣本進行調查。那么首先，將這400個企業按產業（也可按行政區劃、盈利情況、規模大小等）分為三類，假定第一類產業40個，第二類產業200個，第三類產業160個。然后，按各類企業在總體中的比重，確定各類企業抽取樣本單位的數量。其中，第一類產業的企業占總體10%，按比例應抽樣本企業2個；按同樣方法計算，第二類產業中應抽樣本企業10個，第三類產業中應抽樣本企業8個。最后，采用簡單隨機抽樣或等距隨機抽樣方法，從各類企業中抽出上述數量的樣本單位。那么這個小例子中就先分層然后再用簡單或者系統抽樣法。

☆提問時間到：
Q：整群抽樣和分層抽樣有什么區別？
A：這個問題在剛接觸抽樣，特別是當老師吧啦吧啦說了一大堆不同的抽樣方法后，腦子會出現短時間的短路~~于是這個問題就冒出來了。我相信不是樓主一個人產生過這個疑問。簡單點說吧，整群和分層都是把總體給劃分開來，區別在于一個是對群的隨機，一個是對層內的隨機。一個總體可以分為N個群，然后在群內進行普查，于是整群抽樣出現了；而根據差異將總體分層，然后在層內進行隨機抽樣即使分層抽樣了（樓主表達上的不嚴謹歡迎大家即使拍磚指出）。最后一句話總結：先分群再普查=整群抽樣；先區分在隨機=分層抽樣。兩者在劃分層或群的時候也有區別：分層希望層與層之間區別越大越好但層內則差異越小越好；整群則希望群與群之間差異越小越好，這樣抽出的群才不會太偏。

Q：如何決定用哪種抽樣方法？?
A：由于三種抽樣方法適應的范圍不同,對于給定的抽樣問題首先要選擇相匹配的抽樣方法.只有理解三種抽樣方法的含義,才會做到這一點.看下面的幾個例子:
  問題1:某市為了支援西部教育事業,現從報名的18名志愿者中選取6人組成志愿小組.為了保證對每個志愿者的公平性,如何確定志愿小組的名單.
問題2:某學校有在編教師160人.其中老年教師16人,中年教師112人,青年教師32人.教育部門為了了解教師的健康狀況,要從中抽取一個容量為20的樣本.試確定用何種方法抽取.
問題3:某工廠平均每天生產某種零件大約1000件,要求產品檢驗員每天抽取50件,檢查其質量狀況.試問運用那種抽樣方法最合理.
  剖析:問題1的總體中的個體數目較少,運用簡單隨機抽樣法抽樣;簡單隨機抽樣法有兩種,分別為抽簽法和隨機數法,兩法皆適合此題;問題2中的總體由差異明顯的幾部分組成,故采用分層抽樣法抽樣;問題3中的總體容量大,樣本容量也大,可用系統抽樣法抽樣.

四種抽樣方法的抽樣誤差大小一般是：整群抽樣≥單純隨機抽樣≥系統抽樣≥分層抽樣

360截圖20140522214020856.jpg

那么接下去大家一定關心樣本大小的確定，樣本容量的大小取決于許多因素，其中主要有以下三方面：
　　1. 研究對象總體的性質?？傮w的大小及其分布的離散程序是決定樣本大小的首要條件。一般來說，總體越大，相應需要的樣本容量越大?？傮w的離散程度越大，相應需要的樣本容量也越大。
　　2. 研究目標、方法和研究者的經費、經驗、時間、精力等主客觀條件。
　　3. 研究結果的統計分析方法。一般情況下不小于30，這是根據樣本分布的原理確定的。因素分析等多元統計方法，所需的樣本容量一般為變量的10-20倍，最少不能少于5倍。若是為了檢驗誤差和推論可能出現的錯誤的概率，需要用公式計算樣本數目（具體的方法可參閱有關統計方面的書籍）當中涉及的情況過多，這里不作介紹。

tips:在計算樣本容量時，必須知道總體的方差，而在實際抽樣調查前，往往總體的方差是未知的。在實際操作時，可以用過去的資料，若過去曾有若干個方差，應該選擇最大的，以保證抽樣估計的精確度；也可以進行一次小規模的調查，用調查所得的樣本方差來替代總體的方差。

困惑的是：既然總體是要調查的，若這個總體本沒有任何歷史資料可供參考，小規模的調查本身就是一次抽樣，那這小規模的抽樣樣本容量怎么確定？（這貌似進入死循環了……）有木有同志能給個解決辦法??？

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

統計分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇隨機森林 vs XGBoost vs 決策樹：算法選擇中的

下一篇圖論在大數據分析中的作用！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊