熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學統計】8.樣本好才是真的好!
【從零開始學統計】8.樣本好才是真的好!
2014-07-04
收藏
之前做的幾個系列都得到了大家的支持,也有很多童鞋指出了樓主寫的紕漏,樓主很感謝大家(這樣才能有進步嘛……)。
       那么這次樓主想說說抽樣的問題。抽樣這個話題,其實有那么點……一般作分析的都是處于數據處理或者處理的后期了,而抽樣問題則是在設計樣本抽樣框時會遇到的,屬于數據搜集的前期(甚至決定著數據的搜集)。做后期的,前期怎樣其實后期的并不關心,但如何抽樣卻能決定樣本的好壞,大致了解下總有好處(當然繁雜的諸如如何確定樣本量之類的公式這里就不出現了)。

首先,暫從概念講起:
       簡單隨機抽樣也稱單純隨機抽樣,是指從總體N個單位中任意抽取n個單位作為樣本,使每個可能被抽中樣本概率相等的一種抽樣方式。
       分層抽樣又稱分類抽樣或類型抽樣,它首先將總體的N個單位分成互不交叉、互不重復的k個部分,我們稱之為層;然后在每個層內分別抽選n1、n2、... nk個樣本。
  • 分層抽樣的優點:分層抽樣的優點是可以降低總的抽樣誤差,在全國性抽樣調查設計中經常使用分層抽樣方法。
        整群抽樣是首先將總體中各單位歸并成若干互不交叉、互不重復的集合,稱之為群;然后以群為抽樣單位抽取樣本的一種抽樣方式。
  • 整群抽樣的優點:整群抽樣的優點是實施方便、節省經費;缺點是往往由于不同群之間的差異較大,由此而引起的抽樣誤差往往大于簡單隨機抽樣。在全國性人口、社會抽樣調查中,整群抽樣是經常采用的方法。
       等距抽樣也稱系統抽樣或機械抽樣,它首先將總體中各單位按一定順序排列,根據樣本容量要求確定抽選間隔。然后隨機確定起點,每隔一定間隔抽取一個單位。等距抽樣在全國性人口、社會抽樣調查中經常采用。還有很多其他的抽樣方法比如多階段抽樣,雙重抽樣,PPS抽樣等……這里就不做贅述了。
       這些抽樣方法往往我們會結合起來一起用,比如,我們要了解某市400個國營企業的生產經營情況,決定采取類型隨機抽樣法抽取20個企業作為樣本進行調查。那么首先,將這400個企業按產業(也可按行政區劃、盈利情況、規模大小等)分為三類,假定第一類產業40個,第二類產業200個,第三類產業160個。然后,按各類企業在總體中的比重,確定各類企業抽取樣本單位的數量。其中,第一類產業的企業占總體10%,按比例應抽樣本企業2個;按同樣方法計算,第二類產業中應抽樣本企業10個,第三類產業中應抽樣本企業8個。最后,采用簡單隨機抽樣或等距隨機抽樣方法,從各類企業中抽出上述數量的樣本單位。那么這個小例子中就先分層然后再用簡單或者系統抽樣法。

☆提問時間到:
Q:整群抽樣和分層抽樣有什么區別?
A:這個問題在剛接觸抽樣,特別是當老師吧啦吧啦說了一大堆不同的抽樣方法后,腦子會出現短時間的短路~~于是這個問題就冒出來了。我相信不是樓主一個人產生過這個疑問。簡單點說吧,整群和分層都是把總體給劃分開來,區別在于一個是對群的隨機,一個是對層內的隨機。一個總體可以分為N個群,然后在群內進行普查,于是整群抽樣出現了;而根據差異將總體分層,然后在層內進行隨機抽樣即使分層抽樣了(樓主表達上的不嚴謹歡迎大家即使拍磚指出)。最后一句話總結:先分群再普查=整群抽樣;先區分在隨機=分層抽樣。兩者在劃分層或群的時候也有區別:分層希望層與層之間區別越大越好但層內則差異越小越好;整群則希望群與群之間差異越小越好,這樣抽出的群才不會太偏。

Q:如何決定用哪種抽樣方法??
A:由于三種抽樣方法適應的范圍不同,對于給定的抽樣問題首先要選擇相匹配的抽樣方法.只有理解三種抽樣方法的含義,才會做到這一點.看下面的幾個例子:
    問題1:某市為了支援西部教育事業,現從報名的18名志愿者中選取6人組成志愿小組.為了保證對每個志愿者的公平性,如何確定志愿小組的名單.
    問題2:某學校有在編教師160人.其中老年教師16人,中年教師112人,青年教師32人.教育部門為了了解教師的健康狀況,要從中抽取一個容量為20的樣本.試確定用何種方法抽取.
    問題3:某工廠平均每天生產某種零件大約1000件,要求產品檢驗員每天抽取50件,檢查其質量狀況.試問運用那種抽樣方法最合理.
    剖析:問題1的總體中的個體數目較少,運用簡單隨機抽樣法抽樣;簡單隨機抽樣法有兩種,分別為抽簽法和隨機數法,兩法皆適合此題;問題2中的總體由差異明顯的幾部分組成,故采用分層抽樣法抽樣;問題3中的總體容量大,樣本容量也大,可用系統抽樣法抽樣.

四種抽樣方法的抽樣誤差大小一般是:整群抽樣≥單純隨機抽樣≥系統抽樣≥分層抽樣

360截圖20140522214020856.jpg

那么接下去大家一定關心樣本大小的確定,樣本容量的大小取決于許多因素,其中主要有以下三方面:
  1. 研究對象總體的性質??傮w的大小及其分布的離散程序是決定樣本大小的首要條件。一般來說,總體越大,相應需要的樣本容量越大??傮w的離散程度越大,相應需要的樣本容量也越大。
  2. 研究目標、方法和研究者的經費、經驗、時間、精力等主客觀條件。
  3. 研究結果的統計分析方法。一般情況下不小于30,這是根據樣本分布的原理確定的。因素分析等多元統計方法,所需的樣本容量一般為變量的10-20倍,最少不能少于5倍。若是為了檢驗誤差和推論可能出現的錯誤的概率,需要用公式計算樣本數目(具體的方法可參閱有關統計方面的書籍)當中涉及的情況過多,這里不作介紹。

tips:在計算樣本容量時,必須知道總體的方差,而在實際抽樣調查前,往往總體的方差是未知的。在實際操作時,可以用過去的資料,若過去曾有若干個方差,應該選擇最大的,以保證抽樣估計的精確度;也可以進行一次小規模的調查,用調查所得的樣本方差來替代總體的方差。

       困惑的是:既然總體是要調查的,若這個總體本沒有任何歷史資料可供參考,小規模的調查本身就是一次抽樣,那這小規模的抽樣樣本容量怎么確定?(這貌似進入死循環了……)有木有同志能給個解決辦法???

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢