熱線電話:13121318867

登錄
首頁精彩閱讀CDA LEVEL 1 考試,知識點匯總《數據采集方法》
CDA LEVEL 1 考試,知識點匯總《數據采集方法》
2024-10-05
收藏

一、數據的來源

一手數據 vs 二手數據

1.一手數據(Primary data)

也稱為原始數據。顧名思義,是指直接獲取,沒有經過加工或者第三方傳遞獲得的數據。比如傳統調研中的問卷測評、 小組訪談、面對面溝通等形式獲得的數據,或者是互聯網時代用戶直接填寫的個人信息數據以及平臺抓取的行為數據等等。

2.二手數據(Secondary data)

主要是相對于一手數據而言,指的是通過第三方或者是現有的數據資料獲取的數據。比如國家統計局數據、知名文獻中 羅列的數據等等。 一手數據的來源渠道,一般比較固定,往往是和自身直接相關。比如搭建的網站,組織的活動,開 展的 調研等。而二手數據則相對比較多樣化,凡是會產出數據相關信息的第三方機構都可以作為來源渠道。

3.優劣勢分析

一手數據和二手數據,在實際應用中都是非常重要的。它們不同的優缺點,可以很好地互補,從而幫助企業在效果和效 率間找到比較好的平衡。

CDA LEVEL 1 考試,知識點匯總《<a href='/map/shujucaiji/' style='color:#000;font-size:inherit;'>數據采集</a>方法》

在實際項目中,一般會把兩類數據進行結 合??偨Y來看,一手和二手數據的選擇, 可以參考右圖的形式進行判斷。

CDA LEVEL 1 考試,知識點匯總《<a href='/map/shujucaiji/' style='color:#000;font-size:inherit;'>數據采集</a>方法》

同時,在一手數據的使用過程,需要特別 注意的是,要對采集回來的數據進行邏輯 合理性驗證。

而二手數據,因為收集的過程由第三方完 成。因此數據的可信性和準確度,就依賴 于第三方機構的可信性。

二、抽樣方法

如何獲取一手數據?

當我們需要獲取一手數據的時候,一種常用的方式就是抽樣調查。 抽樣調查不止在傳統行業中比較常用,在現在互聯網企業中也時常會用到。比如一些優惠活動或者特定客群營銷等方案的測試,就需要 用 到抽樣的方式選擇測試群體。 在做抽樣調查時,我們都希望盡可能地減少誤差,讓抽樣的樣本能夠充分代表整體的特征。那么誤差和 哪些因素相關呢?抽樣誤差(Sampling Error)的大小,主要由樣本容量的大小和抽樣方式來決定。 一般,我們認為抽樣可以分類兩類:一類我們叫做概率抽樣(Probability Sampling),也叫作客觀抽樣。第二類,我們叫做非概率抽樣 (Non-probability Sampling),也叫作主觀抽樣。下面我們來分別介紹這兩種抽樣方法。

概率抽樣

顧名思義,是一種基于概率的抽樣方式,因此也被稱為客觀抽樣。從理論的角度來說,概率抽樣是符合科學和統計原則的,抽樣誤差可 以估計。也是在可能的情況下,最優先被推薦使用的抽樣方法。但是,精確度高的方法,往往操作的復雜度和耗費的成本也會相對偏高。 概率抽樣,雖然可以避免主觀判斷帶來的謬誤,但是它常常受限于項目經費、時間和保密性等原則,從而難以實際使用。

非概率抽樣

和概率抽樣相反,非概率抽樣是一種簡單、易使用的抽樣方式。它主要通過抽樣者的判斷,包括對樣本特征的判斷和對項目成本的考量, 綜合特殊的要求或者設定,最終選擇合適的樣本。因此,這種方法會受到主觀因素的影響,不符合統計科學的原則,抽樣誤差是無法估 計和計算的。但是在實際應用中,大量的案例還是證明了非概率誤差依然有一定的有效性。在樣本量充足的前提下,通過設定簡單的配 比,以及選擇有經驗的抽樣者,基本上可以保證抽樣結果的有效性。而且由于非概率抽樣比較容易重復操作,因此用非概率抽樣反復進 行同一試驗,結果往往也有趨同性。另外,這一抽樣方式,雖然無法衡量抽樣誤差,但是由于抽樣過程可以進行設計和控制,因此可以 更簡單有效地控制非抽樣誤差(Non-sampling Error)。

總結來說,概率抽樣和非概率抽樣,我們可以通過以下的表格進行區別:

CDA LEVEL 1 考試,知識點匯總《<a href='/map/shujucaiji/' style='color:#000;font-size:inherit;'>數據采集</a>方法》

三、概率抽樣方法

介紹了概率抽樣和非概率抽樣之后,我們重點來看一下概率抽樣方法。常用的概率抽樣方法主要有以下4種:

CDA LEVEL 1 考試,知識點匯總《<a href='/map/shujucaiji/' style='color:#000;font-size:inherit;'>數據采集</a>方法》

分層抽樣(Stratified Sampling)

正如之前提到的,簡單隨機抽樣的假設并不總是成立。如果總體可以按照一些特征分成若干層。層與層之間差異明顯,每個層內部的個 體特征相近,那么我們可以對每個層做簡單隨機抽樣。抽樣結果合并的集合,就是我們最終確認的抽樣樣本。 在實際操作中,我們可以按照每一層的個體數量來決定抽取數量,使得每個層抽取的比例都相等,這樣的抽樣我們叫做按比例分層抽樣。 一般,如果每層重要性差不多,數量差異也不是很大的情況下,我們都是這樣操作的。 而如果有一些層非常重要,或者有些層的個體數非常少,那么我們就要采取非按比例分層抽樣的方法。 如果總體中個體間呈現明顯的幾類,那么使用分層抽樣可以更好地反映總體。避免簡單隨機抽樣可能帶來的樣本集中或者特征缺失的情 況。因此,在概率抽樣中,分層抽樣也是使用最多的一種。我們在對城市,或者是大型的業務線進行研究的時候,都可以采用分層抽樣。

系統抽樣(Systematic Sampling)

除了分層抽樣之外,系統抽樣也對簡單隨機抽樣,進行了改進。使用系統抽樣的時候,仍然需要將個體進行編號,然后根據抽樣樣本容 量決定抽樣的間距。因此又叫做等距抽樣或者機械抽樣。這種方法,減少了抽樣過程中的人力和時間消耗。不過,系統抽樣一般很少作 為單獨的抽樣方法使用,通常是配合其他方法一起進行。

分段抽樣(Multi-stage Sampling)

前面提到的,都是一次性抽取完成樣本的方法,這些方法可以統稱為單階段抽樣。然而在有些情況下,我們并不能一 次性完成樣本的抽取,比如在全國范圍內選擇一定數量的用戶作為試點調查。這個時候我們需要分階段地去完成抽樣 過程,這種方法,我們叫做分段抽樣。 分段抽樣中,我們首先把總體劃分成一些大小差不多的群體。在這些群體中隨機抽取幾個。被抽中的群體,就作為下 一步進行隨機抽樣的“總體”。 因此,在學習過程中,一定要注意區分分段抽樣和分層抽樣。雖然兩者都是對總體進行了一定的劃分。但是分層抽樣 是按照一定特征進行劃分,劃分的目的是為了避免特征的過分集中和缺失。抽取的過程也是一步完成的,只有在分層 之后才會進行隨機抽樣。而分段抽樣則不同,它是由于總體太大,無法直接進行抽取,所以才需要進行多步抽樣。每 一次對總體的劃分是為了進行隨機抽取,而抽取后,下一步的“總體”就會得到一定程度的減小。

如何選擇抽樣方法?

CDA LEVEL 1 考試,知識點匯總《<a href='/map/shujucaiji/' style='color:#000;font-size:inherit;'>數據采集</a>方法》

四、例題精講

1. 二手數據的特點是( )。

A. 數據缺乏可靠性

B. 不適合自己的研究需要

C. 采集數據的成本低,但搜集比較困難

D. 采集數據的成本低,搜集比較容易

2. 與概率抽樣相比,非概率抽樣的缺點是( )。 

A. 調查成本比較高

B. 不適合探索性的研究

C. 樣本統計量的分布是確定的

D. 無法使用樣本的結果對總體相應的參數進行推斷

3. 為了估計A市愿意坐地鐵上下班的人數的比例,在收集數據時,最有可能采用的數據搜集方法是? 

A. 普查

B. 實驗

C. 隨機抽樣

D. 公開發表的資料


更多考試介紹及備考福利請點擊:CDA 認證考試中心官網




數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢