熱線電話:13121318867

登錄
首頁職業發展大數據時代抽樣的是是非非
大數據時代抽樣的是是非非
2015-12-20
收藏

大數據時代抽樣的是是非非

現在到處都在談大數據,相關的圖書里面舍恩伯格的《大數據時代》寫得最精彩也最具影響力,書中明確提出:在大數據分析和應用中,不應著眼于如何使用(隨機)抽樣技術,而應該使用大樣本來作為總體數據來使用。

大數據

  在這個背景下,大數據時代還是否需要抽樣技術以及如何使用抽樣技術引起了大家的廣泛討論,下面說說個人觀點。

  1. 在條件允許的情況下,收集數據階段盡可能獲得更多樣本,使樣本接近于總體的思路是對的。大數據時代的到來是由于數據收集、存儲和計算這幾方面條件的成熟導致數據運行成本的降低,將來數據是一種財富、一種資源,因此盡量收集數據資源是有意義的。而且抽樣得到的數據往往只能回答實現設定好的問題,而大數據不但能回答設定好的問題,也能回答某些突然出現的問題,數據越多越好。

  2. 在已經有大數據的前提下,使用大樣本數據來代替總體還是使用抽樣數據來推測總體特征取決于我們要解決的問題。如果以概括總體為目標,那么抽樣往往是比較好的方式,但這個時候面臨的理論問題和傳統抽樣問題是不同的:以前是如何從總體中隨機抽樣來推斷總體特性,現在面臨的問題是“大樣本數據是否是總體的有偏抽樣嗎”?如果是的話,如何使用大樣本數據二次生成隨機樣本來推斷總體特性。如果大數據分析不像傳統統計分析那樣以洞察總體或群體特征為目標,而是以每個個體特征分析和應用為目的,這個時候直接使用大樣本數據數據要好些,比如說通過個人搜索、購買等行為預測行業趨勢,數據的覆蓋面不可能達到百分百,這類應用中大數據本身就是樣本,但是只要數量夠大,即使不像傳統抽樣那么經過精心挑選,那么就基本上也解決了問題,但此時能明確大樣本數據和總體數據的偏差往往也是有意義的。

  3. 大數據主要表現在數據量大和數據維度多兩個層面,盡管目前分布式(map-reduce等)和實時處理(流計算,內存計算)發展迅速,但是大數據在應用過程中如果能采用小抽樣還是會節省一大筆成本,從效率和成本的角度考慮,適當和合理的抽樣是有必要的,因此算法部署環節中抽樣算法、增量計算、數據維數縮減等會是大數據應用中的重要課題,因為這些都會節省企業的計算資源。計算資源好比自來水管的水、餐桌上的飯,能省一點是一點。而且考慮到數據資源的價值可能會逐漸走高,抽樣算法的低碳環保會在大數據時代大有可為。

  4. 如果要問“在海量數據的背景下,原先以在總體隨機抽樣來判斷總體為核心思想的統計學會不會面臨危機甚至消亡?!?,我的答案是不會,只不過現在問題進行了轉化,統計學會主要研究“如何使用過采樣的有偏樣本來估計總體”,就像目前大規模社交網絡抽樣中研究的問題那樣。社交網絡的小數據量隨機抽樣往往也比較困難,但是使用隨機行走等方式獲取有偏的大數據卻非常容易,因此“大樣本=總體”的思想是錯誤的,理論上再大的局部抽樣可能不如隨機抽樣有代表性。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢