熱線電話:13121318867

登錄
首頁精彩閱讀大數據僅僅是概念__還是有實用性工具?
大數據僅僅是概念__還是有實用性工具?
2014-09-03
收藏

     從去年開始,進入大數據時代,不管是互聯網行業還是其他行業,“大數據”一詞開始頻繁出現。大數據僅僅是概念,還是有實用性工具?

  “概念”性質的東西在中國的互聯網圈子總是可以快速傳播,這里面有很多原因,其中就有整體氛圍所致:大多數互聯網的創業者都是希望通過前瞻性的 創新來改變世界,受到資本追捧,最終套現。在這個過程中,概念飛快的傳播、包裝,成為各種打著標簽的產品。而實用主義者只被動接受,缺乏正確認知深刻的探 索。


  從下圖可以看出,2008年大數據概念開始傳播后,在百度和Google的“大數據”和“Big Data”的檢索趨勢(下圖數據中Baidu的PV加權處理,和Google相等同來體現趨勢對比):


  大數據這詞,百度的中文檢索的爆炸性遠遠高出英文的Google檢索。

  這就是硅谷臭名昭著的技術成熟度曲線(炒作周期),而在國內互聯網行業被傳承和發揚的更厲害。

  開個玩笑:“目前的大數據在國內,就好比是一堆青春期的孩子在談論“性”,每個人都喜歡談,如果不談就好像自己不正常,但只是很少人真正有經驗。真正有經驗的,卻又閉口不言,笑笑而已”。互聯網行業發展迅速,這些孩子早晚都會成人,但是目前為止,絕大多數受益者只是那些打著標簽的廠商,就好比賣給青春期孩子非法出版物的商販。


大數據到底是什么?

  那到底什么是大數據呢?大數據僅僅是個概念還是有真正的未來呢?

  首先,所有的數據的作用,都是尋找規律。

  唯物主義辯證法說:世界是物質的,物質是運動的,運動是有規律的,而規律是可以掌握的。不管是最早的統計學,計算機出現后的數據分析,數據挖掘,以及到現在的大數據。我們都是在探索世界中的規律,試圖通過規律來了解這個世界。


  在沒有出現計算機和互聯網的時代,前輩科學家奠定了數學和統計學的基礎。計算機出現后,對數據的存儲和計算能力大幅度增加,整理和分析數據的能力也在大大增加。而互聯網的出現和發展,讓搜集的手段進一步豐富,數據量大大增加。通過數據找規律的這個游戲也在不斷的豐富。


  這個過程,數據一方面越來越大,另一方面越來越“小”的,怎么說呢:這個過程的進化可以簡單的說成“對整體樣本的覆蓋” 和“對微觀數據價值的發掘”。數據的精髓在于抽樣和模型,因為技術手段不可能獲取所有的對象特征,只能通過部分模擬全部,通過抽象模型來描述對象。而計算 機和互聯網出現后,對信息獲取能力,和對數據的分析和挖掘能力大大加強,對試圖探索的樣本覆蓋越來越大,而對對象本身的描述越來越細致。


  好比我們想知道這一車蘋果的質量。以前只隨機抽樣100個,看看外觀有沒有生蟲壞損;現在抽樣7000個,每一個蘋果用30多項數據來描述蘋果特征和質量。以后不需要抽樣了100%的都獲取數據,然后每個蘋果100多項數據描述特征和質量,甚至整個生長周期數據。


  但是不管是統計學,數據分析,數據挖掘,還是現在的大數據。我們的任務自始至終沒有變化:通過收集、整理、分析數據等手段,來尋找規律、推斷本質、甚至預測未來。



     不管在任何一個階段,這個任務都是有局限的,我們僅僅可以推測對象本質的一部分而不是全部。在技術手段發展到一定階段可以產生新的技術和方法論,也可以在推測和預測上更近一步,走出的這一步可以大大提高生產力,這也是大數據的價值所在。


具體的行業中舉例

  接下來我們選擇一個更容易抽象舉例的行業來說明:籃球(NBA)。

  在NBA的早期,由于商業化程度不夠,對一場比賽的數據統計非常有限,不管是球員、教練、或者球隊經理對球員的認識都是在一種直覺上,或是最基礎的一些統計。


  1986年NBA開始了完整的數據統計。所以現在的新聞都愛用:“自從1986有統計以來,這是第N個球員單場打出xxx數據……”NBA的統計正式進入了現代,數據庫技術的成功應用,讓你可以從www.nba.com 隨意找到歷史數據。


  也從這一天起,另一個話題浮現了。正如我們喜歡把武俠小說人物武藝列高低、列座次,數據完整化之后,大量的數據引用成了媒體的新愛好。于是, “得分利器”、“防守悍將”、“投籃大師”這些詞匯,逐漸被“每場能得多少分”、“完成多少個籃板+封蓋”、“投籃命中率”等覆蓋了。所有的球迷都開始喜 歡數據了。


  但是只看數據,又會很難理解:年輕時的馬布里,一個場均20分7.6助攻的人,怎么會被叫做獨狼?看數據,會難以理解,鮑文這個數據平淡無奇, 搶斷毫不華麗的家伙,防守卻遠比兩屆搶斷王魔術師強大得多?又怎么能理解, 斯塔德邁爾職業生涯場均8.8籃板1.4蓋帽,加內特在凱爾特人也就場均8.9籃板1.4蓋帽,但KG的防守和斯塔德邁爾,那就是天壤之別呢?


  實際上,就是因為數據太單一,對球員的微觀數據的描述太少,根本無法只用數據來描述一個球員在球場上發揮的作用或者特點。

  21世紀,細節化微觀數據越來越多的被融入NBA,專業的NBA數據挖掘公司Synergy Sports出現了?!禨I》披露過一份籃球之神喬丹的專業統計:公牛80.2%的進攻要經他之手; 83.9%的投籃是跳投;54.3%的投籃來自于球場右側;17%的進攻來自拉開單打;單打時運2.67步后拔起跳投;對手干擾到位情況下,命中率是 46.3%;等等。


  到了這一地步,數據開始進入到新的時代。而今年的NBA季后賽,美國媒體開始把場均奔跑距離,速度,最快速度等等也加入到了分析的維度。新的技術手段加大了微觀數據價值的發掘。也許我們可以稱之為:大數據。


正確的看待大數據

  數據的確不會說謊。但要精準說明一件事,需要足夠多的數據,和足夠微觀的挖掘。但數據,永遠不會足夠多。例如籃球比賽,數據與感知,會永遠的交 織下去。越來越多的數據模型,會給出無限接近印象的結果;但是當數據或感知任何一方一統天下時,談論籃球,也就不復有樂趣了。而不論對數據多么了解,也需 要教練設計戰術、發揮球員特定,激勵團隊士氣,才能贏得比賽,數據本身不會“贏球”。


  大數據是一種進步,但是我們完全沒有必要神話,更沒有必要妖魔化。大數據是一種概念,也只是我們認知世界發展到目前階段順理成章的產物。理智的看待大數據,讓好的為生產和研究服務,更多的發揮我們自己的創新性和主觀能動性,會更有價值。

                                                                                                                                       數據分析師

  

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢