熱線電話:13121318867

登錄
首頁精彩閱讀大數據之大的數據都在哪里_數據分析師
大數據之大的數據都在哪里_數據分析師
2014-12-13
收藏

大數據之大的數據都在哪里_數據分析師


大數據蕩漾了無數創業者和技術男的春心。而它作為一個典型的2B市場,創業者們面對的是什么樣的B呢?哪些行業會擁有大數據呢?大數據通常分為四類:科研數據,互聯網數據,企業數據,和感知數據。
 
科研數據屬于大數據時代前很久就存在的史前生物,可能來自生物工程、天文望遠鏡或粒子對撞機,不一而足。這些數據存在于封閉系統中,玩家都是傳統上做高性能計算(HPC)的企業,這里不再展開。值得一提的是,常常聽到這些企業憤憤不平地說很多大數據技術是他們發明的,大數據只是某些人創造和炒作的新概念。公允地講,很多大數據技術脫胎于HPC不假。只是這些老兄也未必純潔。早在大數據作為一個新概念出現之前,他們就開始炒一個概念,Data Intensive Scalable Computing (DISC)。DISC挾數據庫老法師JimGray(彼時Jim公在微軟研究院做天文數據處理的研究)第四范式(The Fourth Paradigm)之名,居高臨下卻未能君臨天下。有很多原因,如DISC沒有Big Data響亮,Jim公離奇海上失蹤,等等。但在下認為最主要的原因還是格局小了,只盯著高富帥的科研數據,而忽略了大眾市場。
 
互聯網大數據是目前這個時代的主流,尤其社交媒體被認為是大數據的爆發點。幾乎所有的大數據技術都起源于互聯網企業。所有這些企業當中,做搜索的最大,不說谷歌,百度也達到了千PB的規模。Facebook、Yahoo等都在數百PB,Amazon、阿里應該也同在此列?;ヂ摼W數據增長的驅動力一是梅特卡夫定律(互聯網企業的價值與用戶數的平方成正比),二是扎克伯格反復引用的信息分享理論:一個人分享的信息每一到兩年翻番。
 
大型互聯網企業的大數據生態系統也比較獨特,一方面不同程度上參與開源,一方面維護自給自足的生態系統,甚至連硬件都越來越依靠自己了:從谷歌開始,后有Facebook的Open Compute Project,國內有TAB主導的天蝎計劃。大型互聯網公司不只是自身產生大體量數據,它還有平臺級的帶動作用,如Facebook之于Zynga。阿里牽頭做數據交換平臺也是件好事。
 
對于中型互聯網公司來說,基本上也能夠維持大數據技術團隊,只不過與大型互聯網公司的核心開發能力和社區貢獻能力相比,他們更多部重兵在外圍開發、優化和運維。當然,他們多少會有一些絕招,比如豆瓣的推薦,暴風的Hadoop管理。
 
三線互聯網公司有數據但沒有大數據能力,這催生了一些大數據技術和服務的機會,如百分點為電商網站做個性化推薦和營銷分析,各類廣告聯盟、移動應用服務平臺為網站和移動應用提供統計分析、營銷服務等。
 
進入移動互聯網時代后,移動平臺的感知功能和LBS的普及,使得互聯網數據與感知數據產生了重疊。同樣,企業數據和感知數據本質上也并不是所謂MECE(不重復、不遺漏)的劃分,如企業會部署物聯網收集感知數據。之所以把它們分為兩類,是傳統上認為企業數據是人產生的,感知數據是物、傳感器、標識等機器產生的。感知數據的體量要大得多,Teradata預測感知數據的總量在2015年超過社交媒體,并達到后者的10-20倍。重慶平安城市項目在薄王出事前規劃了50萬攝像頭,數據存儲需求要達到百PB級別,不亞于世界級的互聯網公司。相比而言,企業的數據比起十年前并沒有數量級的提升,只不過在傳統結構化數據的基礎上加入了非結構化數據的內容。
 
把企業數據和感知數據放在一起講是因為它們都涉及傳統產業,從經濟總量上要比互聯網產業大很多,而且傳統產業自身的大數據能力有限,所以這是大數據技術和服務企業的主要目標市場。但目前骨感的現實是就單個企業而言,具有大數據需求的并不多見。比如說麥肯錫的報告中把制造業列為大數據存量最多的行業,但很少聽到制造企業上馬大數據項目。即使有,如Zara,只是在市場營銷上加入了互聯網的招數,來自終端的需求獲得這塊有點意思,供應鏈和生產這塊相比大數據之前沒有太多新意。通過數據采集和分析來提升制造業的效率,會是個很大的市場,這是工業物聯網,但未必是大數據。
 
從行業上講,擁有大數據的主要在公共管理和服務、電信、金融、醫療和零售等方面。但啃這些客戶都不是易事:
 
   (1)  公共管理和服務領域最高可以達到百PB級,但金主是政府,能讓他們看得上眼的沒幾家,而且BOT不好玩。
 
   (2)  電信和金融可以達到數十PB級,但客大欺店,而且自身IT能力較強。
 
   (3)  醫療的瓶頸在跨醫院的數據整合,這塊目前開來只能地方牽頭做,但地方的事兒有很多裙帶關系出沒。
 
   (4)  零售業內有大數據的一定是連鎖,多數成本壓力大,議價能力強,賺他們的錢不容易。
 
從賺錢機會上來看,大數據還沒到“滿地是沙子、滿地是金子”的時候。對于大數據技術和服務公司而言,三線互聯網公司是現成的機會。而最大的蛋糕——企業數據和感知數據,目前只是聞到香味而已。好在競爭還不激烈,海外的高富帥(IBM、EMC、Microsoft等)太高太貴,平民產品(Cloudera的CDH、Hortonworks的HDP和Intel的IDH Hadoop發行版)還在學習市場,國內的互聯網大佬們似乎還未覬覦這塊蛋糕(阿里是最有可能先跨界伸手的),華為還戴著《基本法》的鐐銬徘徊在信息服務業的門口,三大電信有企圖但技術還不成熟。國內互聯網企業將再次扮演黃埔軍校,培養前仆后繼的大數據創業者。
 
最后補充一句,即使大數據還沒到大規模爆發的春天,大數據早期接納者(early adopters)的啟動還是會催生咨詢服務的市場。
 
面臨大體量數據,在思維和行動上要做什么樣的準備?——業務決策者應有的大數據觀
 
每每開會談大數據,似乎不是Hadoop就是NoSQL數據庫。究其原因,主要可能還是與會人員來自互聯網企業和技術第一線。其實,大數據是一種思維,一種戰略,而它應該是面對用戶、面向業務和應用的。業務決策者和企業IT技術人員很明顯在各種大數據峰會上缺位了。好在,前面所說的兩本書,就是為他們準備的。
 
大數據時代,需要新的世界觀。大數據開啟了一個新的世界,我們對這個世界的認知必須主動求變。
 
舊的認識是“數據是稀缺資源”,這種認識直接導致“數據小農”心態。大數據開始于數據測量,而數據小農揀著測、挑著存、采著樣來處理,總是幻想能夠從最少的數據壓榨出最多的信息。
 
而新的認識是,要參與大數據的游戲并且致勝,必須產生大數據。在大數據時代,擁有大數據是一種幸福和特權。舍恩伯格在《大數據時代》里指出三大思維變革之首就是要數據全集,不要樣本子集(其它兩大變革以后會說到)。這個思維的基礎是有全集數據。因此,每一個個體、企業和政府需要自覺、客觀、全面地去測量世界,并且把數據存下來。把數據采集和保存成為一種信仰,成為一種責任。
 
決策者需要具備的大數據觀很簡單:數據不是累贅,要投資數據采集的基礎設施,采完用完不要急著扔掉,把它存下來,數據里有很多價值(在以后講Value時會詳述),數據的存儲和搬運會越來越便宜,IT部門可以從成本中心變成利潤中心。
 
揀著測、挑著存、采著樣處理,問題在于自我選擇機制導致的低數據質量。有個老外寫了本書叫《Raw data is an oxymoron》,直譯是“原始數據的說法是一種矛盾修辭法”。因為數據不是自然資源,它不是“原始”的,它是帶著文化背景和主觀傾向的人去產生和解釋的,帶入了自我選擇機制,從前數字時代到數字時代,無一例外。所以,必須盡量地減少主觀性。第一,盡量由“機器”來決定采什么、哪里采。拿在程序里加日志為例,可以通過源代碼分析工具來自動插入日志的寫入點。第二,如果是答案產生的過程本身帶有主觀性(如民意調查),那數據采集可能需要設計成多變量(如通過問很多問題)來約束主觀誤差。第三,盡量把數據采集和存儲納入基礎框架,而不是來一個業務做一種采集/存儲方案。
 
采樣處理還有個問題,基于隨機采樣的方法可以使數據反映常態現象(個位數百分點的誤差),但容易遺漏個案的異常。由于現在經濟中的“黑天鵝現象”往往是個案異常,采樣方法可能攤上大事。
 
子沛在《大數據》里講到政府采集數據時的減負原則很重要。一旦數據采集是種負擔,它的完整性和真實性都會產生瑕疵。純軟件的數據采集還好,如果需要人力物力,決策者要適當引入激勵機制。
 
當然,在采集到大數據以后,決策者需要做的事就更多了,涉及人、文化、組織和流程等諸方面。因為今天就講大體量,這些以后再表。如果看官著急,不妨把出自Teradata的《駕馭大數據》找來看看。
 
舍恩伯格在他的另一本書《刪除》中表達了數字化時代要學會遺忘(digital forgetting)的觀點,講述了數據太多的煩惱和風險。這與全集思維并不矛盾。大數據的低信息密度和高冗余度不排除采取刪除(如去冗余)的手段,在很多場合下還需要匿名化(anonymization)、混淆(obfuscation)和過濾(filtering),但實施這些手段的前提是保留數據全集的完整性和分析價值。
 
大數據大體量,對于業界巨擘、創業者和業務決策者,不同的人有不同的理解。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢