
大數據是一種新的數據形態和實踐,它與當前主流的數據應用實踐并存,而非取代;大數據也是一種戰略、世界觀和習慣;“數據即價值”的價值觀早已存在,Value不是大數據專享的屬性,小數據照樣有大價值.
1. 大數據是一種新的數據形態和實踐,它與當前主流的數據應用實踐并存,而非取代。而且,它在相當長的時間內仍然是個新鮮事物,即使年復合增長率高達32%,到2016年全球大數據技術和服務市場總額也就是240億美金左右(IDC在2012年底的預測)。不切實際、一窩蜂地上大數據項目不應鼓勵。明明不算大數據,要裝成有,偏要削足適履上馬Hadoop和NoSQL,更不足取。
2. 大數據也是一種戰略、世界觀和習慣。即使今天沒有大體量的數據,還是可以盡可能自覺、客觀、全面地測量世界,為未來的大數據實踐做準備。對于一個企業或系統來說,挑戰在數據采集,而非存儲。微信在設計之初就把數據監控精細化,并納入基礎框架,這是意識和實力的體現。有多少公司像彭博社那樣“如饑似渴”地采集數據?它能夠雇傭一個衛星每周對位于俄克拉何馬的美國最大原油儲備庫拍照,根據油罐浮動頂的陰影長度來判斷原油儲備量的變化。成功者有成功的必然性。
3. “數據即價值”的價值觀早已存在,Value不是大數據專享的屬性,小數據照樣有大價值。大數據的功勞在于喚醒大家的意識和覺悟。同樣,從數據中發現價值的實踐也由來已久,橫跨數據庫、統計學和機器學習交叉學科的數據分析是大數據分析的基礎,但傳統的數據分析實踐是無法適應大數據的發展的,這一點我會在分析這一部分中細談。
總之,不能神化大數據是萬靈藥,也不能矮化大數據就是包裝舊概念。對一部分人來說,大數據已經是個客觀存在和競爭優勢;對絕大多數人來說,大數據可以是一種“從現在做起”的世界觀,和未雨綢繆、決戰未來的戰略。本系列確有為大數據推波助瀾之意,但不會隨波逐流兜售概念;相反,我會剝開每一個概念,追溯它的源頭和發展過程,并給出個人的見解。
正文:
上回說到對大數據大體量的界定,只有少數產業和企業能夠對大體量感同身受,對更多的憧憬者來說,大數據不是進行時,而是未來時。這讓無數空有一身Hadoop技藝的架構師和程序猿/媛扼腕太息。
且慢,聽聽微軟研究院這位老哥的吐槽:根據微軟和Yahoo的統計,所有Hadoop任務放一起一平均,輸入數據集的大小也就是十幾個GB;即使是Facebook,90%的任務數據集小于100GB。這這這?這又讓言必稱ZB的布道者們情何以堪?
說來說去還是要回到大數據的定義上來。上回說IDC為業界巨擘搖旗吶喊ZB時代,旋即又用100TB作為大數據的門檻。其實,100TB不是故事的全部。這次好好擺一擺IDC對大數據的界定。IDC高手論道,一張圖搞定:
它的三步界定法是這樣講的:
1. 三個數據源場景:數據要么不小于100TB,要么來自于超高速的數據流,或者年增速大于60%。這三者是OR的關系,滿足其一即可。這下好,很多中小企業可以進入大數據的候選隊伍了。王侯將相,寧有種乎?數據少但速度可以快,基數小但增速可以大,只要秉持自覺、客觀、全面測量世界的大數據觀。
2. 無論你有哪種或哪幾種數據,必須部署在可動態適應的基礎設施(dynamically adaptable infrastructure)上。IDC專門強調,此基礎設施并非一定要水平擴展架構(scale-out infrastructure),傳統的scale-up架構也行。更重要的是,這個新名詞把基于云的基礎設施也包括了進去。要做大數據并非一定要自己部署Hadoop或NoSQL,把基礎設施的事情留給云,自己專心從數據里提煉價值,不亦樂乎?有了Amazon AWS,四個人就可以做一個大數據初創企業Prismatic。
3. 第三步兩個數據部署場景:部署中必須有不少于兩個的數據格式或數據源,或者高速流數據源(如點擊流或機器產生的數據流)。
好吧,不用執念于Volume了,我們接著這第三步講Variety。
自道哥(Doug Laney)開立“三V經”伊始,Variety在大數據五個大V(前幾天某人又提了第六個V,Viability,以后再表)排名老三,為什么Variety拿到系列第二篇講呢?
在下不是百曉生,自然不敢亂排座次。雖然在下確實自賦過順口溜一句:“大(Volume)、雜(Variety)、快(Velocity)、真(Veracity)、值(Value)”(大雜膾真值),但這萬萬不是Variety排第二的理由。Variety能做老二的最大底氣來自于占大數據體量八成以上的非結構化數據。天知道這“八成”是怎么算出來的,但既然美林從98年就開始在企業數據市場這么說,十幾年過去應該有增無減。
Variety從本義來說是指數據種類的多樣性,我把數據質量的多樣性即混雜性(舍恩伯格《大數據時代》中對messy的翻譯正好是“混雜”)也放入這一篇講。按理說混雜性也可以放在Veracity篇,但我感覺從方法論上多樣性和混雜性有更多的相通之處。
多樣性
如果一定要把數據分類,最簡單的方法是分兩類,結構化與非結構化。再深究下去,非結構化事實上是未必成立的概念。信息里的“結構”是永遠存在的,只不過結構尚未被發現,或結構變化無定(半結構化或多結構化),或者結構存在但機器卻處理不了。就像最典型的非結構化數據—文本,它有語言學意義上的結構(語法和語義),又有敘事意義上的結構(三段式、先破后立等),還具有結構化的元數據(作者、標題、發布時間等),但文本一直是非結構化數據的典型。有老學究一本正經說:非結構化?此言差矣;應該說非模型化(unmodeled),結構本在,只是未建模而已。早期的非結構化數據,在企業數據的語境里主要是文本,如電子郵件,文檔,健康/醫療記錄。隨著互聯網和物聯網的發展,又擴展到網頁、社交媒體、感知數據,涵蓋音頻、圖片、視頻、模擬信號等等,真正詮釋了數據的多樣性。
從另一個維度上看,數據的多樣性又表現在數據來源和用途上。拿衛生保健數據來講,大致有藥理學科研數據,臨床數據,個人行為和情感數據,就診/索賠記錄和開銷數據四類。麥肯錫在《大數據:創新、競爭和生產力的下一個前沿》里關于美國衛生保健行業如何利用多樣化數據給出了精彩的建議,有興趣的可以去讀一讀。
又如交通領域。北京市交通智能化分析平臺數據源來自路網攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業,還有問卷調查和GIS數據。從數據體量和速度上也達到了大數據的規模:4萬輛浮動車每天產生2000萬條記錄;交通卡刷卡記錄每天1900萬條;手機定位數據每天1800萬條;出租車運營數據每天100萬條;高速ETC數據每天50萬條;針對8萬戶家庭的定期調查,等等。發掘這些形態各異、快慢不一的數據流之間的相關性,是大數據做前人之未做、前人所不能的機會。更甚者,交通狀況與其它領域的數據都存在較強的關聯性:有研究發現,可以從供水系統數據中發現晨洗的高峰時間,加上一個偏移量(通常是40-45分鐘)就是交通早高峰時間;同樣可以從電網數據中統計出傍晚辦公樓集中關燈的時間,加上偏移量來估計出晚上的堵車時點。國外的研究還發現了交通事故率與睡眠質量的關聯,不一而足。
有人說咖啡館的好處是“let ideas have sex”,大數據產生價值的關鍵是“let data have sex”。尤其是對不能坐擁大數據的企業來說,跳出自己的圈子,尋找新的相關數據源(如社交媒體,上下游企業或廣告、應用聯盟,數據市場)是出奇制勝的策略。即使牛如Apple,它也要雜湊Google、Wolfram Alpha、Wikipedia、Yelp等不同的外部數據源來讓Siri足夠聰明。
混雜性
我把混雜性作為數據質量的一個考量(數據質量的問題,在漫談第五個V即Veracity的時候,還要涉及),即數據里混有雜質的特性。數據的混雜性是不可避免的,既可能有數據產生主體的問題,又可能有采集手段、存儲方式的問題。
有人說這不是個新問題,我們很早以前就搞數據清洗。話是沒錯,只是在大數據時代,我們完全可以用一種更輕松的心態看待混雜性,并接受它帶來的精確性的問題。
試想,如果雜質是偶然的,它一定會被更多的正確的數據淹沒掉;如果噪音存在規律,足夠多的數據可以發現這個規律,從而把噪音過濾;如果誤差是內在的必然性,更多樣化的數據采集和信息融合也必然能糾正誤差。
拿幾個我在Intel做過的項目作為例子:
1. 定位:GPS有幾十米的誤差,但加上了地圖數據可以保證你導航無虞;GPS信號在城市環境里時斷時續,基于慣性導航的系統可以維持導航系統的工作;基于運動傳感器的室內慣性導航有累積誤差,而且辦公室環境里磁傳感器受干擾嚴重,辦法是跟基于Wifi的室內定位和地圖匹配結合起來;通過SLAM(Simultaneous Localization and Mapping)構建室內地圖同樣受慣性導航傳感器精度的限制,但如果有Wifi的幫忙,或者有大量路徑軌跡,完全可以把誤差糾正,等等。
2. 智慧城市里的視覺分析:基于單個攝像頭的車牌抓取和識別可能受光照條件、空氣能見度、車輛運行速度和遮擋情況的影響,但獲得的部分信息(不完整車牌和車輛特征)可以跟其它攝像頭獲取的信息進行對照和相互印證。
3. PM2.5的檢測儀太貴,5000美刀,很準很穩定。買個灰塵傳感器,幾十塊人民幣,不準不穩定。那兩個傳感器放一起呢,平均、平滑過的數據穩定了很多。再把這個數據跟官方的數據做關聯,跟開放遙感數據(MODIS)推測的PM2.5值做關聯,跟區域溫濕度、氣壓和風向做關聯,也許你就有了個200塊人民幣的個人PM2.5檢測儀。
類似數據融合的例子有很多,涉及連續時/空軸的同質數據和同一時/空點的異構數據。時空關系是最典型的一種上下文語境(context)。在數據全集前提下,通過上下文語境來組織、過濾和呈現具有相關性的數據集/數據流是提升管理和分析效率的一種重要方式。大數據采集和存儲盡量要全集,而管理和分析未必是多多益善(以后在分析篇中詳述),抓住context很關鍵。在數據管理上,geocoded data或time series數據庫就是利用時空語境來組織和優化多源數據的例子。
對于數據擁有者而言,數據的多樣性和混雜性具有多重含義:
1. 原始數據層面,多樣性是不因意志轉移的事實,必須準備好多種采集和存儲手段,保留這種多樣性。
首先是采集。彭博社近乎偏執地采集數據,從用戶使用彭博終端的每一次按鍵,到每一個員工的即時位置,從公司創始人每一次訪問家族基金的記錄,到前文所述石油庫存的照片,甚至發展到丑聞。對絕大多數企業來說,除了前面所說的外部數據源,仔細研究一下IT系統的日志和歸檔功能,也許無需大動干戈就有意外的收獲。
對于個人來說,基督教有諺云“凡走過必留下痕跡”。大可不必像MIT Geek Deb Roy那樣把自家過日子的分分秒秒都錄下來,也不用像Bell定律的提出者Gordon Bell那樣把生活工作的點滴事無巨細記錄到MyLifeBits里,“Total Recall”(電影《全面記憶》,Bell在2009年寫的一篇文章以此為標題)還太遙遠,但有了手機,我們真的可以更好地記錄自己、量化自我。Small data是Big data的一個有趣側面,以后也許還會述及。
其次是存儲。對于非結構化數據,文件系統是主流的存儲選擇,但是在存取、索引以及元數據管理上不是最優。而結構化數據主要依靠關系型數據庫,主要問題是結構變化時太折騰,當數據在TB級是也太慢。NoSQL數據庫應時而生,一是能支持靈活的結構(schema)和非結構化數據,二是針對大數據體量可擴展性更好。同時,文件系統也得到了發展,與對象存儲相映生輝,不僅在效率上提升(如Facebook Haystack對小圖片文件),也能更好地支持管理和分析(如支持SQL-like語言來操作)。由于NoSQL數據庫和文件/對象存儲不能很好地支持數據庫事務(ACID),不但關系型數據庫還有用武之地,NewSQL數據庫也因此脫穎而出。
2. 數據準備層面,怎么對多樣化的數據建模,怎么在把多樣化的原始數據轉換為元數據,怎么在元數據里保留數據多樣性、又能夠保證數據處理手段的統一性。
這是一個很大的課題。數據處理前會有大量的時間做數據準備(到達80%),涉及到抽取、清洗、轉換和集成,做得不好就只能是悲慘的“garbage in, garbage out”了。對于非結構化數據而言,最大的問題是究竟抽取什么出來,是一些特定的低階特征、還是具有高階語義的標記或元數據?到頭來,非結構化數據的“結構”很容易受到主觀假設的影響。
多樣化數據的存儲有幾個問題,一個是多類數據放一起還是分開存,二是元數據怎么存儲、與源數據如何關聯,還有就是怎么能夠最好地支持未來的分析。Booz Allen的Data Lake是把幾方面做得比較好的。對于非結構化數據來說,Apache UIMA(Unstructured Information Management Architecture)是不錯的選擇,IBM的Watson主機在《Jeopardy》里戰勝人類,軍功章里有UIMA的一份。
3. 數據處理層面,主要是怎么在處理中利用好數據的多樣性。這個在數據分析篇再談。
4. 多樣化數據信息密度不同,處理的代價不同,需要保存的時間也不一樣,既要全局重視,也要區別對待,在一個統一的大數據架構里允許差異化的數據存儲、管理和處理,是低成本和高靈活性的關鍵。
舉個例子說,現在的平安城市、智能交通有大量的視頻數據,一般需要保持30-60天。如果用HDFS的缺省配置來存,3份拷貝在成本上吃不消。而從視頻里提取出來的圖片保持時間較長,元數據就更長了,因此對于數據持久性上要給予不同的對待??紤]到數據搬移的代價,這些不同的數據可能還要存在不同的地方,視頻可能在靠近它產生的地方即邊緣區域,元數據在中央。這樣,需要把計算發送到數據保存的地方。文章來源:CDA數據分析師培訓官網
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25