
大數據進行時:聚光燈后的四大推手
“大數據”這一話題在國內從今年起受到投資者追捧,也不斷有高技術人才選擇這個方向創業;但實際上國外對于“大數據”,已經走過了概念炒作階段,出現了實際的應用,產生了實際的效益。周文哲這篇投稿,為我們詳細揭示了大數據盛行背后的原因,以及大數據在國外發展的情況。
“忽如一夜春風來,千樹萬樹梨花開”是唐朝的詩人岑參描寫西北邊塞早雪奇景的詩句,用來形容大數據的盛行,莫不為過。就在幾個月前,大數據似乎還只是一個遙遠的話題,短期內就“如一夜春風”吹來,在各種媒體、論壇、甚至政府戰略中頻頻露臉,那么,是什么推動了它的盛行呢?這些聚光燈背后,又有著怎樣的故事?本文我們將從行業發展、應用普及、技術進步、金融和政策鼓勵四個方面來探討大數據的幕后推手。
大數據的概念或許大家并不陌生,“大”字不僅意味著數量的龐大,還代表著數據種類繁多、結構復雜,變化的速度也非???,這些特征的出現與互聯網的發展息息相關。從搜索引擎、社交網絡的普及到今天人手皆是的移動終端,互聯網上的信息總量正以每年 50% 的增速不斷膨脹,其中 90% 的信息來自近三年,包括每個月 Facebook 上分享的 30 億條內容,每天 12 TB 的 Twitter 信息,每天淘寶上超過 30 億條店鋪、商品瀏覽紀錄及上千萬的成交、收藏紀錄等等。據 IDC 統計,2011 年全球所產生的數據總量是 1.8 ZB(10 的 21 次方),如果把這些數據刻錄到 CD 碟片中,其摞起來的高度等于地球到月球的距離!
數據不僅在“量”上瘋狂的增長著,在“源”上也不斷的豐富著。目前世界上產生的數據,有近 80% 是由個人用戶產生的;據估計,到 2020 年全球將有 500 億個設備連入網絡,地理位置、網絡瀏覽行為、健康數據、甚至基因信息等,都成為技術為個體服務的有效資源,這也意味著商家對每一個用戶都將有精準的了解,真正做到與客戶的“零距離”接觸。正是這種巨大的商業利益的驅使,使得大數據成為國際一流企業競相投入使用的競爭利器。
今年年初,美國一名男子闖入了他家附近的 Target 店鋪(Target 是一家美國零售連鎖超市)?!澳銈冊趺茨苓@樣!”男人向店鋪經理大吼到,“你們竟然給我 17 歲的女兒發嬰兒尿片和童車的優惠券,她才 17 歲??!”店鋪經理不知道發生了什么,立刻向來者道歉,表明那肯定是個誤會。然而,經理沒有意識到,公司正在運行一套大數據系統。一個月后,這個憤怒的父親打來電話道歉,因為 Target 發來的嬰兒用品促銷廣告并不是誤發,他的女兒的確懷孕了。
諸如此類的應用,在國際零售行業巨頭中已屢見不鮮,我們以 Target 作為首例,是因為它的案例的確留給人強烈的印象:數據的力量,不僅讓商家提升了自己的業績,還讓客戶為之心甘情愿買單。Target 創建了一套女性購買行為在懷孕期間產生變化的模型,不僅如此,如果用戶從他們的店鋪中購買了嬰兒用品,Target 在接下來的幾年中會根據嬰兒的生長周期情況定期給這些顧客推送相關產品,使這些客戶形成長期的忠誠度。
實際上,諸如沃爾瑪、Tesco(英國零售巨頭)等巨頭已從數據中獲得了巨大的利益,也因此鞏固了自己在業界的長盛不衰。以 Tesco 為例,這家全球利潤第二大的零售商從其會員卡的用戶購買記錄中,充分了解一個用戶是什么“類別”的客人,如速食者、單身、有上學孩子的家庭等等,并基于這些分類進行一系列的業務活動,比如,通過郵件或信件寄給用戶的促銷可以變得十分個性化,店內的上架商品及促銷也可以根據周圍人群的喜好、消費的時段來更加有針對性,從而提高貨品的流通。這樣的做法為 Tesco 獲得了豐厚的回報,僅在市場宣傳一項,就能幫助 Tesco 每年節省 3.5 億英鎊的費用。
在互聯網行業,大數據更是為電商、廣告商們提供了豐厚的回報。雅虎于 2008 年初便開始啟用大數據技術,每天分析超過 200PB 的數據,使得雅虎的服務變得更人性化,更貼近用戶和客戶。它與雅虎 IT 系統的方方面面進行協作,包括搜索、廣告、用戶體驗和欺詐發現等。AOL 也設立了 300 節點的服務器集群,將在其下屬系列網站(如 AOL.com、Huffington Post、MapQuest 等)中每天 500TB 的用戶瀏覽信息收集起來,分析和預測這些用戶的行為,以便有針對性的為每個月 1.8 億獨立用戶進行個性化廣告服務。
于亞馬遜(Amazon)而言,數據技術的應用更是為其成為一家“信息公司”,獨占電商領域鰲頭奠定了穩定的基礎。為了更深入的了解每一個用戶,亞馬遜不僅從每個用戶的購買行為中獲得信息,還將每個用戶在其網站上的所有行為都記錄下來:每個頁面的停留時間,用戶是否查看 Review,每個搜索的關鍵詞,每個瀏覽的商品等等,在亞馬遜去年 11 月推出的 Kindle Fire 中,內嵌的 Silk 瀏覽器更是可以將用戶的行為數據一一記錄下來。這些數據的有效分析使得亞馬遜對于客戶的購買行為和喜好有了全方位了解,對于其貨品種類、庫存、倉儲、物流、及廣告業務上都有著極大的效益回饋。
數據技術的應用不僅在零售和互聯網行業獲得極大回報,其帶來的經濟價值使得各行業均為之“競折腰”。在能源行業,Opower 使用數據來提高消費用電的能效,并取得了顯著的成功。作為一家提供 SaaS 服務(軟件服務)的創新公司,Opower 與多家電力公司合作,分析美國家庭用電費用并將之與周圍的鄰居用電情況進行對比,被服務的家庭每個月都會受到一份對比的報告,顯示自家用電在整個區域或全美類似家庭所處水平,以鼓勵節約用電。Opower 的服務以覆蓋了美國幾百萬戶居民家庭,預計為美國消費用電每年節省 5 億美元。
最值得一提的是生物信息行業。生物信息是繼互聯網行業之后數據迸發最迅速的行業,并將遠遠超過互聯網產生的數據:人類用 0 和 1 創造了虛擬世界,而造物主用 A/C/T/G 四種元素創造了萬物生靈,生命的產生、發展、消亡的奧秘盡在其中。隨著測序技術的發展,全基因組的測序價格由十年前的上億美元降至今天的數千美元,這使得更多人、物種的 DNA 信息的獲取成為可能。個體全基因組信息的獲取,使得個性化診療服務成為可能。在美國華盛頓大學,研究人員通過對一位白血病患者的基因信息進行分析,成功的找出了導致癌細胞迅速擴散的致癌基因,并發現了能夠阻止該基因產生作用的藥物,有效的延長了患者的生命。
諸如以上的應用,在悄無聲息的進行著,是數據帶來的市場價值推動著一切的進行,亦構成了“引爆”大數據產業發展的第二個推手。
技術與應用之間從來就是相輔相成的關系:應用的實現需要技術的支撐,而技術的進步能推動應用的普及。在以上實例應用的背后,是大數據技術讓一切成為了可能。本文中,我們所指的大數據技術,主要是以 Hadoop 為代表的非關系型數據庫系統及分布式運算架構,在這一部分,我們將簡要介紹其發展背景。
上世紀 60 年代末關系型數據庫技術的出現使得數據能按照固定的結構進行存儲,方便用戶根據數據屬性進行查詢的同時,也使得管理大為簡便。然而,數據量的爆發增長和數據結構的多樣性,不僅要求能快速錄入、提取海量數據信息;還要求數據庫隨著數據量的增加而靈活擴展、數據存儲不局限于固定的結構。這時,傳統的關系型數據庫技術已無法滿足這些需求,于是,NoSQL 技術在上世紀末期開始出現。
然而,非關系型數據庫技術一開始并未得到廣泛應用,直到 2009 年,在搜索引擎、社交網絡等互聯網應用盛行使得數據量迅猛增加后,才開始為人們所重視并投入使用。發展到今天,NoSQL 技術已經形成了一系列不同用途的數據庫管理系統,如 BigTable、Amazon DynamoDB、Hadoop/Hbase、Cassandra 等列族存儲系統(Wide Column Store),MongoDB、CouchDB 等文件存儲系統,Neo4J 等圖形數據庫系統。由于列族存儲系統支持多種類型的數據存儲,目前應用的范圍最為廣泛。
2004 年初,Google 開始研發 BigTable 非關系型數據庫系統,它是建立在 Google 文件系統之上的一種壓縮的、高擴展的數據庫技術,可以讓 Google 對于自身新增業務處理進行低成本的擴展。8 個月后,BigTable 開始投入內部使用,后來被廣泛應用于一系列的 Google 應用中,如 Google Reader、Google Earth、Google Maps、Gmail、YouTube 等等。為了解決海量信息的計算問題,Google 又研發了 MapReduce 的并行計算技術架構,使得 T 量級以上的數據可以并行處理,并通過 BigTable 來存儲和更改資料,有效的支撐了 Google 日益增長的數據處理任務。而 BigTable 這一模型,啟發了眾多“后來者”的數據技術。
Hadoop 便是其中一員。這個由 Yahoo! 的前員工 Doug Cutting(現任職于 Cloudera 公司)最初負責開發的項目,已成為大數據行業的技術中心。Hadoop 是由一系列開源技術組成的分布式架構,包括 Hbase 列數據庫系統、MapReduce 并行計算框架、HDFS 分布式文件系統、Mahout 算法庫等等,由于其擴展性高、數據種類靈活、成本低,Hadoop 被廣泛應用于各行各業,包括互聯網、生物信息、物聯網,甚至美國宇航局 NASA 也用 Hadoop 來處理從宇宙望遠鏡中傳回海量無線電數據,其數據量達到每秒鐘 700TB!
2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司,為合作伙伴提供 Hadoop 的商用解決方案,其中包括 IBM、甲骨文(Oracle)、微軟EMC、Teradata 等行業領先的數據解決方案提供商,使得 NoSQL 技術成為現存 SQL 數據解決方案的強有力補充;眾巨頭紛紛推出相應產品,來適應其客戶數據業務的爆發增長,如 IBM 的 InfoSphere BigInsights,甲骨文的 BigData Appliance,EMC 的 GreenPlum 等等。Cloudera 公司的產品使得開源技術有效的為商業客戶提供服務,而其創始人 Jeff Hammerbacher 亦被福布斯評為美國 30 位 30 歲以下科技領域的明日之星之一。
目前,Hadoop 技術以及被廣泛應用了各大互聯網公司,包括 Facebook、亞馬遜、蘋果、AOL、Ebay、Twitter、Netflix、淘寶、百度等等;在生物信息行業中,也初步得到了應用,如大型制藥公司提供研究服務的 NextBio 公司,設立了 100 個節點的 Hadoop 集群來幫助制藥公司進行基因研究。先進技術的發展為企業提供了高效使用數據的便捷工具,是促進大數據行業發展的第三大推手。
行業的發展,除了市場需求的驅動、技術水平的進步,還離不開資本與政策的矚目。據麥肯錫報道,大數據已經實現了顯著的經濟價值:為美國的醫療服務業每年節省 3000 億美元,為歐洲的公共部門管理每年節省 2500 億歐元,為全球個人位置數據服務提供商貢獻 1000 億美元,幫助美國零售業凈利潤增長 60%,幫助制造業在產品開發、組裝等環節節省 50% 的成本等等。大數據體現的巨大經濟價值,成功地獲得了金融界和政界的親睞。
2011 年 11 月,曾投資 Facebook、DropBox、Cloudera、沃爾瑪等 200 多家公司的硅谷著名風投機構阿克塞爾合伙人公司(Accel Partners),宣布成立一個金額 1 億美金的大數據基金,專注于投資兩種類型的數據創業公司:建設包括存儲、安全和管理在內的新型架基礎構類公司,以及在基礎架構之上進行如 BI、行業應用、移動應用等開發的公司。這樣的投資方向讓我們看到,大數據的爆發增長使得數據驅動、數據制勝成為必然,那些能夠解決這個過程中因數據而產生的各種問題的創業公司,將在市場上得到自身價值的回饋。
今年 4 月,成立于 2003 年的數據軟件公司 Splunk 在納斯達克以 16 億美元的市值上市,給大數據行業打了一管興奮劑。Splunk 提供的軟件產品可以用于監控、分析實時及歷史的機器數據,這些數據可以是日志、配置文件、消息和告警等。Splunk 可以幫助企業的 IT 管理員集中監控分布部署在多個數據中心的成千上萬臺服務器,免去了錯誤發生時需要逐個排查糾錯的苦惱。從創立至今,Splunk 的客戶數量已接近 4000 家,財富 100 強的大部分成員皆為其客戶,包括瑞士信貸、美國銀行、Comcast、Salesforce、Zynga、LinkedIn、T-Mobile、Swisscom、Shutterfly、Heroku 以及美國勞工部和能源部等。
與此同時,政府也將大數據列入了國家發展戰略。今年 3 月底,奧巴馬政府宣布,白宮將投入 2 億美金的研發費用來推動大數據技術的發展,其主要目標是為了讓大數據技術更好的服務于科研、環境、生物醫藥、教育和國家安全領域。同時,奧巴馬政府對于投資的核心技術領域,也作出了明確的表示,將主要用來鼓勵那些在數據采集、存儲、管理、分析和共享等方面的技術研發。
綜上所述,我們可以看到,大數據成為今天眾人矚目的焦點,是經過了在市場、技術、資金、以及政府多方因素推動的結果。在文章的最后,我們列出三個關鍵詞來總結大數據技術在實際應用中的特性,希望幫助讀者對于大數據的應用有一個概覽性的了解。
人才。人才是大數據技術能夠真正發揮其價值的首要因素,也是最大的挑戰。據麥肯錫調查,至 2018 年,美國市場將出現近 20 萬深度大數據分析的專業人才、150 萬能夠進行數據解析的職業經理人的職位缺口。大數據專業人才不僅需要多年的數學知識積累,還需要有編程、業務知識等綜合能力,是稀缺的復合型人才;而對于聘用企業來說,也很難有合適的職位適合此類人才。
用戶為中心。大數據技術的應用,可以幫助企業從業務的整體設計角度,發展到針對客戶的個性化服務,例如,零售企業對于過剩的庫存會進行整體促銷,如果對于用戶購買數據進行分析,就可以針對用戶的喜好進行個性化促銷,同時也根據用戶的購買行為對庫存進行準確的調配,以減少浪費。
行業化。在基礎的數據采集、存儲及查詢方面,各行業所通用的技術架構并無顯著差異;但由于每個行業的屬性及需求各異,數據分析將具有較強的行業性。例如,生物信息行業中,進行基因診斷所用到的比對數據庫需要專業的生物知識來進行翻譯,更為深入的致病基因鎖定則需要用到一系列專業算法及實驗設計;在能源行業,智能電網中的電力調度,則需要通過無數的傳感器數據預測下一時刻電網中各節點的配電需求,這就要求系統對于實時海量數據的高效處理能力,以及預測算法的精準。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25