
觀察大數據行業的整體生態結構
作為該系列的開篇文章,本期我們將從宏觀的角度帶你觀察大數據行業的整體生態結構,對大數據采集、數據的分布式存儲與處理,以及在此基礎之上的數據分析、可視化和在眾多行業中的應用進行概述。其后的每篇文章我們都會挑選大約5個行業的數十家典型公司進行詳細介紹,并會對其中一個重點行業進行邏輯的梳理與詳細案例的剖析。那么首先我們就來說說大數據技術是如何產生的?
早在1980年,著名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將“大數據”稱頌為 “第三次浪潮的華彩樂章”,這標志著人們首次對海量數據所能夠產生的價值有了初步的了解。
但由于連接方式的局限,長期以來人們對于數據的應用大多以企業內部的商業智能為主,隨著互聯網、移動互聯網的普及,企業終于能夠直接與用戶產生鏈接并獲得大量的用戶行為與消費等數據,大數據產業應用的輪廓才漸漸清晰。
2000年初Google為了實現對大量網頁的信息抓取、存儲,并完成索引的建立及排序功能,同時又希望降低硬件采購成本而逐漸摸索出了利用普通物理機實現的分布式存儲、計算體系。這一技術以MapReduce及GFS而為人所熟知,借此大數據得以分布存儲在多個數據庫中,并進行大規模并發處理,解決了以往單一計算機存儲能力不夠,計算時間過長而不具備實用性的問題。
依據2003年底Google所發布的論文,前雅虎工程師開發出了類似的分布式存儲計算技術Hadoop,隨后圍繞Hadoop產生了龐大的生態體系,逐漸使大數據基礎架構日臻完善。
Hadoop功能包括從數據采集、存儲、分析、轉運、再到頁面展示,完整涵蓋了整個流程。例如HDFS實現了數據的分布式存儲,HBase負責實現數據庫的功能,Flume執行對數據的收集,Sqoop能夠對數據進行轉移、治理, MapReduce可以通過算法實現分布式計算,Hive則做數據倉庫,Pig做數據流處理,Zookeeper實現了各節點間的反饋收集與負載平衡服務,Ambari能夠讓管理員了解架構整體的工作運行情況。
Hadoop生態技術架構
而隨著技術的發展,一些適應獨特應用場景的數據庫、計算處理等軟件也越發豐富,例如非結構化數據庫MongoDB就因為其較為強大的條件查詢功能以及靈活的數據結構獲得了廣泛的應用;Spark則將Hadoop中的存儲介質替換為閃存,而獲得了百倍處理速度的增長,Databricks Cloud就是這一架構下的產品化服務。
除此之外大數據生態中還存在著很多的技術發展路徑,其中MPP技術主要還是以關系型數據庫為主和Hadoop技術目標類似,都為了將數據切分、獨立計算后再匯總。相對于SQL on Hadoop,MPP具有數據優化程度高、計算速度快,擅長被用于進行交叉分析等優點,適合企業進行數據分析使用,但其擴展性相對Hadoop來說較弱,一般在10個節點以上便喪失了計算優勢,并且由于非開源架構導致其對特定硬件依賴程度較高。
采用MPP存儲模式的代表性公司有Teradata,能夠通過進行企業數據分析幫助員工減輕大數據處理的精力消耗與費用成本,使企業能夠更加專注于業務運營。在傳統數據庫公司與意圖進入數據庫市場的企業服務公司(例如SAP)掀起的收購熱潮中,Teradata是目前市場僅存的幾家大型獨立數據分析公司之一。
2011年麥肯錫發布了一份題為“Big Data: The Next Frontier for Innovation, Competition and Productivity”的報告,里面提到美國擁有1000人以上規模的公司平均存儲了超過200T的數據,如果對數據進行價值挖掘將激發很多行業及公司的潛力,這一報告標志了商業領域大數據熱潮的開端,也使企業服務軟件成為了大數據最初的數據源。
隨著存儲及計算能力的加強和國內大數據產業的興起,部分從業者在看到行業巨大前景的同時也意識到了國內數據資源的缺乏,由于民生、電信、交通、電力等具有很高價值的數據都掌握在政府及大型國企中并不開放,如何獲取數據源成為了比如何提升數據處理方法更大的問題。
目前國內能夠進行脫敏并使用的市場數據的來源主要還是集中在手機、PC等單一渠道與場景中,TalkingData、友盟,以及艾瑞、易觀等數據分析及咨詢機構很大程度上依賴著這些資源,卻也被這些資源所局限。而由于政府數據的敏感性,僅有少數機構能夠對接政府數據資源。因此預計隨著對數據需求的日益強烈以及數據資源價值被漸漸接受,政府數據資源將會成為數據源的重要組成部分。
而更大范圍的數據采集工作將會依托于物聯網領域。我們在《即將被281億個傳感器包圍,你卻還沒弄懂物聯網技術?》中曾講到,預計2020年我們將會被281億個傳感器包圍,本月27號中國聯通也宣布截至目前其物聯網聯通數量已超過5000萬個??梢灶A見的是,在消費者視角內,未來衣食住行等方方面面都將會配備物聯網設備實時采集數據,而采集來的數據將會讓商家提供更優質、甚至是定制化的服務,形成雙贏。而在工業領域,物聯網所采集的大數據也將發揮很大的作用,形成良性循環。
同樣隨著數據樣本與采集渠道的豐富,針對數據采集過程、數據轉換與傳送和數據存儲環節的服務也已經有了很大的發展,Informatica及Mulesoft就是多渠道數據的集成與數據治理行業中的代表性企業。
在有了足夠的存儲與計算能力,并獲得了大量的數據后,數據分析產業的發展水到渠成。目前通用性的數據分析行業,主要有數據分析、數據分析可視化、大數據檢索,以及延伸出的數據服務平臺、商業智能分析及大數據預測與咨詢這6大類業務。
數據分析的內容將會在第二及第三篇文章中詳細介紹,今天僅介紹一下數據分析的整體情況,及未來可能的發展方向。
大數據分析的出現,對企業而言最大的價值就是能夠將大量沉淀的用戶行為數據、消費數據、企業服務軟件中的數據進行整合,并通過對這些數據的分析來優化產品設計、價格的制定和銷售方法的提升,同時降低企業內部運轉的成本提高運營效率,例如Pentho通過抓取企業服務軟件(主要為SAP)中的各類數據并挖掘及分析,最終能夠幫助企業節約大量的報表制作時間,并讓管理者能夠實時看到企業的運行情況。
同樣對于電信、電力以及交通等專業領域的企業來說,通過收集用戶數據,可以分析并預測未來的需求,提前對價格進行實時智能調節,并合理分配負載,從而實現利潤的最大化并保證運行的安全。
而對輿情數據的分析能夠幫助企業及時了解市場情緒,并快速迭代自己的產品與服務,對于金融企業來說也可以快速獲知最新動態避免因為信息不對稱而暴露于風險中。例如Datameer提供的數據分析引擎就能夠實時監測公共消息,檢測其語言和傳播方式,使用戶能夠早于媒體報道獲得最新資訊,并通過可視化的方式使用戶輕松快速上手。
大數據可視化,則是建立在大數據分析之上的,讓人們能夠更加便捷的理解數據分析結果的手段。大多數提供數據可視化業務的公司都將其作為對數據分析的延伸業務,例如Bottlenose 在進行數據分析自動化業務的同時,提供對社交媒體分析的“聲納圖”,能夠讓用戶對復雜的關系及邏輯線條一目了然,提升了用戶對其數據分析業務的采納程度。
預計隨著數據分析手段與方法的不斷升級,數據的可視化工作將成為重點方向,將日益復雜化的數據分析結果與人相連接將會面臨技術不斷的挑戰。
大數據技術已經被視為了未來經濟生活中的基礎設施,這意味著幾乎全部行業都能夠在大數據分析技術之上獲得經濟效率的提升。星河研究院此次將大數據應用的研究范圍覆蓋到了20多個行業,包含電子商務、媒體營銷、物流、企業服務、教育、汽車、金融科技等諸多產業,這一部分行業與公司的介紹將會放在第四到第七篇文章中。
在銷售行業中,通過輸入客戶的性格、穿搭習慣、所處行業及歷史銷售數據等信息,銷售員將會被大數據分析告知,何時給哪一位客戶打電話獲得訂單的概率最高;在品牌形象建立中,Persado能夠依據市場情緒的分析,寫出與用戶能夠產生共鳴的文案從而獲取消費者好感;法律行業中Ravel能夠“閱讀”過去數十萬判決案例,針對用戶輸入的案件給出判決概率預測,幫助律師制定辯護策略,而長期來看法律大數據企業很有可能取代大部分初級律師;同樣在零售、廣告、醫療等諸多領域,大數據技術都能通過分析數據內在的關系而幫助用戶實現購買預測、受眾精準投放以及病情輔助判斷等功能。大數據的行業應用精彩紛呈,遠不止上文所提到的這些,接下來的文章中我們會逐一展現大數據應用的神奇。
人工智能技術一直是科學家與技術人員的追求,但其發展并不是一帆風順。例如最初的自然語言識別技術中,科學家希望通過語法規則使計算機理解語義從而實現智能化,但顯示證明這一路徑并不可行,其后依據大量數據樣本的統計方法才有效的提升了自然語言處理的準確度并逐漸達到可用水平。
如今隨著計算技術與數據量的提升,大數據能夠帶給我們的福利已經不僅限于資料的查找,識別語言、視覺的AI技術提供給我們的,除了經??吹降摹皞€人助理”和動態美顏等功能外,仿照大腦結構進行寫作、自動記錄會議紀要、情緒識別與性格分析,甚至是視頻內容的搜索等功能都能夠對商業及產業起到較大的推動作用。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25