熱線電話:13121318867

登錄
首頁職業發展觀察大數據?行業的整體生態結構
觀察大數據?行業的整體生態結構
2017-08-20
收藏

觀察大數據行業的整體生態結構

作為該系列的開篇文章,本期我們將從宏觀的角度帶你觀察大數據行業的整體生態結構,對大數據采集、數據的分布式存儲與處理,以及在此基礎之上的數據分析、可視化和在眾多行業中的應用進行概述。其后的每篇文章我們都會挑選大約5個行業的數十家典型公司進行詳細介紹,并會對其中一個重點行業進行邏輯的梳理與詳細案例的剖析。那么首先我們就來說說大數據技術是如何產生的?

第一 大數據的技術基礎

早在1980年,著名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將“大數據”稱頌為 “第三次浪潮的華彩樂章”,這標志著人們首次對海量數據所能夠產生的價值有了初步的了解。

但由于連接方式的局限,長期以來人們對于數據的應用大多以企業內部的商業智能為主,隨著互聯網、移動互聯網的普及,企業終于能夠直接與用戶產生鏈接并獲得大量的用戶行為與消費等數據,大數據產業應用的輪廓才漸漸清晰。

2000年初Google為了實現對大量網頁的信息抓取、存儲,并完成索引的建立及排序功能,同時又希望降低硬件采購成本而逐漸摸索出了利用普通物理機實現的分布式存儲、計算體系。這一技術以MapReduce及GFS而為人所熟知,借此大數據得以分布存儲在多個數據庫中,并進行大規模并發處理,解決了以往單一計算機存儲能力不夠,計算時間過長而不具備實用性的問題。

依據2003年底Google所發布的論文,前雅虎工程師開發出了類似的分布式存儲計算技術Hadoop,隨后圍繞Hadoop產生了龐大的生態體系,逐漸使大數據基礎架構日臻完善。

Hadoop功能包括從數據采集、存儲、分析、轉運、再到頁面展示,完整涵蓋了整個流程。例如HDFS實現了數據的分布式存儲,HBase負責實現數據庫的功能,Flume執行對數據的收集,Sqoop能夠對數據進行轉移、治理, MapReduce可以通過算法實現分布式計算,Hive則做數據倉庫,Pig做數據流處理,Zookeeper實現了各節點間的反饋收集與負載平衡服務,Ambari能夠讓管理員了解架構整體的工作運行情況。

Hadoop生態技術架構

而隨著技術的發展,一些適應獨特應用場景的數據庫、計算處理等軟件也越發豐富,例如非結構化數據庫MongoDB就因為其較為強大的條件查詢功能以及靈活的數據結構獲得了廣泛的應用;Spark則將Hadoop中的存儲介質替換為閃存,而獲得了百倍處理速度的增長,Databricks Cloud就是這一架構下的產品化服務。

除此之外大數據生態中還存在著很多的技術發展路徑,其中MPP技術主要還是以關系型數據庫為主和Hadoop技術目標類似,都為了將數據切分、獨立計算后再匯總。相對于SQL on Hadoop,MPP具有數據優化程度高、計算速度快,擅長被用于進行交叉分析等優點,適合企業進行數據分析使用,但其擴展性相對Hadoop來說較弱,一般在10個節點以上便喪失了計算優勢,并且由于非開源架構導致其對特定硬件依賴程度較高。

采用MPP存儲模式的代表性公司有Teradata,能夠通過進行企業數據分析幫助員工減輕大數據處理的精力消耗與費用成本,使企業能夠更加專注于業務運營。在傳統數據庫公司與意圖進入數據庫市場的企業服務公司(例如SAP)掀起的收購熱潮中,Teradata是目前市場僅存的幾家大型獨立數據分析公司之一。

第二 大數據的數據來源

2011年麥肯錫發布了一份題為“Big Data: The Next Frontier for Innovation, Competition and Productivity”的報告,里面提到美國擁有1000人以上規模的公司平均存儲了超過200T的數據,如果對數據進行價值挖掘將激發很多行業及公司的潛力,這一報告標志了商業領域大數據熱潮的開端,也使企業服務軟件成為了大數據最初的數據源。

隨著存儲及計算能力的加強和國內大數據產業的興起,部分從業者在看到行業巨大前景的同時也意識到了國內數據資源的缺乏,由于民生、電信、交通、電力等具有很高價值的數據都掌握在政府及大型國企中并不開放,如何獲取數據源成為了比如何提升數據處理方法更大的問題。

目前國內能夠進行脫敏并使用的市場數據的來源主要還是集中在手機、PC等單一渠道與場景中,TalkingData、友盟,以及艾瑞、易觀等數據分析及咨詢機構很大程度上依賴著這些資源,卻也被這些資源所局限。而由于政府數據的敏感性,僅有少數機構能夠對接政府數據資源。因此預計隨著對數據需求的日益強烈以及數據資源價值被漸漸接受,政府數據資源將會成為數據源的重要組成部分。

而更大范圍的數據采集工作將會依托于物聯網領域。我們在《即將被281億個傳感器包圍,你卻還沒弄懂物聯網技術?》中曾講到,預計2020年我們將會被281億個傳感器包圍,本月27號中國聯通也宣布截至目前其物聯網聯通數量已超過5000萬個??梢灶A見的是,在消費者視角內,未來衣食住行等方方面面都將會配備物聯網設備實時采集數據,而采集來的數據將會讓商家提供更優質、甚至是定制化的服務,形成雙贏。而在工業領域,物聯網所采集的大數據也將發揮很大的作用,形成良性循環。

同樣隨著數據樣本與采集渠道的豐富,針對數據采集過程、數據轉換與傳送和數據存儲環節的服務也已經有了很大的發展,Informatica及Mulesoft就是多渠道數據的集成與數據治理行業中的代表性企業。

第三 大數據的分析及可視化

在有了足夠的存儲與計算能力,并獲得了大量的數據后,數據分析產業的發展水到渠成。目前通用性的數據分析行業,主要有數據分析、數據分析可視化、大數據檢索,以及延伸出的數據服務平臺、商業智能分析及大數據預測與咨詢這6大類業務。

數據分析的內容將會在第二及第三篇文章中詳細介紹,今天僅介紹一下數據分析的整體情況,及未來可能的發展方向。

大數據分析的出現,對企業而言最大的價值就是能夠將大量沉淀的用戶行為數據、消費數據、企業服務軟件中的數據進行整合,并通過對這些數據的分析來優化產品設計、價格的制定和銷售方法的提升,同時降低企業內部運轉的成本提高運營效率,例如Pentho通過抓取企業服務軟件(主要為SAP)中的各類數據并挖掘及分析,最終能夠幫助企業節約大量的報表制作時間,并讓管理者能夠實時看到企業的運行情況。

同樣對于電信、電力以及交通等專業領域的企業來說,通過收集用戶數據,可以分析并預測未來的需求,提前對價格進行實時智能調節,并合理分配負載,從而實現利潤的最大化并保證運行的安全。

而對輿情數據的分析能夠幫助企業及時了解市場情緒,并快速迭代自己的產品與服務,對于金融企業來說也可以快速獲知最新動態避免因為信息不對稱而暴露于風險中。例如Datameer提供的數據分析引擎就能夠實時監測公共消息,檢測其語言和傳播方式,使用戶能夠早于媒體報道獲得最新資訊,并通過可視化的方式使用戶輕松快速上手。

數據可視化,則是建立在大數據分析之上的,讓人們能夠更加便捷的理解數據分析結果的手段。大多數提供數據可視化業務的公司都將其作為對數據分析的延伸業務,例如Bottlenose 在進行數據分析自動化業務的同時,提供對社交媒體分析的“聲納圖”,能夠讓用戶對復雜的關系及邏輯線條一目了然,提升了用戶對其數據分析業務的采納程度。

預計隨著數據分析手段與方法的不斷升級,數據的可視化工作將成為重點方向,將日益復雜化的數據分析結果與人相連接將會面臨技術不斷的挑戰。

第四 大數據的行業應用

大數據技術已經被視為了未來經濟生活中的基礎設施,這意味著幾乎全部行業都能夠在大數據分析技術之上獲得經濟效率的提升。星河研究院此次將大數據應用的研究范圍覆蓋到了20多個行業,包含電子商務、媒體營銷、物流、企業服務、教育、汽車、金融科技等諸多產業,這一部分行業與公司的介紹將會放在第四到第七篇文章中。

在銷售行業中,通過輸入客戶的性格、穿搭習慣、所處行業及歷史銷售數據等信息,銷售員將會被大數據分析告知,何時給哪一位客戶打電話獲得訂單的概率最高;在品牌形象建立中,Persado能夠依據市場情緒的分析,寫出與用戶能夠產生共鳴的文案從而獲取消費者好感;法律行業中Ravel能夠“閱讀”過去數十萬判決案例,針對用戶輸入的案件給出判決概率預測,幫助律師制定辯護策略,而長期來看法律大數據企業很有可能取代大部分初級律師;同樣在零售、廣告、醫療等諸多領域,大數據技術都能通過分析數據內在的關系而幫助用戶實現購買預測、受眾精準投放以及病情輔助判斷等功能。大數據的行業應用精彩紛呈,遠不止上文所提到的這些,接下來的文章中我們會逐一展現大數據應用的神奇。

第五 大數據成為AI產業的燃料

人工智能技術一直是科學家與技術人員的追求,但其發展并不是一帆風順。例如最初的自然語言識別技術中,科學家希望通過語法規則使計算機理解語義從而實現智能化,但顯示證明這一路徑并不可行,其后依據大量數據樣本的統計方法才有效的提升了自然語言處理的準確度并逐漸達到可用水平。

如今隨著計算技術與數據量的提升,大數據能夠帶給我們的福利已經不僅限于資料的查找,識別語言、視覺的AI技術提供給我們的,除了經??吹降摹皞€人助理”和動態美顏等功能外,仿照大腦結構進行寫作、自動記錄會議紀要、情緒識別與性格分析,甚至是視頻內容的搜索等功能都能夠對商業及產業起到較大的推動作用。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢