熱線電話:13121318867

登錄
首頁精彩閱讀解析“大數據生態環境”發展現狀
解析“大數據生態環境”發展現狀
2015-11-01
收藏

解析“大數據生態環境”發展現狀


大數據的發展越來越快,但是對于大數據的認知大都還停留在最初的階段——大數據是一類資源、一類工具,其實“大數據”更多的體現的是一個認知和思維,是一種戰略、認知和文化。

以下為分享實錄全文:

一年多來,通過組織中國大數據技術大會、CCF大數據學術會議以及各類大大小小的應用峰會與學術論壇,結合我們科學院網絡數據科學與技術重點實驗室所承擔的與大數據相關的重大基礎課題研究以及與情報分析、互聯網數據分析相關的應用開發實踐,我談談自己的一些思考。

今天引導性討論的內容可以包括三大塊,包括:對大數據的再認識、引擎平臺系統支撐下的大數據分析技術、建立大數據產學研生態環境的基礎性問題思考。

1、關于大數據的再認識

大數據是一個寬泛的概念,見仁見智。關于大數據的概念,當前比較普遍使用的定義都與維基百科中的描述類似:“大數據,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊”。而這類定義的一個明顯的局限是僅僅從大數據的計算機處理視角給出的關于大數據的一個特點描述。

我們知道,對一門學科的認識,往往是從分類開始的。就像達爾文提出進化論,原始的動機就是將從全世界觀察到的動物和植物進行劃分,形成體系。在分類體系上進行提煉,最終形成了一個全新的世界觀和認識論。我們現在所關注的網絡大數據、金融大數據、科學大數據等相關領域的問題,正像歐洲文藝復興開始的的時候那樣,從不同領域觀察現象,挖掘價值,而最終我們可能能夠發現本質,形成全新的“數據認識論”,從而產生本質性的價值效應。

我個人認為,“大數據”更多的體現的是一個認知和思維,它與錢學森先生提倡的“大成智慧學”的要義非常接近。錢老將“大成智慧”翻譯成“WisdominCyberspace”,強調“必集大成,才能得智慧”。大數據從內涵來看的四個 V的特性,體現出來的是大量的“零金碎玉”,相互之間還有關聯性和作用力,但是局部看都非常零散、價值不明顯。所以有了數據,不等于就有價值、出智慧,出智慧的關鍵在“集”。大數據中包括的全部事實、經驗、信息都是“集”的對象和內容。采集到的原始數據往往是些沒有什么邏輯,不一定能直接用現在掌握的科學技術解釋,需要集成融合各個側面的數據,才能挖掘出前人未知的大價值。每一種數據來源都有一定的局限性和片面性,事物的本質和規律隱藏在各種原始數據的相互關聯之中。只有融合、集成各方面的原始數據,才能反映事物的全貌。開展大數據研究和應用,因此,大數據不僅僅是一類資源、一類工具,而是一種戰略、認知和文化,要大力推廣和樹立“數據方法論”、“數據價值觀”。

當然,我們既要抬頭看路,更要腳踏實地。因此,在大數據概念滿天飛的時候,我們既要抓住時機,挖掘價值,還要思考本質,不在混亂的時候迷失方向!

從業界來看,當前大數據系統有三個明顯的特點與我們2013年底發布的十大趨勢相關!

【1】大數據的高效深度分析需要專用化的系統

在應用數據快速增長的背景下,為了降低成本獲得更好的能效,大數據系統需要逐漸擺脫傳統的通用技術體系,趨向專用化的架構和處理技術。這方面,國內百度、阿里巴巴和騰訊三大互聯網巨頭做出了嘗試并取得了很好的效果。眾所周知,百度的大數據典型應用是中文搜索,阿里巴巴的大數據典型應用是基于交易日志分析的數據服務,騰訊的大數據典型應用是圖片數據存儲和基于用戶行為的廣告實時推薦。百度去年底成立專門的大數據部門,旨在深度挖掘大數據的價值。阿里巴巴已將不同業務部門的大數據技術整合在一起為數據產品提供統一的服務。騰訊的數據平臺部正在將全公司的數據納入統一管理平臺。阿里巴巴在技術上與開源社區結合得最為緊密;騰訊大數據目前正在向開源技術靠攏;百度在技術層面偏好自行研發,包括軟硬件定制化方案也是最先投入實用。技術上,他們的共同之處是,不再依賴傳統的IOE,而基于開源系統(如Hadoop等)開發面向典型應用的大規模、高通量、低成本、強擴展的專用化系統。

【2】大數據處理架構多樣化模式并存

當前,克隆了Google的GFS和MapReduce的 ApacheHadoop自2008年以來逐漸被互聯網企業所廣泛接納,并成為大數據處理領域的事實標準。但2013年出現的Spark作為一匹黑馬終結了這一神話,大數據技術不再一家獨大。由于應用不同導致Hadoop一套軟件系統不可能滿足所有需求,在全面兼容Hadoop的基礎上,Spark通過更多的利用內存處理大幅提高系統性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、 Presto、Spark/Shark等的出現并不是取代Hadoop,而是擴大了大數據技術的生態環境,促使生態環境向良性化和完整化發展。今后在非易失存儲層面、網絡通信層面、易失存儲層面和計算框架層面還會出現更多、更好和更專用化的軟件系統。

【3】實時計算逐步受到業界關注

Google于2010年推出了Dremel,引領業界向實時計算邁進。實時計算是針對MapReduce這種批量計算的性能問題提出的,可分為流式計算和交互式分析計算兩種模式。在大數據背景下,流式計算源于服務器日志的實時采集,如Facebook開源的Scribe是分布式日志收集系統,ApacheFlume是類似的系統。ApacheKafka是高吞吐率的分布式消息系統,特點是高通量和容錯。Storm是容錯的分布式實時計算系統,可以可靠的處理流式數據并進行實時處理,單機性能可達到百萬記錄每秒。Storm可集成 ApacheKafka作為其隊列系統。作為批量計算的補充,交互式分析計算的目標是將PB級數據的處理時間縮短到秒級。ApacheDrill是開源的 Dremel實現,雖已有應用但尚不成熟。由Cloudera主導的Impala也參照Dremel實現,同時還參考了MPP的設計思想,目前已經接近實用階段。Hortonworks主導開發了TEZ/Stinger,TEZ是運行在YARN(Hadoop2.0的資源管理框架)上的DAG計算框架,而 Stinger是下一代的Hive。2013年底,由Facebook開源的Presto分布式SQL查詢引擎可對250PB以上的數據進行交互式分析,比Hive的性能高出10倍。類似的Shark是Spark上的SQL執行引擎,得益于Shark的列存儲和Spark的內存處理等特性,Shark號稱可以比Hive的性能提高100倍。

2、系統支撐下的大數據分析技術

【1】內容分析與深度學習

要挖掘大數據的大價值必然要對大數據進行內容上的分析與計算。這其中一個核心問題是如何來對數據的進行有效表達、解釋和學習,無論是對圖像、聲音還是文本數據。傳統的研究也有很多數據表達的模型和方法,但通常都是較為簡單或者淺層的模型,不能獲得好的學習效果。大數據的出現提供了使用更加復雜的模型來更有效地學習數據表征、解釋數據的機會,深度學習就是這樣一個研究領域,它已經在計算機視覺、語音識別等應用取得了成功。在國際上,微軟將RBM和DBN引入語音識別中,使得錯誤率相對減低30%;Google的深度學習系統(DistBelief)在獲取數百萬YouTube視頻數據后,能夠精準地識別出這些視頻的關鍵元素貓。在國內,2011年科大訊飛首次將DNN技術運用到語音云平臺,并提供給開發者使用,并在訊飛語音輸入法和訊飛口訊等產品中得到應用。百度成立了IDL(深度學習研究院),專門研究深度學習算法,目前已有超過8項深度學習技術在百度產品上線。深度學習對百度影響深遠,在語音識別、OCR識別、人臉識別、圖像搜索等應用上取得了突出效果。此外,國內其它公司如搜狗、云知聲等紛紛開始在產品中使用深度學習技術。

【2】知識計算

基于大數據的知識計算是大數據分析的基礎。當前,基于開放網絡大數據構建知識庫是國內外工業界開發和學術界研究的一個熱點。世界各國各個組織建立的知識庫多達50余種,相關的應用系統更是達到了上百種。其中,有代表性的知識庫或應用系統有KnowItAll,TextRunner,NELL,Probase,atori,PROSPERA,SOFIE以及一些基于維基百科等在線百科知識構建的知識庫DBpedia,YAGO,Omega,WikiTaxonomy。除此之外,一些著名的商業網站、公司和政府也發布了類似的知識搜索和計算平臺,如Evi公司的TrueKnowledge知識搜索平臺美國官方政府網站Data.gov,Wolfram的知識計算平臺 wolframalpha,Google的知識圖譜(Knowledgegraph),Facebook推出的類似的實體搜索服務graphsearch 等。在國內,中文知識圖譜的構建與知識計算也有大量的研究和開發工作。代表性工作有中科院計算所的基于OpenKN(開放知識網絡)的“人立方、事立方、知立方”系統,中科院數學院陸汝鈐院士提出的知件(Knowware),上海交通大學構建的中文知識圖譜平臺zhishi.me,百度推出的中文知識圖譜搜索,搜狗推出的知立方平臺,復旦大學GDM實驗室推出的中文知識圖譜展示平臺等。

【3】在線社會計算

社會媒體計算是大數據分析的典型應用之一。以Facebook、Twitter、新浪微博等為代表的社會媒體正深刻改變著人們傳播信息和獲取信息的方式,人和人之間結成的關系網絡承載著網絡信息的傳播,人的互聯成為信息互聯的載體和信息傳播的媒介,社會媒體的強交互性、時效性等特點使其在信息的產生、消費和傳播過程中發揮著越來越重要的作用,成為一類重要信息載體。正因如此,當前社會媒體計算無論在學術圈和工業界都備受重視,大家關注的問題包括有對社交網絡的分析、網絡信息傳播的內在機理以及社會媒體中的信息檢索與挖掘(包括用戶搜索、用戶關系挖掘、話題發現、情感分析等)。在這些面向社會媒體計算的研究中,面對的社交網絡是一個異常龐大、關系異質、結構多尺度和動態演化的網絡,通常有億級的節點,幾十億條連邊,對它的分析、建模和計算不僅需要提出適配這樣的復雜網絡的關系抽象、結構建模和演化計算方法,更關鍵的也是更基礎的是需要支持這樣大規模網絡結構的圖數據存儲和管理結構,以及高性能的圖計算系統結構和算法,這也催生了當前很多圖數據庫和圖計算平臺的產生(如 neo4j,GraphLab等)

【4】可視化成為大數據分析的熱點

大數據引領著新一波的技術革命,對大數據查詢和分析的實用性和實效性對于人們能否及時獲得決策信息非常重要,決定著大數據應用的成敗。越來越多的企業在直面紛繁的海量數據沖擊時面露難色。一個原因是因為數據容量巨大,類型多樣,數據分析工具面臨性能瓶頸。另一原因在于,數據分析工具通常僅為IT部門熟練使用,缺少簡單易用、讓業務人員也能輕松上手實現自助自主分析即時獲取商業洞察的工具。因此,數據可視化技術正逐步成為大數據時代的顯學。對大數據進行分析以后,為了方便用戶理解也需要有效的可視化技術,這其中交互式的展示和超大圖的動態化展示值得重點關注。如果一個機構嘗試邁向大數據模式,那么一定要有相當分量的數據可視化投入。

總結:系統支撐下的大數據分析技術,從學界的關注點以及業界的突破點來看,當前可以總結為四個特點:“深度學習提高精度”、“知識驅動提高深度”、“社會計算與仿社會計算促進認知”、“可視化與分析算法互為因果”。當然,數據分析技術解決的問題還是如何有效的挖掘和利用數據價值。

3、關于中國大數據生態系統的基礎問題思考

【1】建立良性生態環境的目標

針對國家安全、社會經濟等領域的數據化生存與競爭的需求,我們需要切實解決網絡化數據社會與現實社會缺乏有機融合、互動以及協調機制的難題,形成大數據感知、管理、分析與應用服務的新一代信息技術架構和良性增益的閉環生態系統,達到大幅度提高數據消費指數、數據安全指數,降低數據能耗指數等目標。我們認為,建立良性的大數據生態系統是有效應對大數據挑戰關鍵問題,需要科技界、產業界以及政府部門在國家政策的引導下共同努力,通過轉變認識、消除壁壘、建立平臺,突破技術瓶頸等途徑,建立可持續、和諧的大數據生態系統。

【2】評價先行,提出考量大數據生態的三大指數,包括數據消費指數、數據能效指數、數據安全指數。

1)數據消費指數:

數據消費指數是指使用或者消費的數據占產生的數據的比例,旨在衡量數據消費的能力。當前由大數據引發的新產品、新服務、新業態大量涌現,不斷激發新的消費需求,成為日益活躍的消費熱點。然而,數據消費指數受到多方面發展狀態的制約,包括數據開放和互通程度、大數據分析技術、智能訪問終端的普及、數據服務基礎設施的建設、數據服務新興產業的發展等等。當前大數據消費指數低,美國NSA 聲稱只是掃描1.6%的全球網絡流量(約29.21PB),分析其中0.025%的數據來支持其分析和決策。我國數據消費面臨基礎設施支撐能力有待提升、產品和服務創新能力弱、市場準入門檻高、行業壁壘嚴重、機制不適應等問題,亟需采取措施予以解決。

2)數據能效指數:

數據能效指數是指大數據處理中的價值能耗比例,是衡量大數據價值獲取的綠色指數。當前面對大數據,通常采取基于數據中心的粗放式的分析處理和價值提煉方式,導致數據能效低下。一方面,由于缺乏適應大數據的計算模式,往往采取集中式全量處理方式,導致數據處理效率低,獲取單位價值所需的數據規模非常龐大,形成了大數據價值密度低的現象;另一方面,為了適應大數據爆炸式的增長,數據中心存儲系統的容量、擴展能力、傳輸瓶頸等方面面臨巨大挑戰,直接結果就是數據中心的能耗越來越大。有關調查顯示在過去5年全球數據中心的能耗增長率是56%,我國對數據中心流量處理能力的需求增長更快,數據中心能耗的問題就更加突出。目前國內數據中心的PUE平均值基本都在2.5以上,與歐美地區的PUE(能源使用效率)普遍值1.8以下還存在著較大的差距。且目前其全球的數據中心50%是完全用自然冷卻的,前十大數據中心的PUE都在1.2以下。因此數據能效指數是在大數據發展中必須面對的,關乎國家能源消耗的重要指數。

3)數據安全指數:

數據安全指數包括了數據從創建、傳輸、存儲到分析的全生命周期的安全指標,旨在衡量數據安全、隱私保護等方面的能力。數據安全是一個囊括個人,企業和國家的全方位的大數據安全體系。從個人層面,大數據對于隱私將是一個重大挑戰,哈佛大學近期的一項研究顯示,只要知道一個人的年齡、性別和郵編,從公開的數據庫中便可識別出該人87%的身份。對于企業,數據作為一種資產,其安全保護問題十分重要,隨著大數據的不斷增加,對數據存儲的物理安全性要求會越來越高,從而對數據的多副本與容災機制提出更高的要求。而在國家層面,來自外部的威脅在大數據時代顯然比以往更加突出和危險。舉世矚目的“維基解密”和“棱鏡”事件生動昭示著大數據的嚴酷挑戰?!熬S基解密”幾次泄露美國軍事外交等機密,規模之大,影響之廣,震驚全球?!袄忡R”事件向全世界曝光出網絡空間國家與個人,國家與國家之間的安全對抗。因此評估數據安全指數,有利于推動大數據安全體系的完善,提升國家、社會和個人的信息安全。

1.如何建立支撐數據密集型科學發現新范式的基礎設施:這包括了建立一系列通用的工具,以支撐從數據采集、驗證到管理、分析和長期保存等整個流程,支持跨工具、跨項目、跨領域的數據共享與整合,將是支持數據密集型科學發現的基礎問題。

2.如何建立數據全生命周期的計算模型:研究以數據為中心的新型計算架構,將計算推送到數據從獲取、存儲、處理、交換到服務的全生命周期的各個部分,研究數據全生命周期中不同計算之間的關聯、互動和共享機制,在提高數據消費能力的同時有效降低數據計算能耗,形成數據安全體系,這是大數據計算的關鍵問題。

3.如何完成數據資產化和形成數據資產流轉體系:亟需建立數據資產化的基本標準,讓不同機構、不同領域的數據形成規范化資產;建立數據資產訪問、連接和共享機制,搭建數據資產交易平臺,形成數據流轉的層次化體系結構;研究數據資產的所有權、使用權以及價值評估體系,通過市場化模式保障數據資產流轉的可行性。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢