熱線電話:13121318867

登錄
首頁職業發展透析大數據行業技術演進路徑 把握企業發展脈絡
透析大數據行業技術演進路徑 把握企業發展脈絡
2017-09-06
收藏

透析大數據行業技術演進路徑 把握企業發展脈絡

作為集團“大數據平臺技術”戰略研究的準備工作,本文梳理了近年來作者觀測到的大數據行業技術演進的路徑,希望把握發展脈絡,找到適合公司業務實際的方向。文章力求用通俗的方式描述概念,最大程度減少專業圖表與細節,以便向公司管理層與業務部門同事介紹大數據平臺技術的發展與趨勢,這里分享給金融行業的朋友參考。

數據技術演進

軟件系統,小到HelloWorld編程入門,大到數億人同時使用的社交軟件、搜索引擎,或者是基于公有云的軟件即服務(SaaS),本質上都是在處理兩件事情:業務邏輯與數據。隨著信息時代的縱深發展,業務邏輯不斷豐富與演化的同時,其所產生與處理的數據量(Volume)也出現指數級的迅速增長,業務所要求的系統處理速度(Velocity)從批量向準實時與實時過度,數據的種類(Variety)也從簡單的結構化的記錄向文本、語音、圖像視頻等豐富的形式發展。這就是大數據的三個最典型的特征。

傳統的結構化數據處理過程是:在線交易系統(OLTP,通常是關系型數據庫)產生的數據,經過Federation/ETL工具整合清洗后,加載到在線分析系統(OLAP,通常是數據倉庫、BI與統計分析),然后生成報表或統計模型。大數據的三個V對吞吐量、響應時間的要求都超越了這個成熟的模式的技術上限。因而催生了大量的能處理海量數據的新框架。

這些新框架沿著兩個思路解決吞吐量與響應時間的問題:垂直擴展(scaleup)或水平擴展(scaleout)。垂直擴展門檻高,技術為IBM之類的大公司所壟斷,而水平擴展則門檻相對較低,以源自Google公司的MapReduce為代表,在開源的推動下迅速普及。著名的ApacheHadoop就是此類技術的代表,具備強大的生命力。

這些新框架多來自程序社區,其繁榮一度讓人們覺得可以淘汰數據社區SQL那套技術體系。隨著多種NoSQL數據庫的廣泛應用,人們發現,數據的一致性,可用性與并行性三者不是可以同時獲得的,強化其中之一是以弱化另外一個要素為代價的。而且編程方式的數據使用缺乏一致的標準,造成諸多問題。因而,程序社區與數據社區的逐步融合成為趨勢選擇,NoSQL發展成NotOnlySql,再到NewSQL,水平擴展的新型數據處理框架獲得了標準化的SQL訪問界面。

在很多場景下,分而治之的方式可以解決吞吐量的問題,單位時間內,增加更多的機器,可以增加處理的數據量,Volume的問題得到解決。而系統對于處理速度的不懈追求,則可以通過不斷拉近數據與處理器(CPU)的距離得到滿足,磁帶到硬盤,硬盤到SSD,SSD到Flash,Flash到內存,內存到一二級Cache,再到寄存器。從內存數據庫到分布式Cache,再到Spark,處理同等量的數據越來越快。

處理多樣性數據的系統也在與時俱進,對應數倉/BI時期的多媒體內容管理系統,多是以描述這些多媒體內容的元數據作為索引,訪問鏈接到這些內容數據。新分布式大數據處理框架下,則引入了文本分析,語音圖像的機器學習以至深度學習技術來“認識”這些內容,而不是簡單的存儲與訪問?;诨ヂ摼W海量內容的知識圖譜的構建也有大幅度進步。

Fintech數據處理

金融,一直是數據系統的重量級應用行業,信息化早,程度也高。隨著IBMORACLE等巨頭在該行業深耕多年,金融機構大多在傳統的數據體系上有了較為完備的建設。OLTP交易系統、數據同步、整合與治理、數據倉庫/集市、BI報表與統計分析,是相對完善的。不少的企業還實現了內容管理系統的建設使用。

互聯網企業在大數據上面構筑的數據資產壁壘,開發利用后獲取的競爭優勢,讓傳統的金融企業,特別是那些坐擁億萬客戶資源的金融企業,開始意識到大數據帶來的價值以及潛在的驅動與變革力量,逐步重視積累與發掘利用大數據資產,籍此提升企業的科技能力,獲取行業的競爭優勢?!皵祿柟狻本褪顷柟獗kU集團高瞻遠矚的重要戰略。

金融行業服從嚴格的數據安全與監管,對數據一致性近乎苛求。因而傳統的金融數據體系以可靠性與一致性為原則構建,強調事務處理,其中涉及到的分布系統也都具備兩階段提交(2PC)等分布式事務能力。起源于互聯網企業的大數據處理框架,則多選擇放松處理過程中的一致性要求,提升系統并行能力與性能,僅追求最終一致性。因而在金融數據體系中,分析型的系統相對交易系統,更適合采用這些框架。

風險控制是金融企業核心能力,風控與征信變成金融大數據的主場景。獲取足夠的用戶行為數據,建立合理的評估模型,有助于企業在用戶金融活動的整個生命周期規避風險,提升服務水平?,F行的金融技術體系,無法從技術上確保交易主體間的相互信任,需要依賴第三方征信主體參與,而鑒于數據碎片化、交易壁壘與隱私保護等因素,基于大數據的征信,目前以至未來很長時間,還有較大的改進空間。

區塊鏈技術的繁榮,以及與金融科技的逐步融合,有巨大的潛力改變現有的金融數據體系。區塊鏈被認為是技術保證信任的價值網絡,或者說是業務互聯網。業務實體可以相互信任的處理之間的金融交易,而無需中心征信機構的參與。鏈上的數據以加密方式參與分布式事務/容錯(Paxos/PBFT),確保不可篡改的一致性。強的分布式與一致性,需以犧牲系統性能為代價,因而較為適合替代現有金融系統中的數據骨干網絡。而對于類似每秒10幾萬次交易的支付系統則是不適合的。

云支撐大數據

大數據是資源密集型的系統,對于存儲、計算、網絡等核心IT資源需求強勁,自然成為云計算最佳支撐領域。目前主流的云平臺都配有自成體系的大數據系統,滿足企業大數據處理端到端的需求,也就是從數據采集獲取、同步加載、整合清洗、安全管控、分析建模、可視化、機器學習、深度學習一整套支撐工具與系統。多數基于開源的體系定制并優化,典型的如亞馬遜AWS上的EMR,微軟Azure上的HDInsight等,都基于ApacheHadoop。這些能力通常具有非常強的伸縮性,多租戶共享,適應企業忙時閑時的不同需求,并且按照用量計費,用多少付多少費用。這些系統和工具多以平臺即服務(PaaS)+設施即服務(IaaS)方式在公有云上提供。

考慮到不少企業,特別是金融企業的數據體系,具有非常強的數據安全與監管要求,不少云平臺提供商將其公有云上的數據能力,也整合打包到其相應的私有云商業軟件套件之中,例如微軟私有云套件,阿里云私有云中的大數據平臺等。這些商業軟件套件按照企業用戶的要求,部署到企業自建自營的數據中心中,提供類似公有云上的端到端的數據能力。企業用戶獲得了對平臺、對數據自主控制的能力,損失了相應的彈性與及時更新。

云計算技術已進入普及階段,寡頭產生。國際巨頭亞馬遜、微軟、IBM紛紛落地中國,騰訊等幾家云計算也強勢崛起。這些主流的云平臺除了提供通用的大數據能力之外,還紛紛針對金融企業的特殊性推出相應的金融云服務,這里包括金融業務系統以及相應的數據保護、安全防攻擊等等,不同層級的軟硬件隔離或共享的策略,滿足不同的安全意愿。相應的服務日趨健全,例如新籌建保險公司,金融云可以與籌建團隊一起滿足保監會在IT與數據層面的籌建要求。

目前國內大型企業多采用公有云與私有云相結合的混合云方式,將核心的數據系統控制在自家的數據中心中,將部分前端業務系統與外圍業務系統部署到公有云上,以獲取一定的彈性與靈活性,節約成本。

從技術層面講,目前主流云平臺多以提供資源的虛擬化為基礎,將存儲、CPU、內存、網絡以虛擬機或容器的方式實現邏輯隔離,基于邏輯上的隔離共享與調度支持上層的數據處理體系,如數據倉庫、分布式大數據框架(Hadoop,Spark等)、機器學習模型與算法等。并且依據大數據應用負載的不同,針對計算密集,磁盤IO密集或網路IO密集的不同特點,做不同的優化,甚至拋開虛擬化,直接在硬件系統上部署大數據框架。

人工智能平臺

年過半百的人工智能,經歷兩次發展低谷到近十年來再次爆發,與大數據在深度與廣度上的積累,以及相關處理技術的長足進步密不可分。人工智能依賴機器學習,垂直領域不斷豐富的數據積累,為機器學習提供了原材料;開源的水平擴展的大數據框架為各種復雜的機器學習算法提供了價格低廉的算力,從而推動了人工智能在包括搜索、廣告、語音識別、圖像識別、自然語音理解等等領域的質的飛躍。

機器學習就是發現用來學習的數據集里面隱含的規律的過程,簡單情況下,可以將這種隱含的規律描述為某種數學函數,給定某些輸入,可以得到某些輸出。但大部分時候,機器學習的結果無法直觀表達為函數,而是一個可以運行的計算模型,從此種意義上看,是數據產生了程序邏輯,以前這些邏輯只能由程序員編碼實現。目前這些機器學出來的模型廣泛應用在許多不同領域,來做分群、分類或者預測。

作為機器學習的一個重要前沿分支,深度學習技術在語音與圖像識別、自然語言處理,概念與內容理解等方面帶來實質性重大技術進步,已成為大數據價值轉化商業財富的有效手段。Google,微軟,Facebook,百度等科技巨頭在深度學習領域持續取得進展,研發成果也以開源的方式分享出來,例如Google的Tensorflow,微軟的CNTK等優秀的深度學習框架,以及海量的標注數據。這些工具對Hadoop,Spark等開源大數據框架提供了良好支持,顯著降低了企業應用深度學習的門檻。

作為機器學習成果的綜合試驗場,移動設備上的智能聊天機器人(或稱私人助手)大熱。蘋果Siri,GoogleNow,微軟Cortana都可以學習用戶行為習慣,理解語義語境,與用戶人機對話。這些聊天機器人吸引并沉淀了大量用戶,成為新的人機交互入口。Facebook,Google與微軟更是順勢推出BotEngine/BotFramework等機器人引擎,其背后是云端的認知服務體系,一套也可做語音識別、自然語言理解、語音合成、視覺識別、情感分析、面部識別、視頻檢測,搜索等功能的人工智能平臺。廠商將這種智能的人機交互能力以機器人引擎加人工智能平臺的方式開放出來,用來構建龐大的生態系統。

綜上所述,隨著企業與互聯網數據技術不斷融合,大數據平臺技術呈現出兩大發展脈絡:(1)沿著從依托編程、專注物理底層邏輯,到深度依賴數據、數據產生業務邏輯的脈絡不斷進化。(2)新型的人機交互方式,則將大數據平臺技術能力服務化,而平臺支撐的機器學習算法的革新,則為這種服務持續賦予智能??梢灶A見,不遠的將來,智能化大數據平臺將成為公司數字化經營決策的中樞神經,每一個公司都會有自己的數字大腦。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢