熱線電話:13121318867

登錄
首頁職業發展解析大數據應用中數據、業務與技術的關系
解析大數據應用中數據、業務與技術的關系
2015-12-02
收藏

解析大數據應用中數據、業務與技術的關系


大數據應用(BDA)是企業級應用的新方向,大數據應用架構也成為新一代企業級應用架構的核心。傳統企業級架構是由業務架構、數據架構和技術架構組成,大數據應用架構與傳統企業架構的不同也正是體現在數據、業務和技術架構的獨特性。

大數據應用:數據、業務與技術
數據是大數據應用的基礎。大數據應用處理和分析的數據是“大”數據,具有4V的特點,首先是大,TB級甚至PB級的數據,可能是單個大文件,也可能是海量的小文件群;其次是復雜,不再是結構化的數據庫,更多的是半結構化的,甚至非結構化的數據,讀取這些數據,費時費力;再有這些數據的處理,后臺可能是實時的,近實時的,或者離線的,但對用戶而言,讀取寫入要無延時。這些數據不再只是業務系統中的數據,它們可能來自互聯網、移動互聯網、社區網絡、物聯網上的各個角落,采集這些數據本身就是一件復雜的事情,更何況還要對它們進行處理和分析。數據與業務、技術的關系是,大數據處理的業務目的是發現大數據中的“信息”和“知識”,大數據對技術的要求是能夠高效地處理這么復雜的數據。
業務是大數據應用的目的。大數據處理的業務流程是采集數據、聚合數據、分析數據和展現數據。通過這樣的業務流程,要發現大數據中蘊含的信息價值,發現洞察力。這種洞察力是業務系統中的傳統數據分析和挖掘所不能發現的,大數據的全集數據的分析和挖掘,給了一個很令人期待的承諾:發現相關性!也許這種相關性,并不能建立傳統的因果邏輯,但卻能發現數據之間的更多隱藏的秘密。這種相關性的商業應用,帶來了巨大的商業價值,這是傳統邏輯思維所不能想象的。于是,發現相關性的算法就成為了業務架構的關鍵,客戶細分、聚類、相關性分析、預測分析等相關的機器學習算法,應用在大數據上,成為業務分析的主流。
技術是大數據應用的手段。在大數據上發現規律,這不是現有的數據庫、數據倉庫所能勝任的。數據大,怎么辦?分解它!在分布式文件系統(HDFS)上用分布式計算程序(MapReduce)去計算,讓程序把作業進行分解,Map計算,再Reduce匯總。集中式系統所不能解決的問題,在分布式計算系統上就迎刃而解。有了分布式的計算,就需要與之匹配的分布式數據庫、分布式的數據倉庫。于是,適用于分布式計算的列式數據庫、架構在Hadoop之上的Hive被用來解決數據庫和數據查詢分析的問題。并不是所有的大數據都是大塊的數據,有的數據很小,但需要頻繁讀寫,而且要求低延時獲得分析結果,在這種情況下,Hadoop也不能勝任。于是,輕量級的內存計算工具Spark,適用于實時處理的流計算工具Storm等框架被開發出來,解決處理大數據所需要、Hadoop卻不擅長的工作。所有這些技術,都是服務于兩件事:一是處理大數據,二是為業務需要從大數據中提取出洞察力。所以,只要能解決好這兩件事,技術人員可以用最擅長的工具來進行組合應用。這就讓大數據的技術工具層出不窮,但處理大數據難度越來越低,業務價值的實現越來越容易。
業務、數據和技術,大數據應用的核心要素,也是大數據產業發展的關鍵。實現業務大價值,需要擁有大數據,也需要掌握大數據技術工具,三者缺一不可!

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢