熱線電話:13121318867

登錄
首頁精彩閱讀大數據時代的高性能數據分析
大數據時代的高性能數據分析
2016-02-21
收藏

大數據時代的高性能數據分析

越來越多的企業開始“覬覦”大數據中所蘊含的價值,這一情況使得諸多的新興技術得以普及,例如Hadoop。同樣也使得越來越多的IT供應商將大數據分析作為企業新的營收增長點,如英特爾拋出了針對X86進行優化的Hadoop發行版,SAP亦推出了軟硬一體的HANA,Oracle的一體機等等。同樣,傳統的商業智能(BI,Business Intelligence)解決方案供應商亦不夠落后,如賽仕(SAS)公司在前不久的大數據論壇上展示了其最新的高性能數據分析方案(簡稱HPA)。

賽仕(SAS)公司成立于1976年,一直致力于為用戶提供優秀的軟件,目前SAS公司已是全球領先的商業分析軟件和服務供應商,同時也是商業智能市場最大的獨立廠商之一。其所提供的商業智能解決方案和數據分析軟件廣泛地用于銀行、航空航天、通信、教育、醫療、金融、政府、生命科學、制造及零售等諸多行業。

  SAS的大數據分析利器:高性能數據分析

在海量數據背景下,傳統數據分析解決方案之所以遭遇瓶頸,主要原因是無法提高數據分析的效率。賽仕軟件研究開發(北京)有限公司總經理劉政認為:“我們平常分析上千萬的數據量或者上億數據量的時候,都會花費幾十個小時(好幾天)的時間才能得到結果。當你的數據達到十億的時候,你的軟件就根本運行不下去,有的時候會好幾十天,這個速度人們是無法接受的。所以,在新的時代,我們需要高性能的分析軟件?!?

傳統的數據分析方法主要是針對結構化數據,而現代企業中非結構化數據與半結構化數據的增長速度是結構化數據的幾倍甚至幾十倍,這是導致傳統數據分析方法無法適應企業需求的最根本的一個原因。并且,傳統數據分析方式所適用的環境其數據量通常是TB級以下,采用集中式對數據進行批處理,而現在企業迫于市場的不斷變化,通常希望能夠實時得到數據分析結果。提高數據分析效率,快速得到數據分析結果是海量數據背景下,數據分析解決方案所必須具備的特性。

在本次的大數據論壇上,SAS公司展示了其最新的針對海量數據分析的高性能數據分析解決方案。據SAS公司大中華區咨詢與技術總監姚遠先生介紹,SAS公司目前正準備在中國大陸進行路演的高性能分析解決方案采用了與傳統數據分析方案完全不同的軟件架構,如網格計算、庫內分析以及內存分析等,可以極大地提高海量數據背景下的數據分析效率。

網格計算相信大家已經無比熟悉了,現在越來越多的公司已經開始使用這一技術。庫內分析則是SAS高性能分析軟件上的一大亮點,傳統的數據分析是將分析與數據庫相分離,每次分析就需要到數據庫提取數據,數據傳輸是制約效率的一大難題。而在SAS最新的高性能分析方案中其“把分析的過程放在數據庫內,這樣就無需數據提出來,避免了傳輸過程,這樣運算起來速度明顯地加快。過去所寫的SAS程序完全可以在這種模型下運行,不需要做任何的更改?!?

內存分析,亦稱內存計算,這也是當前較為熱門的技術話題之一?!鞍岩恍祿头治龅姆椒ǚ诺絻却嬷?,通過內存去讀取(數據),速度遠遠高于從硬盤中讀取(數據),這樣可以極大地提高處理速度?!辈⑶?,隨著PCIe SSD以及英特爾E5處理器的發布,將這一技術與網格計算相結合,其處理速度大幅提升是必然的。

除此之外,SAS公司最新推出的高性能分析解決方案還采用了“SAS Visual Analytics”技術,即可視化分析??蓪⒎治鼋Y果發送到智能移動終端上,以供企業用戶實時查看數據分析結果。


  “大數據必將趕超云計算

云計算與大數據是當前IT行業最為熱門的兩個話題,并且這二者之間有著千絲萬縷的聯系,通常說到云計算就不可不提大數據,而說到大數據通常也會牽扯到云計算。姚遠認為,盡管現在云計算這一話題非?;馃?,但企業的大數據部署必然會超過云計算。因為云計算只是一個平臺,而大數據分析則更貼近用戶,對用戶而言更實用。

  “大數據是企業的戰略技術”

姚遠認為,在未來,大數據將上升到一個新的高度,將成為企業不可或缺的一個戰略。他提到在之前有一段時間,很多用戶都比較關注數據挖掘,但這個一直沒有做起來。因為數據挖掘,數據分析是有先決條件的:企業要有一定的成熟度,要有一定的數據量,數據的準確性要有,企業領導有一定的關注度;第二個,要有數據科學家,就是分析人員要有一定的知識;第三個,部署一個可擴展的平臺。這些都是數據挖掘成功的關鍵點,沒有這些你不能成功。挖掘出來的數據,要有可信性,有價值,才算成功。

而數據科學家就是指專業的技術人才。例如,國內某世界500強公司把IT數據分析的人員,全部歸到業務部門,因為分析人員不光要懂技術,還應該懂業務。分析理論最難的部分,是中間變量,它需要憑分析人員的經驗,決定如何去取數,就是說取樣本。不同的人取的數據樣本不一樣,結果就出來不一樣了,只有分析人員非常有經驗才能成功。

IT人員不懂業務,就不能做分析。而數據的可視化分析、數據的可探索性,對業務分析人員非常重要?!爸灰髽I擁有數據,就可以讓分析人員去進行挖掘分析,帶來經濟價值。這也是SAS推VA(可視化分析)的原因,可讓業務人員享受大數據帶來的好處。由此看來,大數據包括前臺和后臺的各種技術,不單指一個技術,大數據將是企業的戰略技術?!币h在談到大數據分析在未來的作用時如是說。

  “軟件是方法論”

盡管現在很多IT供應商都加入到大數據分析這一熱門話題之中,其中包括有IBM、EMC等老牌的整體解決方案供應商,同時英特爾等硬件設備商也不斷地發布新的硬件來提高運算速度。但姚遠認為,海量數據分析最核心的問題應該是分析方法的革新,與硬件不同,數據分析不會被輕易模仿,因為它需要方法論,需要較長時間的積淀。SAS在數據分析領域,有獨特的沉淀和有較強的優勢,針對不同的業務場景,數據分析需要依靠豐富的行業經驗,去判斷,去優化,這正好是SAS的優勢所在。

  “合作,共同推進生態產業鏈發展”

SAS除了與Teradata等公司進行合作之外,還與惠普、戴爾等硬件廠商進行緊密合作。同時,姚遠還補充道,目前的Hadoop等開源的大數據分析技術非常受歡迎,SAS同樣也支持Hadoop,并且SAS公司最新發布的HPA(高性能分析解決方案)在后端就采用了Hadoop這一開源技術,Hadoop成熟的數據保護技術能夠幫助企業實現數據安全,并且其擴展亦非常簡單。

在另一方面,隨著數據量的不斷增長,尤其是非結構化數據的海量劇增,可預見未來的數據分析將更多地集中在對非結構化數據的分析。非結構化數據,包括eMail, 微博,聲音,圖像等數據。不同的數據,處理方式不同。比如,微博,使用爬蟲技術就行;聲音文件,使用第三方技術將聲音變成文本文件,存儲到結構化里面去做;這些方案已經很成熟了。

但圖像、視頻等數據,要對其進行解碼。目前針對圖像、視頻進行的解碼技術還比較復雜,也不成熟,還需要進一步改良和優化。但隨著時間推移,未來會出現成熟的技術來解決這個問題。大數據中的結構化、非結構數據將催生了很多技術需求。而SAS公司針對大數據分析的解決方案同樣也需要用到這些技術。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢