熱線電話:13121318867

登錄
首頁精彩閱讀破解數據分析難題,微軟、SAP、百度們是這么干的
破解數據分析難題,微軟、SAP、百度們是這么干的
2019-09-18
收藏
破解數據分析難題,微軟、SAP、百度們是這么干的

作者 | 大數據

來源 | hzdashuju

微軟在聯機事務處理(OLTP)云基準測試中實現每節點虛擬機數量提升36%,硬件成本下降30%;SAP HANA讓系統重啟從20分鐘縮短至90秒,性能提升13倍之多,實現每TB數據庫容量成本節約39%;百度在為Feed流服務提供高性能數據存取支撐時實現TCO的有效降低;亞信在其電信業務支持系統中在成本相當的情況下,實現查詢響應下降35%……

為什么在數據爆炸性增長的今天,微軟、SAP、百度、亞信們能夠實現數據分析性能的提升以及總體擁有成本的大幅下降?

這一切還得先從數據分析的難題說起。

破解數據分析難題,微軟、SAP、百度們是這么干的

01 數據分析的難題在哪里

如今,我們身處一個數據洪流的時代,并且數據增長的腳步正在加快。過去,因為移動互聯網、社交網絡的快速發展,使得基于人的大量數據因此而產生;現在,隨著5G、物聯網的崛起,越來越多的設備開始接入到網絡之中,并且開始源源不斷的產生數據。

根據Strategy Analytics的《全球聯網和物聯網設備預測更新》報告顯示,2018年全球聯網設備數量達到220億,到2025年將會有386億臺聯網設備。

身處數字時代,面對海量數據如何挖掘其中的價值、洞悉趨勢變化,就成為幾乎所有企業/組織所期待的。但一個殘酷的事實卻是,大部分的企業/組織還只能分析極為一小部分的數據。就如IDC Global DataSPhere報告指出,全球只有不到2%的數據經過了分析。數據分析技術還遠未到普及的程度,數據處理與分析的效率則遠遠落后于數據產生的數據。

那么,當前數據分析主要有哪些挑戰?

首先是數據分析的數據量正在越來越龐大,海量數據的產生將走向日?;?。以自動駕駛為例,一輛自動駕駛汽車一天收集的樣本就高達上百萬張高清圖譜,其數據量高達3TB,并且需要不斷對這些海量數據進行分析與學習,進而會產生出更多的數據。

未來,隨著醫療、制造、航天、能源、交通等行業數字化程度越來越高,數據分析所面臨的壓力也會持續增大。

其次,數據分析對于實時性要求越來越高。雖然數據量增長迅速,但是用戶對于數據分析實時性的要求一點都沒有下降,甚至希望數據分析能夠越快越好。比如運營商的數據,種類多、體量大,一種話單每天的數據量就達到上百億條,如此大的實時數據流,也讓業務對數據分析處理的實時性提出了極高要求。

最后則是數據分析對于成本的挑戰,由于數據分析需要處理的數據越來越多。實時性要求越來越快,使得數據分析所需要的硬件資源、人員投入也更多,隨之而來的就是整體擁有成本(TCO)的上升。

破解數據分析難題,微軟、SAP、百度們是這么干的

面對數據分析這些典型的挑戰,到底使用哪些技術,才可以讓數據分析和價值挖掘帶來更快的速度和更加合理的成本?大部分人認為需要更快、核心更多、架構更有的CPU,但是CPU速度越來越快的今天,存儲和網絡傳輸的性能其實是目前最大的瓶頸所在,亟需通過新技術補上。

如何破解數據分析這些難題?英特爾傲騰數據中心級持久內存被認為是一劑良方。這也是微軟、SAP、百度、亞信們能夠從容應對數據分析的秘訣所在。

02 傲騰補上數據分析的短板

傲騰作為一種新的介質,為何可以在數據處理中發揮至關重要的作用?

這還得從計算機體系結構說起,由于目前計算依然是馮諾依曼體系結構,是計算與存儲分離的架構,這就決定了越靠近CPU,數據處理速度就越快,但是容量也就越小,這就直接導致了在CPU性能越來越快的今天,CPU與存儲介質之間的性能鴻溝越來越大。

如果為了數據分析的性能,而不斷的增加內存容量,則會大幅提升整體性能成本,出現斷電還會出現數據丟失的情況;如果依靠固態盤,則又無法彌補性能鴻溝。

因此,英特爾傲騰數據中心級持久內存孕育而生。英特爾傲騰數據中心持久內存與內存不同之處在于,它可以以更加經濟的成本來擴展出更高的容量,并且具備數據非易失性,還具備以內存相近的數據讀寫和延時,可以完美填補CPU與存儲介質之間的性能鴻溝。

破解數據分析難題,微軟、SAP、百度們是這么干的

英特爾傲騰數據中心級持久內存具備低成本下大容量的特性,單一模塊可提供128GB/256GB/512GB三種選擇,可以與傳統DDR4 內存一種安裝在基于第二代至強可擴展處理器的平臺上,可以以更經濟的價格在八路系統上實現高達24TB的容量,從而幫助用戶在更加靠近CPU的位置加載遠超之前規模的數據集,完美適合包括內存數據庫以及其他對大容量有需求的數據分析應用,讓更多數據的處理和分析走向實時化。

不僅如此,英特爾傲騰數據中心級持久內存還在產品模式上充分考慮用戶的需求,提供了三種模式供用戶靈活使用。

英特爾為傲騰數據中心級持久內存設計了第一種工作模式是內存模式。在這種模式下,它就是單純的價格更便宜、量又足,但斷電后也不會保存數據的內存,用作內存的容量擴展搭檔。處理器的內存控制器會將DRAM內存視為緩存,而將英特爾傲騰數據中心級持久內存作為可尋址的主內存。

云計算最關鍵的技術--虛擬化及容器技術可以最快的速度直接從這種模式中受益,因為它可以借此以更低的成本在單個物理服務器上提升虛擬機或容器的密度,或為虛擬機及容器提供更大的內存容量,且無需重新編寫軟件。對于數據持久性沒有要求的內存數據庫,也通用能用這一模式快速實現在內存上的數據規模擴展。

比如,在百度Feed流服務中,其核心模塊Feed-Cube全部部署在英特爾傲騰數據中心級持久內存的內存模式上,在大并發訪問壓力下的性能表現和資源消耗均符合預期,完美實現了Feed留服務高性能 數據存取的支撐,大幅降了總體擁有成本。

破解數據分析難題,微軟、SAP、百度們是這么干的

微軟的虛擬機服務也在這種模式下受益匪淺。微軟Windows Server 2019/Hyper-V 多租戶虛擬機的聯機事務處理(OLTP)云基準測試中,使用內存和英特爾傲騰數據中心級持久內存組合,比僅使用內存平臺相比,內存容量大幅提升33%,每節點虛擬機數量提升多達36%,成本則下降30%。

如果用戶對于數據持久性有要求,則英特爾傲騰數據中心持久內存可以提供第二種工作模式:App Direct模式。這種模式下,操作系統會將內存和英特爾傲騰數據中心級持久內存視為兩個獨立的內存池,使得英特爾傲騰數據中心級持久內存可以像內存一樣尋址,并像存儲設備一樣具備數據持久性。

這種持久性讓其在系統重啟期間也能保留此前加載的數據,從而能增加系統的業務彈性,縮短重啟時間,提升業務恢復的速度。只不過這種模式需要事先對運行在其上的軟件進行修改和調優。

SAP在這種模式下實現了性能的大幅提升。SAP測試了其HANA在3TB DRAM內存平臺,以及在3TB DRAM內存+6TB英特爾傲騰數據中心級持久內存平臺上的性能表現。結果表明,后者可以讓系統重啟速度從20分鐘縮短到90秒,實現13倍的提升,從而盡可能減少停機時間,并使每TB數據庫容量的成本節約39%。

如果用戶既對內存模式有需求,又有工作負載需要運行在App Direnct模式下,那么英特爾傲騰數據中心級持久內存就可激活其第三種工作模式--雙重模式,這種模式可通過預配置的方式,部分處于內存模式,其余部分則處于App Direct模式,借以兼顧用戶的雙重需求。

破解數據分析難題,微軟、SAP、百度們是這么干的

03 英特爾精選方案讓數據分析如虎添翼

2019年4月,英特爾推出第二代至強可擴展平臺,包括了第二代至強可擴展處理器、傲騰數據中心級持久內存等一系列“以數據為中心”的產品技術組合。在這些產品技術的基礎上,英特爾還推出了英特爾精選方案,可以為包括數據分析在內的各種工作負載進行優化,進一步提升應用的性能表現。

為了更好地讓用戶能夠在熟悉的軟件上釋放第二代英特爾至強可擴展處理器及英特爾傲騰數據中心級持久內存的潛力,英特爾在精選方面層面攜手合作伙伴,針對各種以數據為中心的工作負載,加速開發經過全方位優化和驗證,使之更易于部署和使用,從而推進用戶數據處理和分析平臺的創新升級,進而幫助用戶駕馭數據洪流,打造實時洞察,挖掘數據價值。

總體而言,英特爾針對數據分析當前面臨的挑戰,可以從技術、產品、解決方案等層面為用戶提供全方位的辦法,這也是像微軟、百度、SAP、亞信們青睞英特爾的原因。未來,隨著更多行業數字化程度替身個,數據分析將逐步走向普及,將會有越來越多的用戶會選擇英特爾傲騰數據中心級持久內存以及英特爾精選解決方案。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢