
企業使用大數據架構的幾種選擇
如果詢問十家公司為了運行大數據負載需要使用怎樣的基礎架構,那么可能會得到十種不同的答案?,F在這個領域當中幾乎沒有可以遵循的原則,甚至沒有可以參考的最佳實踐。
不管是從資源還是從專業性方面來說,大數據分析已經成為基礎架構領域當中真正的難題。顧名思義,大數據分析工具所針對的數據集合規模將會非常龐大,并且需要大量的計算、存儲和網絡資源來滿足性能需求。但是這些大數據工具通常是由超大規模企業開發的,這些企業并不存在普通企業需要考慮的同等級安全顧慮和高可用性問題,而主流IT企業還沒有深入了解這些工具,再加上大數據在投資回報率方面的不確定性,導致只有非常少的企業愿意在大數據方面進行投入。
此外,即便對于曾經在Hadoop、Spark和類似產品上運行過大數據集群的部分企業來說,也會在大數據基礎架構方面遇到技術和業務方面的挑戰。
大數據帶來大問題
一家大型遠程通訊提供商正在構建一種新的數字服務,預計在今年年底正式推出,并且準備使用Hadoop來分析這種服務所產生的內容、使用情況和收入(廣告服務)數據。但是負責這個項目的技術副總裁表示,由于這種服務是全新的,因此很難分析應該使用哪種大數據基礎架構。
“對于一個還沒有推出的項目來說,我們不可能進行任何容量規劃,”他說。
確實,現在很多大數據項目仍然處于初級階段?!按蠖鄶荡髷祿椖康男再|比我們想象的還要低,” Andrew Warfield表示,他是可擴展存儲基礎架構提供商Coho Data的CTO。
即便企業還不是十分倆了解大數據技術,但這并不意味著企業不應該在大數據方面投入精力?!暗沁\行這種技術可能面臨著很大風險,提前認識到這點非常重要,” Warfield說,他認為企業應該提前考慮基礎架構方面的因素。
對于這家遠程通訊提供商來說,他們將會采用一種漸進的方式,其使用來自于BlueData Software的軟件在商用硬件環境當中運行大數據集群,這樣就能夠從現有的存儲系統上訪問數據了。
無處不在的數據
如果數據來自于云中,那么當然可以直接在云中進行分析;如果數據全部位于本地,那么底層的基礎架構也應該位于本地。但是如果數據分散在不同位置,那么無疑會使得基礎架構更加復雜。
遠程通訊提供商的服務將會同時使用來自于云中和本地的數據。對于任何大數據解決方案來說,考慮到合規性、節省時間和網絡帶寬等因素,能夠同時支持兩種數據來源都是十分重要的?!巴缴a環境當中的數據是一件非常困難的事情,”這位副總裁說,“我們希望將所有的實例全都指向一個單一數據源?!?/span>
此外,雖然數據科學家想要分析的信息是可用的,但是現在還不能進行使用,因為其位于大數據計算工具無法訪問的存儲基礎架構當中。一種解決方案是存儲硬件使用Hadoop Distributed File System或者RESTful API這樣的協議公開這些數據。
注意延遲
對于某些大數據分析來說,將數據從存儲陣列移動到計算環境所花費的時間將會對性能造成嚴重影響。但是如果不將數據跨越整個網絡移動到計算環境當中,而是將應用程序移動到數據附近以降低延遲,將會怎樣呢?
將計算環境移動到數據附近并不是一種全新的概念,但是現在出現了一種前所未有的實現方式:Docker。比如Coho Data和Intel通過合作證明了這種概念的有效性,在一個大型金融服務公司當中,使用Docker格式封裝計算節點,之后在上面直接運行Hadoop負載。
在存儲陣列上直接運行Docker容器,這樣做的意義在于直接對附近的數據進行分析,而不再需要跨網絡移動數據,同時利用任何可用的計算資源?!跋啾扔谄渌鎯ζ脚_來說,大數據平臺的CPU使用率通常會很高,”Warfield說,“更何況如果你將閃存加入其中,那么問題就會變成‘我該如何從這種資源當中獲得更多價值?’”
直接在存儲陣列當中運行容器化應用程序是一件非常有趣的事情,但是需要提前對負載進行認真評估,以確保其能夠很好地適應當前環境,Signature Tech Studios的副總裁Bubba Hines說。這家公司為建筑行業提供文檔管理服務。這種服務基于Amazon Web服務,使用來自于Zadara Storage的存儲服務。這家公司最近開始評估新的Zadara Container Service,其中容器化應用程序運行在存儲陣列上,可以直接訪問本地磁盤。根據Hines的想法,現在有幾種可能的使用情況:在存儲陣列上運行其災難恢復軟件的容器版本來持續監控用戶數據和工作方面的變化,更改或者驗證主要存儲數據。
但是如果使用Zadara Container Service處理全部數據將沒有什么意義。Signature Tech Studio的系統正在按照計劃執行數據轉換,并且已經實現大規模容器化了。但是“我們可能不會將所有這些(Docker容器)移動到(Zadara)容器服務當中,因為從體積和規模方面考慮這樣做并沒有意義,”Hines說,“我們必須尋找能夠真正從降低延遲當中獲利的負載?!?/span>
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25