
大數據存儲服務選擇指南 何謂大數據
磁盤存儲就像是衣櫥,永遠不夠用,在大數據時代,這一點尤為突出?!?a href="http://www.ruiqisteel.com/view/20992.html" target="_blank">大數據”意味著需要比傳統存儲平臺處理更多的數據。那么這對于CIO意味著什么呢?意味著他們將需要做出更多的努力,而可供參考的信息卻很少。
不過,在為大數據選擇存儲服務時也并不是完全無跡可尋。
何謂大數據
首先,我們需要清楚大數據與其他類型數據的區別以及與之相關的技術(主要是分析應用程序)。大數據本身意味著非常多需要使用標準存儲技術來處理的數據。大數據可能由TB級(或者甚至PB級)信息組成,既包括結構化數據(數據庫、日志、SQL等)以及非結構化數據(社交媒體帖子、傳感器、多媒體數據)。此外,大部分這些數據缺乏索引或者其他組織結構,可能由很多不同文件類型組成。
由于這些數據缺乏一致性,使標準處理和存儲技術無計可施,而且運營開銷以及龐大的數據量使我們難以使用傳統的服務器和SAN方法來有效地進行處理。換句話說,大數據需要不同的處理方法:自己的平臺,這也是Hadoop可以派上用場的地方。
Hadoop是一個開源分布式計算平臺,它提供了一種建立平臺的方法,這個平臺由標準化硬件(服務器和內部服務器存儲)組成,并形成集群能夠并行處理大數據請求。在存儲方面來看,這個開源項目的關鍵組成部分是Hadoop分布式文件系統(HDFS),該系統具有跨集群中多個成員存儲非常大文件的能力。HDFS通過創建多個數據塊副本,然后將其分布在整個集群內的計算機節點,這提供了方便可靠極其快速的計算能力。
從目前來看,為大數據建立足夠大的存儲平臺最簡單的方法就是購買一套服務器,并為每臺服務器配備數TB級的驅動器,然后讓Hadoop來完成余下的工作。對于一些規模較小的企業而言,可能只要這么簡單。然而,一旦考慮處理性能、算法復雜性和數據挖掘,這種方法可能不一定能夠保證成功。
你的存儲架構
這一切都歸結到所涉及的存儲結構和網絡性能。對于經常分析大數據的企業而言,可能需要一個單獨的基礎設施,因為隨著集群中計算節點的數量的增長,帶寬開銷也會增長。通常情況下,使用HDFS的多模計算集群在處理大數據時將會產生大量流量。這是因為Hadoop在集群的成員服務器間傳輸數據(以及計算資源)。
在大多數情況下,基于服務器的本地存儲并沒有高效率的優點,這也是為什么很多企業轉向使用高速光纖結構的SAN來最大限度地提高吞吐量。然而,SAN方法本身并不一定適合大數據部署。尤其是那些使用Hadoop的大數據部署,因為SAN承擔集中硬盤上數據的責任,這反過來意味著每個計算服務器將需要訪問相同的SAN來恢復正態分布的數據。
然而,當比較本地服務器存儲和基于SAN的存儲時,本地存儲在兩個方面占據優勢:成本和整體性能。簡而言之,沒有在每個計算成員放置RAID的原始磁盤在處理HDFS請求時將勝過SAN,然而,基于服務器的磁盤存在缺點,主要是在可擴展性方面。
問題是當服務器依賴于本地存儲時,你如何在必要的時候增加更多的容量。通常,有兩種方式來處理這種困境。第一種方法是增加具有更多本地存儲的額外的服務器。第二種方法是增加集群服務器的容量。這兩種方法都需要購買和配置硬件,這將導致停機時間,可能還需要重新設計架構。然而,無論使用哪種方法都要比向SAN增加容量要便宜,可以說,這是一個顯著的成本優勢。
然而,當涉及到Hadoop時,還有其他存儲選擇。例如,一些領先的存儲廠商都在建立專門針對Hadoop和大數據分析的存儲設備。這些供應商包括EMC,目前提供Hadoop解決方案,例如GreenplumHDDataComputingAppliance。甲骨文正在考慮進一步深化Exadata系列設備,提供計算能力以及高速存儲。
最后一個存儲選擇是云形式的存儲,Cloudera、微軟、Amazon和很多其他供應商都在提供基于云的大數據解決方案,這些解決方案能夠提供處理能力、存儲和支持。
在選擇大數據存儲解決方案時需要考慮究竟需要多少空間,分析頻率如何以及需要處理什么類型的數據。這些因素,以及安全、預算和處理時間都是選擇大數據存儲解決方案時需要考慮的因素。
可能站在保險的角度來看,一個試點項目可能是一個不錯的開始,商品硬件也是大數據試點項目的低成本投資選擇。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25