
大數據:存儲技術必須跟上
“大數據” 通常指的是那些數量巨大、難于收集、處理、分析的數據集,亦指那些在傳統基礎設施中長期保存的數據。這里的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業中IT基礎設施的規模。業內對大數據應用寄予了無限的期望 商業信息積累的越多價值也越大 只不過我們需要一個方法把這些價值挖掘出來。
也許人們對大數據的印象主要從存儲容量的廉價性而來,但實際上,企業每天都在創造大量的數據,而且越來越多,而人們正在努力的從浩如煙海的數據中尋覓有價值的商業情報。另一方面,用戶還會保存那些已經分析過的數據,因為這些舊數據可以與未來收集的新數據進行對照,依然有潛在的利用可能。
為什么要大數據?為什么是現在?
與以往相比,我們除了有能力存儲更多的數據量之外,還要面對更多的數據類型。這些數據的來源包括網上交易、網絡社交活動、自動傳感器、移動設備以及科學儀器等等。除了那些固定的數據生產源,各種交易行為還可能加快數據的積累速度。比如說,社交類多媒體數據的爆炸性增長就源于新的網上交易和記錄行為。數據永遠都在增長之中,但是,只有存儲海量數據的能力是不夠的,因為這并不能保證我們能夠成功地從中搜尋出商業價值。
數據是重要的生產要素
信息時代,數據儼然已成為一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業的應用。各行各業的公司都在收集并利用大量的數據分析結果,盡可能的降低成本,提高產品質量、提高生產效率以及創造新的產品。例如,通過分析直接從產品測試現場收集的數據,能夠幫助企業改進設計。此外,一家公司還可以通過深入分析客戶行為,對比大量的市場數據,從而超越他的競爭對手。
存儲技術必須跟上
隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網絡以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬件的發展最終還是由軟件需求推動的,就這個例子來說,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基于塊和文件的存儲系統的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據的挑戰。
容量問題
這里所說的“大容量”通??蛇_到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機?;谶@樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。
“大數據”應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基于對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾?;趯ο蟮拇鎯ο到y還具有廣域擴展能力,可以在多個不同的地點部署并組成一個跨區域的大型存儲基礎架構。[page] 延遲問題
“大數據”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網絡成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,并準確的進行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送“過期”的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基于對象的存儲系統則能夠支持并發的數據流,從而進一步提高數據吞吐量。
有很多“大數據”應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。
并發訪問 一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享并使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平臺下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶并發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。
安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去并不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。
成本問題
“大”,也可能意味著代價不菲。而對于那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。[page] 很多大數據存儲系統都包括歸檔組件,尤其對那些需要分析歷史數據或需要長期保存數據的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經濟的存儲介質,事實上,在許多企業中,使用支持TB級大容量磁帶的歸檔系統仍然是事實上的標準和慣例。
對成本控制影響最大的因素是那些商業化的硬件設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定制他們自己的“硬件平臺”而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展過程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提供純軟件的形式,可以直接安裝在用戶已有的、通用的或者現成的硬件設備上。此外,很多存儲軟件公司還在銷售以軟件產品為核心的軟硬一體化裝置,或者與硬件廠商結盟,推出合作型產品。
數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基于時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
應用感知
最早一批使用大數據的用戶已經開發出了一些針對應用的定制的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用服務器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。
小用戶怎么辦?
依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的“大數據”存儲系統,主要吸引那些對成本比較敏感的用戶。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25