熱線電話:13121318867

登錄
首頁職業發展大數據是可重復數據刪除的_數據分析師
大數據是可重復數據刪除的_數據分析師
2015-01-29
收藏

大數據是可重復數據刪除的_數據分析師


前不久本網站曾報道了Permabit和Isilon就大數據所展開的一場“論戰”,該“論戰”吸引了眾多目光,巴西的ESG分析師Ronaldo Yamashita在“觀戰”之后發表了自己的看法,他反對Isilon關于大數據不可壓縮的觀點,并作出了以下闡述:

我們所談論的“文本”大數據,如日志或者從不同的來源(如網絡、信貸機構、Facebook)收集的信息,它們都是高度可壓縮的。事實上,大多數數據倉庫產品都是基于column的壓縮,以達到較高的重復數據刪除比率和提高性能。畢竟,最快的I/O是你不必實現的I/O。

重復數據刪除數據的結果是提高緩存利用率,而降低磁盤I/O。重復數據刪除可用于任何規模的數據;只是目前大多數重復數據刪除產品還不能處理大容量的數據,但這并不意味著不能實現。

當我們從整體存儲角度來考慮,而不僅僅是從專業數據庫的角度考慮時,Rob Peglar對于元數據的擔憂就是有道理的。但也有許多的解決方法。

微軟曾在名為“ChunkStash”的技術研究中提出了一種減少重復數據刪除對RAM需求的方法。這種方法在RAM中僅為每個記錄分配2個字節。

而復制節點之間的元數據問題可由初創廠商Scality提供的方法來解決,它使用DHT(Distributed Hash Tables)來處理元數據的分布。這與P2P(端對端)系統處理PB級規模數據所使用的技術是一樣的。

從性能的角度來看,Scality并沒有Isilon高效,但它提供了一種可能解決該問題的方法。

NetApp采用的方法和Isilon的方法一樣“高性能”,而且是以更加簡單的方式來解決這個問題,它并沒有重復刪除元數據的復制。重復數據刪除在單個節點上實現,而集群更加智能于聚合同類型的文件。這對性能和重復數據刪除都更加有利。

而諸如Vertica和Greenplum的數據庫也得益于數據的位置。它們并不使用全局重復數據刪除,卻獲得了可觀的壓縮比。

由戴爾收購的壓縮/重復數據刪除廠商Ocarina曾展示過如何從意外的文件(比如圖像和視頻)獲得更好壓縮率的方法。該方法可以用于像石油和天然氣這樣的行業,它們的數據曾長期被認為是不可能達到良好的壓縮率。

許多其他廠商處理數據的方法可能會獲得更高的壓縮率。來自IBM的Jesse Jonas曾介紹了如何堆積數據的方法,這是一種非常不錯的數據精簡算法。

壓縮和重復數據刪除將在大數據中起到舉足輕重的作用;這一切都將關于與經濟。正如Steve Duplessie所指出的那樣,下一代存儲之爭將圍繞著經濟所展開。如果你的系統相比競爭供應商的系統需要更多數據級的存儲,那么你就難以去競爭。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢