熱線電話:13121318867

登錄
首頁大數據時代數據湖是什么?它與數據倉庫一樣嗎?
數據湖是什么?它與數據倉庫一樣嗎?
2020-07-07
收藏

數據湖或hub的概念最初是由大數據廠商提出的,表面上看,數據都是承載在基于可向外擴展的HDFS廉價存儲硬件之上的。但數據量越大,越需要各種不同種類的存儲。最終,所有的企業數據都可以被認為是大數據,但并不是所有的企業數據都是適合存放在廉價的HDFS集群之上的。

數據湖是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖從企業的多個數據源獲取原始數據,并且針對不同的目的,同一份原始數據還可能有多種滿足特定內部模型格式的數據副本。因此,數據湖中被處理的數據可能是任意類型的信息,從結構化數據到完全非結構化數據。

數據湖特征

1、 一個可以存儲大數據的并行系統

2、可以在不需要另外移動數據的情況下進行數據計算

目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。但未來總會有新的技術出現,因此我們要區分出Hadoop數據湖的不同點。數據湖是一個概念,而Hadoop是用于實現這個概念的技術。

數據湖數據倉庫的區別:

1、數據湖:能處理所有類型的數據,如結構化數據,非結構化數據、半結構化數據等,數據的類型依賴于數據源系統的原始數據格式。

數據倉庫:只能對結構化數據進行處理,而且這些數據必須與數據倉庫事先定義的模型吻合。

2、數據湖:擁有足夠強的計算能力用于處理和分析所有類型的數據,分析后的數據會被存儲起來供用戶使用。

數據倉庫:處理結構化數據,將他們或者轉換為多維數據,或者轉換為報表,以滿足后續的高級報表以及數據分析需求。

3、數據湖數據湖通常包含更多的相關信息,這些信息被訪問的概率很高,并且能夠為企業挖掘新的運營需求。

數據倉庫數據倉庫通常用于存儲和維護長期數據,因此數據可以按需訪問。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢