熱線電話:13121318867

登錄
首頁精彩閱讀何為數據湖,它是如何作用于大數據分析的?
何為數據湖,它是如何作用于大數據分析的?
2019-10-09
收藏
何為<a href='/map/shujuhu/' style='color:#000;font-size:inherit;'>數據湖</a>,它是如何作用于大數據分析的?

作者 | 大喵

來源 | 物聯網空間站

什么是數據湖,它是什么工作原理?它又是如何作用于大數據分析的?它們的驅動因素和優缺點又是什么?

一般情況下,要使大數據項目成功,至少需要兩件事:其一,知道需要什么可操作的數據;其二,獲得正確的數據來進行分析和利用,以實現預期目標。

何為<a href='/map/shujuhu/' style='color:#000;font-size:inherit;'>數據湖</a>,它是如何作用于大數據分析的?

然而,有很多不同形式的數據有著形色各異的來源,并且,這種數據量,或者多樣性等會隨著時間的推移而呈指數型增長。

數據湖是在快速增長和日益非結構化的大數據領域中結束數據孤島的一種方式。

在未來幾年,工業物聯網將快速增長。這種增長,會出現更多或更優質的數據:數據在整個物聯網體系中的有著舉足輕重的地位,其作用是獲得更精確的洞察力,推動相關行動和運營,以達成期望目標。為了進行有目的大數據分析,為智能應用程序提供智能數據,也就意味著不可避免地需使用人工智能來分析所有這些數據。

數據湖是將所有不同種類數據收集、存儲、分析并轉化為洞察力和決策的地方,包括結構化、半結構化和非結構化數據。

傳統上,數據存儲于整個組織(內部數據)及其運作的生態系統(外部數據)中。這是一個挑戰:如果數據在云內云外無處不在,那就不能將有效的數據組合在一個大數據項目中。

作為一個概念,數據湖是由Pentaho的首席技術官James Dixon推廣的,并將其視為是比數據集或數據中心更適合于大數據的存儲庫。

以下是Dixon于2011年在博客上對數據湖的定義:“如果將數據中心視為商店的經過清潔、包裝和結構化的瓶裝水,那數據湖便是一個更自然的大水體。數據湖中的內容從源頭流入湖中,用戶可以在湖中進行檢查、潛水或采集樣本“。

數據湖是具有分析和行動目的存儲庫。

在本質上,大數據湖是一個存儲庫,包含大量原始的、原生格式的數據。

傳統的數據管理方法不適合處理大數據或進行大數據分析。通過大數據分析,可找到不同數據集之間的關聯,這些數據集需要合并才能實現我們的業務目標。如果這些數據集位于完全不同的系統中,那幾乎是不可能實現的。

比如,我們可以將來自一個來源的客戶數據與其他來源的數據,甚至似乎不相關的數據結合起來(例如,交通數據、天氣數據等似乎與我們的業務無關的客戶數據)。并采取相應的措施,以提高客戶體驗,提出新的服務,或提高銷售額。

何為<a href='/map/shujuhu/' style='color:#000;font-size:inherit;'>數據湖</a>,它是如何作用于大數據分析的?

自下而上的數據分析:攝入數據以填滿數據湖

數據分析和數據湖有什么關系?大數據湖是分析的兩種信息管理方法之一。

第一個是自上而下的數據倉庫,第二個是自下而上的數據湖。為了讓他更直觀,讓我們想象一個真正的湖的形象。湖不會平白無故的被填滿,通常有河流或較小的溪流給它帶來水。

數據湖是專為大數據分析而設計的,以解決大數據中的數據孤島問題。

數據湖中也會發生同樣的情況。這也被稱為數據的攝入,不論其來源或結構如何。通過上述數據分析,我們需收集實現目標所需的所有數據。

這些“數據流”有幾種格式:結構化數據(簡單地說,來自傳統關系數據庫甚至電子表格的數據:行和列), 非結構化數據 (社交、視頻、電子郵件、短信……),來自各種日志的數據(如網志、點擊流分析……)、機器對機、物聯網和傳感器數據,您可以將其命名為日志和XML,也稱為半結構化數據。

它們還涉及從全局的角度來看各種類型的數據:客戶數據、業務應用程序的數據、銷售數據等(通過API輸入數據湖)。顯然,我們將在大多數時候需利用外部數據以實現我們的目標。

數據湖的使用:存儲、分析和可視化

所有這些數據,只要它有意義,就會存儲在數據湖中,同時它也會通過應用程序接口協議API,或從各種應用程序和系統中通過批處理過程不斷輸入數據。

存儲維度是第二部分(攝入是第一部分)。在大數據湖中,這實際上意味著沒有數據孤島。因此,這意味著我們即將開始一項有趣的工作:大數據分析。

要知道,我們合并的數據集有時看起來是無關的,例如,我們可以使用人工智能來檢測購買行為和天氣狀況之間的模式,來自一個來源的客戶數據和另一個來源的客戶數據,交通數據和污染數據之間的模式,這種模式不勝枚舉。我們能用這些模式做什么?正如你所能想象的那樣,在現實生活中,大量的大數據使用示例表明,這就是你的業務或其他目標發揮作用的地方。

顯然,光是分析是不夠的。你還需對所分析的東西進行想象、理解和行動。正如EMC關于數據湖如何工作的信息圖表所示:流出的水是經過分析的數據,然后會采取相關的行動,進而產生商業洞察力。

何為<a href='/map/shujuhu/' style='color:#000;font-size:inherit;'>數據湖</a>,它是如何作用于大數據分析的?

為什么是數據湖?

如前所述,傳統上有兩種分析的信息管理方法。為什么數據湖(自下而上的方法)在數據分析中很受歡迎?

原因有很多。首先,重要的是要理解我們對數據湖的看法并不完全正確,它不僅僅是一些自下而上的大混亂數據沼澤。其中涉及到相當多的技術,協議等等。要妥善利用溪流進入湖中的圖像:在水真正進入湖中之前,就已經安裝了過濾器。

歷史遺留數據體系結構的挑戰

數據湖更受歡迎的一部分原因是歷史原因。

傳統的數據系統并不是那么開放,如果想要集成、添加和混合數據以進行分析和操作的話,也不是很容易。傳統數據架構的分析也不那么精確,成本也不低(需要額外的工具,取決于軟件)。此外,它們的構建沒有考慮到我們通常在大數據中的所有新的和正在出現的(外部)數據源。

更快的大數據分析能力

使用數據湖的另一個重要原因是大數據分析可以更快地完成。

事實上數據湖是為大數據分析而設計的,更重要的是,它是為基于實時分析的實時操作而設計的。數據湖適合以一致的方式利用大量數據,并使用算法驅動實時分析。

混合和匯聚數據:一個數據湖中的結構化和非結構化數據

數據湖還有一個優點是,可以獲取、融合、集成和聚合所有類型的數據,而不論其來源和格式如何。

Hadoop數據湖體系結構之一,它還可以處理主要數據塊之上的結構化數據,也包括來自社會數據、日志等非結構化數據。順便提一句:非結構化數據是所有數據中增長最快的形式(即使結構化數據也在不斷增長),預計將達到所有數據的90%。

將數據分析移到數據湖和邊緣

還有一個事實是,來回移動大型數據集并不是明智的做法。

有了大數據湖,應用程序會更接近于數據的所在。從這個意義上講,你可以看到應用程序移動到邊緣,而不是存儲庫中心,即以更快的速度移動并減輕網絡等方面的負擔。這是霧計算的精髓所在,它是工業4.0和工業互聯網背景下,邊緣計算在數據分析領域的最新應用。

數據湖的靈活性隨用戶的需要增長而擴展

數據湖具有高度的可伸縮性和靈活性。這不需要過多的闡述,系統和進程可以很容易地進行縮放,以處理越來越多的數據。

何為<a href='/map/shujuhu/' style='color:#000;font-size:inherit;'>數據湖</a>,它是如何作用于大數據分析的?

節約企業數據倉庫資源

最后一個優點是,正如上面來自PwC的說明所示,數據湖可以作為數據倉庫(EDW)的中轉區域。

然后,它僅用于將相關數據傳遞到倉庫,從而節省EDW資源。

數據湖的挑戰、風險和演變

數據湖有諸多的好處,同時,也有風險和挑戰需應對。

如果沒有正確的戰略設計,并考慮到必要的目標,數據湖可能成為數據沼澤。這也是為什么企業從非常傳統的數據湖方法轉向面向目標和業務導向的方法的原因。

顯然,應該從業務驅動和戰略方針著手來處理數據湖。然而,傳統上,這些數據往往是從不斷上升的數據量角度和最終所有數據都具有潛在價值的觀點來看待的。

雖然這個價值確實是有潛力的,但相當多的公司表現得像數據囤積者。此外,公司是否需要一個數據湖,如果需要,是否可以從數據湖中獲得價值。

Gartner2015年的一份報告中顯示,一些公司的Hadoop((數據湖架構的領先者)是過猶不及的,技術上的差距是阻礙發展的主要原因。

數據湖的規模

由于大數據量和大數據使用量不斷增長,大數據規劃的廣度、深度和包容性都在增加,因此數據湖的大小顯然也在不斷增長。

一篇Dimensional Research2018年大數據趨勢和挑戰報告的博客文章指出,平均數據湖大小超過100太字節的組織比例從2017年的36%增長到2018年的44%( 一年內增加22%)。這種趨勢只會持續下去,而且是大數據處理向云轉變的眾多驅動因素之一。

然而,難題依然存在:如何從所有這些數據中獲取價值。決策和行動是市場如何發展的關鍵驅動力。

確保數據湖不會變成數據沼澤

讓我們更深入地研究這些數據沼澤。如前所述,在數據湖的早期,重點是大數據的容量方面,許多企業實際上使用數據湖作為轉儲數據的地方。

這導致了數據沼澤的現象,需采取適當的方法保持數據湖的清潔。

何為<a href='/map/shujuhu/' style='color:#000;font-size:inherit;'>數據湖</a>,它是如何作用于大數據分析的?

直到今天,仍然聽到一些組織提出常規性的問題,比如:“我應該用一個數據湖來替換我的數據中心嗎?”。數據湖經常與數據中心相比較,雖然理解這些差異很重要,但問題是使用什么,什么時候使用并不是重點,正如咨詢師所言,你真正需要的是什么,要視情況而定。

我們的旨在通過數據倉庫、數據分析和商業智能環境來解決它們所適應的商業智能環境的問題。

· 數據可實現什么;

· 如何從這些數據中獲得更多的價值;

· 通過高級分析將數據貨幣化的用例有哪些;

· 我們需要什么技能;

· 我們的業務是如何由數據驅動的;

· 我們今天的處境(包括技能和文化)

· 在法規范圍內,我們需要考慮到哪些有關敏感數據的問題;

· .........

數據湖的數據情況變得清晰無誤時,就不難確保它不會變成一個數據沼澤。這種討論已經進行了很長時間,數據湖需要更多的策略和關注。

何為<a href='/map/shujuhu/' style='color:#000;font-size:inherit;'>數據湖</a>,它是如何作用于大數據分析的?

改變數據湖的要素:云、分析、價值和AI/ML

當然,數據湖也不像以前所觸及的那樣了。在早期,數據湖本質上是添加Hadoop,并保留所有現有的內容,而現在,我們可以更多地使用云中的數據。

最初,一個數據湖是給那些有技能和能力的用戶使用:找到他們想要的數據,然后能夠使用模式在讀技術來處理這個問題。幸運的是,SQL正在進入數據湖,我們開始學習如何對其中的不同島嶼建模,讓用戶直接訪問數據湖中的數據。

云的增長速度和它在業務中總體增長速度一樣快。很明顯,數據湖的未來意味著云,盡管某些行業也會有例外,其中包括監管問題,以及傳統上對公眾云采取更為謹慎的做法。

何為<a href='/map/shujuhu/' style='color:#000;font-size:inherit;'>數據湖</a>,它是如何作用于大數據分析的?

一些企業顯然也從過去所犯的錯誤中吸取了教訓,最后,隨著人工智能和機器學習變得更加重要,重點更多的放在結果和價值上,以及對近實時分析、高級分析和可視化的需求,人們更加關注結果和價值。

我們還看到數據湖商業智能解決方案轉變。簡單地總結一下:數據湖景觀發展迅速,其本質仍然是將數據轉化為價值和更好地實現這一目標的手段,技術前沿的大量趨勢和經驗教訓,使得我們很難將數據湖的過去與現在進行比較,更不用說未來了。許多組織表示,它們計劃部署一個數據湖,并轉向云,這一未來看上去相當光明。

要知道,當數據湖變得流行時,大數據仍然是一個熱門詞,至少大數據已經變得無所不在了。大數據就是數據,問題是如何處理它??偟膩碚f,數據的成熟度已經提高,新一代的專家知道,大數據分析是獲得價值的關鍵所在,你對待數據的方式與傳統數據倉庫時代不同-關于利用大數據的思維方式和文化已經在醞釀。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢