熱線電話:13121318867

登錄
首頁精彩閱讀大數據流式計算場景特征的解讀
大數據流式計算場景特征的解讀
2016-03-10
收藏

大數據流式計算場景特征的解讀

云計算、物聯網等新興信息技術和應用模式的快速發展,推動人類社會邁入大數據新時代。一般意義上,大數據是指利用現有理論、方法、技術和工具難以在可接受的時間內完成分析計算、整體呈現高價值的海量復雜數據集合。

大數據流式計算場景<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>

大數據蘊含大信息,大信息提煉大知識,大知識將在更高的層面、以更廣的視角、在更大的范圍內幫助用戶提高洞察力、提升決策力,為人類社會創造前所未有的大 價值。但與此同時,這些總量極大的價值往往隱藏在大數據中,表現出了價值密度極低、分布極其不規律、信息隱藏程度極深、發現有用價值極其困難等鮮明特性, 這些特征必然為大數據的計算帶來前所未有的挑戰和機遇。

大數據的計算模式主要分為批量計算(batch computing)、流式計算(stream computing)、交互計算(interactive computing)、圖計算(graph computing)等。其中,流式計算和批量計算是兩種主要的大數據計算模式,分別適用于不同的大數據應用場景。對于先存儲后計算,實時性要求不高,同 時數據的準確性、全面性更為重要的應用場景,批量計算更加適合;對于無需先存儲,可以直接進行數據計算,實時性要求很嚴格,但數據的精確度往往不太苛刻的 應用場景,流式計算具有明顯優勢。

流式計算中,數據往往是最近一個時間窗口內的增量數據,因此數據時延往往較短,實時性較強,但數據的信息量往往相對較少,只限于一個時間窗口內的信息,不 具有全量信息。流式計算和批量計算具有明顯的優劣互補特征,在多種應用場合下可以將兩者結合起來使用,通過發揮流式計算的實時性優勢和批量計算的計算精度 優勢,滿足多種應用場景在不同階段的數據計算要求。

通常情況下,大數據流式計算場景具有以下鮮明特征

在流式計算環境中,數據是以元組為單位,以連續數據流的形態,持續地到達大數據流式計算平臺。數據并不是一次全部可用,不能夠一次得到全量數據,只能在不同的時間點,以增量的方式,逐步得到相應數據。

數據源往往是多個,在進行數據流重放的過程中,數據流中各個元組間的相對順序是不能控制的。也就是說,在數據流重放過程中,得到完全相同的數據流(相同的數據元組和相同的元組順序)是很困難的,甚至是不可能的。

數據流的流速是高速的,且隨著時間在不斷動態變化。這種變化主要體現在兩個方面,一個方面是數據流流速大小在不同時間點的變化,這就需要系統可以彈性、動 態地適應數據流的變化,實現系統中資源、能耗的高效利用;另一方面是數據流中各個元組內容(語義)在不同時間點的變化,即概念漂移,這就需要處理數據流的 有向任務圖可以及時識別、動態更新和有效適應這種語義層面上的變化。

實時分析和處理數據流是至關重要的,在數據流中,其生命周期的時效性往往很短,數據的時間價值也更加重要。所有數據流到來后,均需要實時處理,并實時產生 相應結果,進行反饋,所有的數據元組也僅會被處理一次。雖然部分數據可能以批量的形式被存儲下來,但也只是為了滿足后續其他場景下的應用需求。

數據流是無窮無盡的,只要有數據源在不斷產生數據,數據流就會持續不斷地到來。這也就需要流式計算系統永遠在線運行,時刻準備接收和處理到來的數據流。在線運行是流式計算系統的一個常態,一旦系統上線后,所有對該系統的調整和優化也將在在線環境中開展和完成。

多個不同應用會通過各自的有向任務圖進行表示,并將被部署在一個大數據計算平臺中,如圖1所示,這就需要整個計算平臺可以有效地為各個有向任務圖分配合理 資源,并保證滿足用戶服務級目標。同時各個資源間需要公平地競爭資源、合理地共享資源,特別是要滿足不同時間點各應用間系統資源的公平使用。

大數據時代,數據的時效性日益突出,數據的流式特征更加明顯,越來越多的應用場景需要部署在流式計算平臺中。大數據流式計算作為大數據計算的一種形態,其重要性也在不斷提升。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢