熱線電話:13121318867

登錄
首頁精彩閱讀核算大數據真實成本
核算大數據真實成本
2016-06-02
收藏

核算大數據真實成本

大數據的“4V”理念volume、variety、velocity(容量、類型和速度)、value(在前三者基礎上實現收集、存儲、管理、分析而產生的數據價值)已經獲得市場認可,正在贏得更多的商業價值。但問題也隨之而生。如此廣泛的定義意味著不同的需求,不同參與者帶來的不同界定。比如,volume方面,不同的組織定義顯然不同。有些人認為,在相關BI環境中或其他系統中,超過10TB需要決策的數據就可以稱為大數據,而另一些人認為至少要到PB。velocity也是如此。數以億元的記錄流入到企業內部和外部傳輸中。但是每個業務情況完全不同,不僅是規模和傳輸角度,還有商業用例和需求也不同。比如一個大銀行大數據的問題顯然與電商或航空公司完全不同。再如對比醫院試圖收集并分析所背有傳感器的病人的數據,顯然也與來自公共事業供應商運行智能電網或電信運營商完全不同。是的,即使是被歸類于機器生成或者原始數據,但這些數據類型并不相同,更不用說數量或者增長速率。但是他們也有唯一的一個共同特點,在上述所有行業中每個人的數據都需要長期保存,即使是最為細節數據也不能隨意丟棄。

重新分配的預算

在如今的經濟環境下,企業顯然不會投入新的預算給到大數據,最可能的方案,是將現有IT預算重新分配。比如將原先分配在傳統數據倉庫或者設備上的預算調配到成本更低、更易于擴展的開源項目上,比如能夠為管理和分析數據集提供最優方案的Hadoop架構等。而這樣帶來的問題是如何將新的Hadoop系統與舊有的更受喜愛和支持的BI或DW環境相整合或者并存?

新舊系統兼容并不容易

假設下你已經有了一個數據倉庫或者數據集市,并已經開始使用各種ETL或數據移動工具及BI儀表盤,分析和報告工具,那么你肯定不想打擾那些不僅擔心影響性能水平而且需要培訓新工具培訓的商業用戶。

但事實是,針對各類商業報告和KPI,長期以來你已經習慣依賴于嚴格的SLA。但是,在同一時間,業務需要獲得新的數據集,以便獲得更好的分析,無論是直接數據源還是混合現有的客戶數據。也許是來自各種互動網站的網絡日志,點擊流數據或社會媒體的數據被利用并且用來追蹤。事實上,在追求利潤和競爭優勢的環境中,這樣的數據競爭是無法避免的。

我們都知道,傳統的關系型或柱狀數據庫不能處理非結構數據庫類型,所以需要不同的解決方案來滿足這方面的業務需求。也許有多種形式,但是在開始的時候,更多還是選擇Hdoop架構,NoSQL或NewSQL數據庫,以及除了MapReduce之外的一些查詢工具。這不是很容易的事情,因為市場上現在有相對多的技術方案。這些方案往往聲稱可以在Hadoop中運行或提供類似MapReduce或者SQL-like的能力的來管理大量非結構化數據。有些是比較成熟的,但是也有些并非所標榜的低成本。開源表面上看成本較低,但是往往需要一定程度的支持,這也是為什么商業環境很重要的原因,而這些投入顯然需要預算。大數據并非一個項目,其包含為了滿足業務需求而正確部署大數據的所有組件。就像其他IT換將中所包含的一樣:軟件許可和支持、硬件資源、專業技能、專業服務以及培訓和特定時間段企業用戶對于輸入關鍵要求如指定類型的報告、查詢、分析等在不同時間內的需求的變換。

大數據成本快速轉變

從大數據集的硬件支出管理方面來看,最初可能只需要10節點的Hadoop集群,但是如果你對數據速度要求很高,那么這個集群會很快增加到100+節點。屆時,你需要面對的是大量的支出:額外的人員和技術資源用以管理整體環境,比如系統管理及監控,通過不同業務系統而來的附加軟件,管理集群的工具等。但是如果需要對數據流進行實時分析,要檢測欺詐或有不同尋常的地方,則需要一個商業工具來提供前端GUI控制臺來跟蹤特殊的KPIs或者數據可視化工具。這樣商業用戶可以很快了解相關情況,將重點放到通過最新收集的數據帶來更多價值,減少非重點數據帶來的存儲硬件與軟件的成本。

不可否認,大數據帶來了新的機遇,這一點在一個量化的ROI中仍然是一個非?,F實的挑戰。每個人都在談論如何通過大數據和創新技術來獲得成功,但是相關成功案例并不多見。也許大數據并不成熟,但是好消息是,其發展速度比IT歷史上的任何其他項目都快,這也受益于在過去的20年里,數據倉庫和BI已經積累了足夠的經驗和教訓。

以案例審核應用

想要更仔細地審查大項目主要應用領域,最好是通過特定的業務類型與案例。 以大型金融機構為例,其已經擁有了一批傳統的數據倉庫和BI系統,由于金融不能丟棄任何數據(法令法規對其的要求),但現在企業希望對特定的數據集進行目前形勢下的趨勢分析。如審查問題,“在特定時間段內,什么構成了低風險客戶的消費模式(可參照消費者特征)”以幫助企業在細分市場獲得更好的業績。

顯然,IT預算不會隨著數據的增長而增長,相反,很大程度上需要降低成本,為此,很多企業選擇了擁有更低組建成本,并可深入了解客戶應用模式,捕捉半結構和非結構數據的Hadoop平臺。前端數據倉庫采用專用的Hadoop集群是首選方案,但是很多商業用戶仍然希望能夠同時通過Hdaoop環境和現有的傳統數據倉庫環境來訪問。鑒于我們談論的是金融機構,對有效性和安全性的要求都最高。要實現更多新需求,就需要更多技能和盡量避免重復工作。

下面是一個關于主要成本因素和評論集的快速表,可以幫助用戶降低成本:

大數據基本上是一個商業問題。在你開始思考“什么業務能幫助企業收集、存儲和分析新的數據集等”,就已經踏上了應用之路。無論你是否考慮主動引入外部顧問還是供應商來做相關項目,都要面對與現有環境相融合等問題。此外,大部分方案商都愛承諾,但新的創新技術包括Hadoop和MapReduce是否能夠達到你的測試標準,是否可以與現有系統融合,都是問題。我們都知道,商業客戶購買僅代表了成功的一半,而另一半是部署。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢