
核算大數據真實成本
大數據的“4V”理念volume、variety、velocity(容量、類型和速度)、value(在前三者基礎上實現收集、存儲、管理、分析而產生的數據價值)已經獲得市場認可,正在贏得更多的商業價值。但問題也隨之而生。如此廣泛的定義意味著不同的需求,不同參與者帶來的不同界定。比如,volume方面,不同的組織定義顯然不同。有些人認為,在相關BI環境中或其他系統中,超過10TB需要決策的數據就可以稱為大數據,而另一些人認為至少要到PB。velocity也是如此。數以億元的記錄流入到企業內部和外部傳輸中。但是每個業務情況完全不同,不僅是規模和傳輸角度,還有商業用例和需求也不同。比如一個大銀行大數據的問題顯然與電商或航空公司完全不同。再如對比醫院試圖收集并分析所背有傳感器的病人的數據,顯然也與來自公共事業供應商運行智能電網或電信運營商完全不同。是的,即使是被歸類于機器生成或者原始數據,但這些數據類型并不相同,更不用說數量或者增長速率。但是他們也有唯一的一個共同特點,在上述所有行業中每個人的數據都需要長期保存,即使是最為細節數據也不能隨意丟棄。
重新分配的預算
在如今的經濟環境下,企業顯然不會投入新的預算給到大數據,最可能的方案,是將現有IT預算重新分配。比如將原先分配在傳統數據倉庫或者設備上的預算調配到成本更低、更易于擴展的開源項目上,比如能夠為管理和分析數據集提供最優方案的Hadoop架構等。而這樣帶來的問題是如何將新的Hadoop系統與舊有的更受喜愛和支持的BI或DW環境相整合或者并存?
新舊系統兼容并不容易
假設下你已經有了一個數據倉庫或者數據集市,并已經開始使用各種ETL或數據移動工具及BI儀表盤,分析和報告工具,那么你肯定不想打擾那些不僅擔心影響性能水平而且需要培訓新工具培訓的商業用戶。
但事實是,針對各類商業報告和KPI,長期以來你已經習慣依賴于嚴格的SLA。但是,在同一時間,業務需要獲得新的數據集,以便獲得更好的分析,無論是直接數據源還是混合現有的客戶數據。也許是來自各種互動網站的網絡日志,點擊流數據或社會媒體的數據被利用并且用來追蹤。事實上,在追求利潤和競爭優勢的環境中,這樣的數據競爭是無法避免的。
我們都知道,傳統的關系型或柱狀數據庫不能處理非結構數據庫類型,所以需要不同的解決方案來滿足這方面的業務需求。也許有多種形式,但是在開始的時候,更多還是選擇Hdoop架構,NoSQL或NewSQL數據庫,以及除了MapReduce之外的一些查詢工具。這不是很容易的事情,因為市場上現在有相對多的技術方案。這些方案往往聲稱可以在Hadoop中運行或提供類似MapReduce或者SQL-like的能力的來管理大量非結構化數據。有些是比較成熟的,但是也有些并非所標榜的低成本。開源表面上看成本較低,但是往往需要一定程度的支持,這也是為什么商業環境很重要的原因,而這些投入顯然需要預算。大數據并非一個項目,其包含為了滿足業務需求而正確部署大數據的所有組件。就像其他IT換將中所包含的一樣:軟件許可和支持、硬件資源、專業技能、專業服務以及培訓和特定時間段企業用戶對于輸入關鍵要求如指定類型的報告、查詢、分析等在不同時間內的需求的變換。
大數據成本快速轉變
從大數據集的硬件支出管理方面來看,最初可能只需要10節點的Hadoop集群,但是如果你對數據速度要求很高,那么這個集群會很快增加到100+節點。屆時,你需要面對的是大量的支出:額外的人員和技術資源用以管理整體環境,比如系統管理及監控,通過不同業務系統而來的附加軟件,管理集群的工具等。但是如果需要對數據流進行實時分析,要檢測欺詐或有不同尋常的地方,則需要一個商業工具來提供前端GUI控制臺來跟蹤特殊的KPIs或者數據可視化工具。這樣商業用戶可以很快了解相關情況,將重點放到通過最新收集的數據帶來更多價值,減少非重點數據帶來的存儲硬件與軟件的成本。
不可否認,大數據帶來了新的機遇,這一點在一個量化的ROI中仍然是一個非?,F實的挑戰。每個人都在談論如何通過大數據和創新技術來獲得成功,但是相關成功案例并不多見。也許大數據并不成熟,但是好消息是,其發展速度比IT歷史上的任何其他項目都快,這也受益于在過去的20年里,數據倉庫和BI已經積累了足夠的經驗和教訓。
以案例審核應用
想要更仔細地審查大項目主要應用領域,最好是通過特定的業務類型與案例。 以大型金融機構為例,其已經擁有了一批傳統的數據倉庫和BI系統,由于金融不能丟棄任何數據(法令法規對其的要求),但現在企業希望對特定的數據集進行目前形勢下的趨勢分析。如審查問題,“在特定時間段內,什么構成了低風險客戶的消費模式(可參照消費者特征)”以幫助企業在細分市場獲得更好的業績。
顯然,IT預算不會隨著數據的增長而增長,相反,很大程度上需要降低成本,為此,很多企業選擇了擁有更低組建成本,并可深入了解客戶應用模式,捕捉半結構和非結構數據的Hadoop平臺。前端數據倉庫采用專用的Hadoop集群是首選方案,但是很多商業用戶仍然希望能夠同時通過Hdaoop環境和現有的傳統數據倉庫環境來訪問。鑒于我們談論的是金融機構,對有效性和安全性的要求都最高。要實現更多新需求,就需要更多技能和盡量避免重復工作。
下面是一個關于主要成本因素和評論集的快速表,可以幫助用戶降低成本:
大數據基本上是一個商業問題。在你開始思考“什么業務能幫助企業收集、存儲和分析新的數據集等”,就已經踏上了應用之路。無論你是否考慮主動引入外部顧問還是供應商來做相關項目,都要面對與現有環境相融合等問題。此外,大部分方案商都愛承諾,但新的創新技術包括Hadoop和MapReduce是否能夠達到你的測試標準,是否可以與現有系統融合,都是問題。我們都知道,商業客戶購買僅代表了成功的一半,而另一半是部署。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25