
大數據項目為何失敗
在大數據方面,關于內存計算以及開源Hadoop等,寶立明也發表過很多獨特的見解。在廠商的發言人當中,寶立明也是為數不多能夠將技術深入淺出解釋清楚的人之一。他近期在DataInformed網站上發表了一篇關于大數據項目建設的文章,其中探討了大數據在企業中為何失敗的原因,并為企業建設大數據項目給出了值得關注的幾點建議。TechTarget數據庫網站在此進行了編譯,希望能夠幫助您更好地從技術和業務層面理解大數據。
在接觸大數據的時候,業界往往會提到三個V的概念,即數量、種類和速度(volume, variety, velocity)。然而,我們對另外一個V,Value即價值的關注顯然是不夠的。也正是出于這個原因,有很多倉促上馬的大數據項目沒有能夠抓住這個新興的商業機遇,沒能達到預期的投資回報率從而導致失敗。
大數據項目失敗的原因主要集中在以下幾點:
1、太過關注技術層面,而忽視了商業價值;
2、相關人員不能訪問到他們需要的數據;
3、未能達到企業級的要求;
4、對項目的總擁有成本(TCO)缺乏成熟的理解,這其中包括人員和IT系統。
目前正在進行的很多大數據項目或者POC測試,更多地是對新技術的測試,而并不是商業價值的挖掘。從Apache網站下載開源軟件,然后對Hadoop測試的確很有意思,但這方面的努力很少能夠對業務帶來真正的價值。
向這些項目要價值,企業必須有至少一名的業務人員為項目提供方向性的指導。一開始就把海量數據存儲到HDFS或者數據庫,然后投入大量的新技術來對其進行分析,這樣的大數據項目注定是要失敗的。在缺少業務指引的情況下,就不要幻想能夠挖掘出業務價值。
業務分析師與數據科學家的關系
從大數據中獲取價值的關鍵,需要具備業務知識的員工能夠高效地獲取數據并進行探索。在一些比較關注分析的組織當中,還誕生了“數據科學家(Data Scientist)”這一職位。與傳統的業務分析師不同,數據科學家擁有不同的(更豐富的)知識儲備以及職能。
業務分析師通過數據來解答業務問題,而數據科學家并不專注于解答問題,他們更關注的是挖掘新問題。通常情況下,一名業務分析師會使用專門的、直觀的BI工具來找到問題并給出結果。
數據科學家則更傾向于使用數據可視化和數據挖掘工具來找到數據的相關性以及模式,而這些數據在之前是沒有很好地組織在一起的。在判定數據的相關性和模式之后,它們就可以轉化為新的業務問題,提交給業務分析師來進行解答。
數據科學家成功的一個關鍵因素就是,為他們提供細節數據的直接訪問權。在一個大數據環境下,數據類型的多樣性以及非關系型格式為傳統分析工具提出了很大的挑戰。生成ANSI SQL的工具不能夠高效率地處理大數據內容,因為這些大數據往往是鍵值對(Web日志數據)、圖形(社交網絡)、文本以及富媒體(音頻、視頻)文件等。
包括MapReduce編程框架在內的新技術,為數據的訪問提供了新方式,同時能夠很好地解決上述問題。然而對于數據科學家來說,使用這些所謂的“NoSQL”技術來進行高級分析是比較費勁的。這時就需要一個相關的技術專家對數據訪問進行控制,他們的角色類似于中間人。
大數據發現
我曾經聽一名在大型銀行工作的數據科學家抱怨:“Hadoop在低成本存儲海量數據方面的確是非常好的技術,但問題是只有那些把數據存儲到HDFS里人才能夠把它們弄出來?!?br />
為了解決這一難題,大數據發現(big data discovery)平臺將是整個生態系統當中非常關鍵的一環,它能夠為數據科學家提供對大數據內容的直接訪問。
為了實現這一目標,就必須有一個數據訪問接口,能夠提供比MapReduce、Java或者C++更高級別的抽象。這就需要對MapReduce與傳統SQL進行結合,從而得到一個混合模型。盡管在開源社區有很多類似的工具,比如Pig、Hive,但這些項目還不能為數據科學家提供高效的、低成本的解決方案。
因此,SQL與NoSQL可以結合成為“Not Only SQL”,在解決方案中添加這樣的組合變得越來越流行。大多數商業關系型數據庫廠商都已經提供了類似的功能。
大數據項目中另外一個常見的錯誤就是陷入所謂的“銀彈”陷阱。新技術往往被視作解決所有問題的“萬能藥”,一段時間內,Hadoop已經成為了大數據的代名詞,能應對所有的分析挑戰。當然,現實中永遠不會出現一種技術解決所有問題的情況。大數據的成功需要使用正確的工具解決特定的問題。
三平臺策略:數據歸檔、數據發現、生產環境分析
包括LinkedIn、eBay在內的分析密集型企業,他們解決大數據的方法通常是使用三個平臺策略,即一個數據歸檔平臺、一個數據發現平臺和一個生產環境分析平臺。
由于擴展性、快速數據加載以及低成本等特性,開源Hadoop一直受到了數據歸檔平臺的青睞。通過這個平臺,數據可以被存儲和調配,并以鍵值對的方式進行原始格式存儲。然而,將Hadoop作為分析平臺的基礎是極難操縱的,需要大量相關技術人員介入。
對于企業級應用來說,我們就需要考慮更多的問題,比如可用性、可管理性以及安全性等。出于這一考慮,需要數據發現平臺填補Hadoop與生產環境中的傳統數據庫平臺之間的“鴻溝”。一個健壯的數據發現平臺將能夠填補上述Hadoop的功能缺陷,同時讓數據科學家能夠在SQL或者NoSQL環境下進行工作(針對關系型數據或非關系型數據)。
數據發現平臺優化用來提供給小部分數據科學家進行數據試驗的設計與執行。數據將以未經處理的格式從Hadoop歸檔平臺導出,以快速地提供給數據科學家。如果從試驗中未能發現價值,這部分數據可以簡單地丟棄。然后通過發現平臺,新的數據再進來。如果數據中發現價值,就把這些數據提交到企業數據倉庫平臺當中。企業數據倉庫平臺中的數據是經過驗證、可以審計并可以重復利用的,用來進行生產環境分析。
整個數據流動的過程,我將其稱之為統一數據架構,旨在利用手頭上正確的工具來解決相應的問題。企業可以使用Hadoop作為數據歸檔平臺。數據發現平臺能夠提供SQL之外的分析能力,同時提供了數據庫功能,并對性能、易用性和安全性進行了優化,適合數據科學家使用。不使用ETL技術,通過后期綁定數據發現平臺,為數據科學家提供足夠的靈活性。與此同時,生產環境分析平臺有企業數據倉庫組成,其中的數據主要是通過ETL工具加載進來的。
當然,并不是所有的企業都需要上述的三個平臺。舉個例子, 如果數據量還不足夠大的話,那么不建議一上來就部署Hadoop平臺。相似地,數據發現平臺和生產環境分析平臺可以整合在一起,降低整體架構的復雜性。
ROI與TCO
一個大數據項目要成功,就必須提供一個良好的投資回報率。然而,成功的必要投資往往被誤解。投資并不僅僅是在技術層面的,還包括具備相應能力的人員投資。舉個例子,Hadoop的部署往往被誤認為是免費的,因為它是開源的,沒有許可證費用。然而在使用“免費”軟件的時候,企業就會忽視對人才的投資,只把軟件安裝在服務器集群當中是遠遠不夠的。
從這個角度看,Hadoop可以被視為免費的寵物。領養的費用是零,但喂養的費用絕對就不是零了。企業必須重視數據科學家以及運維人員的投資,這樣才能讓系統正常運轉,并得到業務價值回報。
另外,總擁有成本是最重要的,而不僅僅是購置成本。記住這一點對企業選擇正確的技術是很關鍵的??偝杀緝r值的優化涉及到投資正確的技術以及技能組合,需要理解針對特定的工作負載哪些技術才是最適合的,并把整個系統結合起來。
相比于對技術過于崇拜的企業,從價值層面打通IT與業務部門的企業更容易獲得大數據項目的成功。因此,對正確的技術與技能組合的投資是非常關鍵的,將它們有機結合起來是優化總成本價值的基礎,并能讓大數據項目真正獲得成功。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25