熱線電話:13121318867

登錄
首頁精彩閱讀大數據項目為何失敗
大數據項目為何失敗
2018-03-19
收藏

大數據項目為何失敗

在大數據方面,關于內存計算以及開源Hadoop等,寶立明也發表過很多獨特的見解。在廠商的發言人當中,寶立明也是為數不多能夠將技術深入淺出解釋清楚的人之一。他近期在DataInformed網站上發表了一篇關于大數據項目建設的文章,其中探討了大數據在企業中為何失敗的原因,并為企業建設大數據項目給出了值得關注的幾點建議。TechTarget數據庫網站在此進行了編譯,希望能夠幫助您更好地從技術和業務層面理解大數據。
    在接觸大數據的時候,業界往往會提到三個V的概念,即數量、種類和速度(volume, variety, velocity)。然而,我們對另外一個V,Value即價值的關注顯然是不夠的。也正是出于這個原因,有很多倉促上馬的大數據項目沒有能夠抓住這個新興的商業機遇,沒能達到預期的投資回報率從而導致失敗。
   大數據項目失敗的原因主要集中在以下幾點:
    1、太過關注技術層面,而忽視了商業價值;
    2、相關人員不能訪問到他們需要的數據;
    3、未能達到企業級的要求;
    4、對項目的總擁有成本(TCO)缺乏成熟的理解,這其中包括人員和IT系統。
    目前正在進行的很多大數據項目或者POC測試,更多地是對新技術的測試,而并不是商業價值的挖掘。從Apache網站下載開源軟件,然后對Hadoop測試的確很有意思,但這方面的努力很少能夠對業務帶來真正的價值。
    向這些項目要價值,企業必須有至少一名的業務人員為項目提供方向性的指導。一開始就把海量數據存儲HDFS或者數據庫,然后投入大量的新技術來對其進行分析,這樣的大數據項目注定是要失敗的。在缺少業務指引的情況下,就不要幻想能夠挖掘出業務價值。
   業務分析師與數據科學家的關系
    從大數據中獲取價值的關鍵,需要具備業務知識的員工能夠高效地獲取數據并進行探索。在一些比較關注分析的組織當中,還誕生了“數據科學家(Data Scientist)”這一職位。與傳統的業務分析師不同,數據科學家擁有不同的(更豐富的)知識儲備以及職能。
    業務分析師通過數據來解答業務問題,而數據科學家并不專注于解答問題,他們更關注的是挖掘新問題。通常情況下,一名業務分析師會使用專門的、直觀的BI工具來找到問題并給出結果。
    數據科學家則更傾向于使用數據可視化數據挖掘工具來找到數據的相關性以及模式,而這些數據在之前是沒有很好地組織在一起的。在判定數據的相關性和模式之后,它們就可以轉化為新的業務問題,提交給業務分析師來進行解答。
    數據科學家成功的一個關鍵因素就是,為他們提供細節數據的直接訪問權。在一個大數據環境下,數據類型的多樣性以及非關系型格式為傳統分析工具提出了很大的挑戰。生成ANSI SQL的工具不能夠高效率地處理大數據內容,因為這些大數據往往是鍵值對(Web日志數據)、圖形(社交網絡)、文本以及富媒體(音頻、視頻)文件等。
    包括MapReduce編程框架在內的新技術,為數據的訪問提供了新方式,同時能夠很好地解決上述問題。然而對于數據科學家來說,使用這些所謂的“NoSQL”技術來進行高級分析是比較費勁的。這時就需要一個相關的技術專家對數據訪問進行控制,他們的角色類似于中間人。
   大數據發現
    我曾經聽一名在大型銀行工作的數據科學家抱怨:“Hadoop在低成本存儲海量數據方面的確是非常好的技術,但問題是只有那些把數據存儲HDFS里人才能夠把它們弄出來?!?br />     為了解決這一難題,大數據發現(big data discovery)平臺將是整個生態系統當中非常關鍵的一環,它能夠為數據科學家提供對大數據內容的直接訪問。
    為了實現這一目標,就必須有一個數據訪問接口,能夠提供比MapReduce、Java或者C++更高級別的抽象。這就需要對MapReduce與傳統SQL進行結合,從而得到一個混合模型。盡管在開源社區有很多類似的工具,比如Pig、Hive,但這些項目還不能為數據科學家提供高效的、低成本的解決方案。
    因此,SQL與NoSQL可以結合成為“Not Only SQL”,在解決方案中添加這樣的組合變得越來越流行。大多數商業關系型數據庫廠商都已經提供了類似的功能。
   大數據項目中另外一個常見的錯誤就是陷入所謂的“銀彈”陷阱。新技術往往被視作解決所有問題的“萬能藥”,一段時間內,Hadoop已經成為了大數據的代名詞,能應對所有的分析挑戰。當然,現實中永遠不會出現一種技術解決所有問題的情況。大數據的成功需要使用正確的工具解決特定的問題。
   三平臺策略:數據歸檔、數據發現、生產環境分析
    包括LinkedIn、eBay在內的分析密集型企業,他們解決大數據的方法通常是使用三個平臺策略,即一個數據歸檔平臺、一個數據發現平臺和一個生產環境分析平臺。
    由于擴展性、快速數據加載以及低成本等特性,開源Hadoop一直受到了數據歸檔平臺的青睞。通過這個平臺,數據可以被存儲和調配,并以鍵值對的方式進行原始格式存儲。然而,將Hadoop作為分析平臺的基礎是極難操縱的,需要大量相關技術人員介入。
    對于企業級應用來說,我們就需要考慮更多的問題,比如可用性、可管理性以及安全性等。出于這一考慮,需要數據發現平臺填補Hadoop與生產環境中的傳統數據庫平臺之間的“鴻溝”。一個健壯的數據發現平臺將能夠填補上述Hadoop的功能缺陷,同時讓數據科學家能夠在SQL或者NoSQL環境下進行工作(針對關系型數據或非關系型數據)。
    數據發現平臺優化用來提供給小部分數據科學家進行數據試驗的設計與執行。數據將以未經處理的格式從Hadoop歸檔平臺導出,以快速地提供給數據科學家。如果從試驗中未能發現價值,這部分數據可以簡單地丟棄。然后通過發現平臺,新的數據再進來。如果數據中發現價值,就把這些數據提交到企業數據倉庫平臺當中。企業數據倉庫平臺中的數據是經過驗證、可以審計并可以重復利用的,用來進行生產環境分析。
    整個數據流動的過程,我將其稱之為統一數據架構,旨在利用手頭上正確的工具來解決相應的問題。企業可以使用Hadoop作為數據歸檔平臺。數據發現平臺能夠提供SQL之外的分析能力,同時提供了數據庫功能,并對性能、易用性和安全性進行了優化,適合數據科學家使用。不使用ETL技術,通過后期綁定數據發現平臺,為數據科學家提供足夠的靈活性。與此同時,生產環境分析平臺有企業數據倉庫組成,其中的數據主要是通過ETL工具加載進來的。
    當然,并不是所有的企業都需要上述的三個平臺。舉個例子, 如果數據量還不足夠大的話,那么不建議一上來就部署Hadoop平臺。相似地,數據發現平臺和生產環境分析平臺可以整合在一起,降低整體架構的復雜性。
   ROI與TCO
    一個大數據項目要成功,就必須提供一個良好的投資回報率。然而,成功的必要投資往往被誤解。投資并不僅僅是在技術層面的,還包括具備相應能力的人員投資。舉個例子,Hadoop的部署往往被誤認為是免費的,因為它是開源的,沒有許可證費用。然而在使用“免費”軟件的時候,企業就會忽視對人才的投資,只把軟件安裝在服務器集群當中是遠遠不夠的。
    從這個角度看,Hadoop可以被視為免費的寵物。領養的費用是零,但喂養的費用絕對就不是零了。企業必須重視數據科學家以及運維人員的投資,這樣才能讓系統正常運轉,并得到業務價值回報。
    另外,總擁有成本是最重要的,而不僅僅是購置成本。記住這一點對企業選擇正確的技術是很關鍵的??偝杀緝r值的優化涉及到投資正確的技術以及技能組合,需要理解針對特定的工作負載哪些技術才是最適合的,并把整個系統結合起來。
    相比于對技術過于崇拜的企業,從價值層面打通IT與業務部門的企業更容易獲得大數據項目的成功。因此,對正確的技術與技能組合的投資是非常關鍵的,將它們有機結合起來是優化總成本價值的基礎,并能讓大數據項目真正獲得成功。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢