大數據分析調查報告：盡管困難重重，企業依然滿懷熱情-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁職業發展大數據分析調查報告：盡管困難重重，企業依然滿懷熱情

大數據分析調查報告：盡管困難重重，企業依然滿懷熱情

2015-11-14

收藏

大數據分析調查報告：盡管困難重重，企業依然滿懷熱情

前言

自18個月前上一次調查以來，大數據分析工具取得了穩步進展；這表明試點項目和概念證明繼續轉變為生產環境應用程序，41%的企業聲稱部署了一種生產應用程序，而上一次只有10%。

與所有主要的企業技術采用生命周期一樣，客戶部署軟件的能力受制于吸收消化復雜軟件的能力。
具體來說，阻礙內部部署型Hadoop更快發展的兩大限制因素是龐大的管理開銷和需要專門技能。

兩個隱含的重大影響造成了廠商號稱100%的增長與實際現狀之間出現脫節。

許多沒有使用的軟件堆積在客戶的“庫存”中――就像上世紀90年代中后期企業資源規劃（ERP）和企業互聯網基礎設施采用方面出現泡沫那樣；在前期收入少得多的訂閱軟件盛行的時代下，廠商可能竭力推銷用戶目前吃不消的單子，以期抵消直銷活動的高昂成本。
隱藏的挑戰，尤其是隨著Hadoop進入主流：由于管理和技能方面的開銷要求比較低，Hadoop即服務以及來自AWS、Azure和谷歌的云原生服務更容易“消費”。

概要

來自廠商和研究公司的夸大說法聲稱Hadoop廠商的收入增長率高達三位數；聲稱對參與大數據分析生態系統的另外許多企業來說，數字接近三位數。Wikibon的調查結果表明這些夸大說法與實際情況之間存在著脫節。這種脫節意味著企業客戶的軟件“庫存”越積越多。到某個時候，我們可能會看到庫存“修正”，企業會放緩采購，以便部署的系統開始趕上來。

從許多方面來看，Hadoop和大數據分析工具的采用與上世紀90年代中后期兩個超速發展的軟件市場的情況頗為相似。當時，ERP應用軟件（比如PeopleSoft）和企業互聯網基礎設施軟件（比如Broadvision）都出現了類似增長。但那時眾多企業無法同樣迅速地吸收消化軟件；我們的調查結果表明，現在它們同樣無法迅速吸收消化。

無論那時還是現在，管理和開發技能以及部署和運行新應用架構的操作流程無法以三位數高速增長。當初擔心遺留應用軟件受到千年蟲（Y2K）的影響，加快了ERP軟件的采購。而15年至20年前，生怕錯過互聯網革命為互聯網基礎設施起到了助推作用。同樣，我們認為，如今生怕錯過大數據分析革命也在促進采購。

除了這些需求方面的問題外，還有新的供應方面的問題。上世紀90年代中后期，企業軟件和商業模式通過銷售昂貴的軟件前期許可證，支付直銷團隊所需的極高昂的成本：公司每創收1美元，直銷方面至少要花0.5美元的成本。研發成本和利潤來自每年可續生的維護費，日益龐大的用戶群帶來了相當可觀的維護費。由于開源軟件唱主角，現在很少有前期許可證收入可以支付那些銷售和營銷開支。而按照會計原則，廠商又無法事先確認為時多年的訂閱收入單子。因而，廠商面臨更大的壓力，設法銷售大宗單子來支付高昂開支，可是客戶吃不消這種單子。反過來，廠商至少可以要求客戶支付這些采購費，所得收入支付部分銷售和營銷開支，即使廠商的報告利潤很低或者虧損。

調查方法概述

Wikibon對美國企業的300名從業人員進行了一次網上調查，這些企業已經部署了大數據分析項目，或者評估在2015年秋季開展大數據分析項目。這項調查是2014年針對同一群調查對象開展的一項調查的后續。許多問題一樣，那樣我們可以分析一段時間后的進展。我們對大數據分析下了籠統的定義，包括傳統的縱向擴展型關系數據庫管理系統（RDBMS）難以管理的技術和數據。想查看調查方法和調查對象概況的全面描述，請參閱文章末尾的“調查方法和調查對象”這個部分。

調查結果解讀

（在可能的情況下，我們將調查結果描述了相對2014年春季調查的百分比變化）

針對大數據分析的態度：認為大數據分析是競爭優勢來源的企業多了6%。

許多企業相信，大數據分析工具對業務將至關重要，是一個新的競爭優勢來源（52.1%），而不是主要用來補充現有的數據倉庫和商業智能工作負載（43.2%）。2014年春季，持有這兩種態度的調查對象比例相當。

大數據

圖1：針對大數據分析的態度（來源：Wikibon 2015）

大數據分析部署現狀：擁有至少一個生產環境應用程序的企業多了10%

試點項目和概念證明（POC）繼續穩步成熟，進入到生產環境。企業正從部署的評估階段（2014年春季41%，2015年秋季32%）進入到至少將一個應用程序部署到生產環境的階段（2014年春季31%，2015年秋季41%）。這種轉變表明，企業在采用大數據分析方面取得穩步進展。

大數據

圖2：部署狀況和成熟度（來源：Wikibon 2015）

大數據分析項目結果：相比18個月前，聲稱“取得成功”的企業多了4%

2015年春季聲稱取得成功的企業（44.6%）比2014年秋季（40.6%）多一點。雖然它們處于采用大數據分析工具的不同階段（評估階段、概念證明階段和生產階段），幾乎所有（98%）的企業聲稱，至少獲得了部分價值，覺得自己在往正確的方向前進。

與我們的假設相一致，大企業（員工數量超過5000人）聲稱取得成功的可能性比中小企業高出12%（50.7%比39%），大企業更有可能擁有足夠的技術技能。

角色不同，結果評價大不一樣。技術型人員（基礎設施管理員和大數據科學家）比業務人員（業務分析員和用戶）更有可能聲稱“取得成功”：54.1%比32.6%。我們將這22%的差異歸因于技術人員更有可能認為正常運轉的集群是成功。業務人員更有可能認為可用的、可信的庫（含有可付諸行動的分析結果）是成功。很顯然，業務用戶當中還有增長空間。

大數據

圖3：大數據分析項目的結果（來源：Wikibon 2015）

大數據分析的主要使用場合：IT操作支持和提取轉換加載（ELT）各自超過50%

IT部門常常部署新技術，支持自己的使用場合，以便獲得支持更廣泛的生產環境部署所需的技能。大數據分析工具似乎遵循這種模式。

最流行的應用程序以IT操作支持為中心，一半以上的企業提到了它（允許多選）。此外，這些應用程序中70%以上在生產環境。

這個選擇似乎類似大型互聯網服務公司當中的早期采用情況。它們使用Hadoop來分析日志文件和點擊流，以便管理系統、改善應用程序的功能特性。作為一種即開即用的提供類似功能的應用程序，Splunk大受歡迎，這可能與這個結果有著關系。

對大多數調查對象來說，ETL也是一種應用程序。這個結果與Hadoop“跨越鴻溝”的應用（比如數據湖）相一致，這種應用還卸載了來自數據倉庫的ETL處理任務。

混合操作型分析應用程序的部署狀況：部署到生產環境的企業比18個月前多了15%

使用大數據用于操作型/事務型生產應用程序的比率在2015年秋季相比2014年春季有所提高：66.3%比51.6%。相比之下，那些還沒有部署應用程序，但計劃在今后六個月部署的企業減少了13%，減至32%。

在過去18個月間，企業在將其中一個應用程序部署到生產環境方面取得了顯著進展。事務功能和分析功能的組合是部署方面出現如此大幅提升的一個顯著特點，這表明這一類新的應用程序會在將來得到廣泛采用。其中許多應用程序將屬于Wikibon研究人員認為的智能系統（Systems of Intelligence）。

大數據

圖4：混合事務型大數據分析應用程序的部署（來源：Wikibon 2015）

支持操作型大數據分析應用程序面臨的挑戰：近實時集成和總體性能

雖然生產環境下操作型大數據應用程序的數量可能在增長，但是讓所有組件適當地協同運行的信心仍有待提高。重點是讓基本集成和操作性能都毫無問題。

IT從業人員和業務人員列出了一系列挑戰（可以多選）。這包括將分析工具以近實時方式集成到應用程序中，或者將來自操作型應用程序的數據饋送到分析工具；面對數據量龐大、讀/寫操作次數高以及并發用戶數量多的情形，保持應用程序性能。

如今，整合新的數據源和優化算法是不大艱巨的挑戰。

大數據

圖5：成功部署混合事務型大數據分析應用程序面臨的幾大障礙（來源：Wikibon 2015）

Hadoop方面的使用、體驗和計劃

182位即61%的調查對象聲稱，所在企業使用了Hadoop。

管理開銷：客戶環境從單一集群增加到3個或更多個集群后，每個集群的管理員數量減少了一半。

只有一個集群的客戶聲稱，平均需要3.5名管理員；而擁有2個以上集群的客戶聲稱，數量減少到1.4名，因為他們更能充分利用稀缺的技能?？偟膩碚f，調查對象聲稱，每個集群需要2.2名管理員。

大數據

圖6：每個集群的管理員數量（來源：Wikibon 2015）

部署在Hadoop集群上的軟件

調查對象聲稱，平均近3個軟件工具部署在Hadoop集群上。最常被提到的工具是Cloudera Manager，達到32.4%，但Spark被提到的頻率幾乎一樣高，為29.7%。HBase也有18.7%，而Hive低一點，為18.1%。大多數調查對象可能并不認為MapReduce是一種軟件工具，因為它的提及率相當低。

計劃在今后12個月將Hadoop用于生產環境

絕大多數調查對象聲稱，他們如今就在生產環境下使用Hadoop，或計劃在今后12個月內使用。

主要的應用程序（可以多選）

客戶分析應用程序（比如客戶流失和營銷活動）共同排名超過50%，這不足為奇。ETL跨越鴻溝的初使使用場合超過50%。欺詐檢測應用程序達到37%。

Hadoop方面的長期計劃

雖然認識到大數據分析對業務成功而言很重要，但是調查對象通常并未準備好擁抱Hadoop代替數據倉庫；45.6%的調查對象表示，Hadoop戰略與傳統的數據倉庫技術扮演同樣重要的角色，都獲得了投入。31.2%表示了類似的觀點，但是將Hadoop用于不大關鍵的應用程序。然而，13.2%將Hadoop用于代替傳統的數據倉庫技術――或者獲得新的開支（6.6%），或者將目前用于傳統數據倉庫的一些開支實際上改而投入到Hadoop。

相對數據倉庫，大公司對于Hadoop部署所持的態度比小企業來得積極大膽，小企業更有可能認為Hadoop和傳統數據倉庫“扮演同樣重要的角色”。

大數據

圖7：相對數據倉庫的中長期戰略（來源：Wikibon 2015）

員工數量超過1000人的大企業（58.8%）比小企業更有可能擁抱“兩個角色同樣重要的”戰略，40.5%采用了“穩步增加投入”戰略。相比大企業（31.4%），小企業（45%）往往將Hadoop主要用于“不大關鍵的分析工作負載”――顯得比較謹慎。

Hadoop方面的滿意度

滿意度比較高――10.4%聲稱他們只是“有點”滿意，只有1個調查對象聲稱“有點不滿意”。95%聲稱凈推薦分高于80%。

大數據

圖8：Hadoop方面的滿意度（來源：Wikibon 2015）

開源Hadoop發行版與商用Hadoop發行版：商用發行版的采用率隨生產部署一并增長

2014年春季到2015年秋季，出現了一股非常大的趨勢：不再依賴免費的Hadoop發行版，改用付費訂閱。隨著大數據分析工具變得更整合到操作型應用程序中，企業變得更依賴能為這些關鍵智能系統提供優質工具和支持的廠商。員工數量超過10000人的公司中72%在使用收費發行版，而員工數量不到10000人的公司中只有64%使用收費發行版。然而，這兩類公司都從免費發行版向收費發行版轉變，轉變速度相似。

大數據

圖9：商用Hadoop發行版相對純開源發行版的采用（來源：Wikibon 2015）

相對Hadoop的Spark計劃和體驗：Spark部署于生產應用的步伐遠落后于Hadoop，卻被寄予厚望

Spark仍處于早期階段，只有6.9%的企業在生產環境中至少部署有一個Spark應用程序。然而，74.0%的企業在評估Spark，或者將Spark處于試點項目/概念證明階段。調查對象非?？春肧park在未來計劃中的地位。78%表示，他們預計Spark會取代一些原本放在Hadoop處理引擎（比如Hive）上的新工作負載。足足有20%的調查對象表示，他們預計Spark會取代原本放在Hadoop引擎上的相當多的新工作負載。

普及看好Spark，一方面可能是由于它仍處于蜜月期。部署到生產環境和規模擴大免不了會帶來初期困難，未來會更頻繁地出現。

大數據

圖10：Spark部署的成熟度（來源：Wikibon 2015）

一半以上的調查對象聲稱在使用Spark的SQL庫，Streaming稍落后于它，這不足為奇。四大庫得到廣泛使用，這表明許多應用程序其實在充分利用諸多庫之間日益集成這一點。

公有云方面的計劃

企業在大量使用公有云用于大數據分析――74%的調查對象稱，他們在云端處理一些生產工作。使用Hadoop和使用原生服務的企業一樣多。我們定義的原生服務以AWS服務為例，比如Data Pipeline、Kinesis、DynamoDB、Redshift，以及在谷歌去云平臺和微軟Azure上的對應服務。一些用戶聲稱這兩種方法都用。雖然2014年春季調查對象表述這個問題有點不一樣，但在我們的2015年調查中，公有云使用總體增長了5%。

大數據

圖11：大數據工作負載在公有云上的采用（來源：Wikibon 2015）

Hadoop不是一個產品，而是一個迅速發展的、創新的生態系統。其缺點是，管理開銷相當高，具體表現為需要新的專業技能。我們的一部分假設是，隨著Hadoop部署進入到主流，中小企業（員工數量不足5000人）會更傾向于將Hadoop部署到公有云。我們不僅預計部署到云的Hadoop其份額會增長，還預計原生云服務的份額也會增長。

采用Hadoop的大企業往往在公有云中處理比其他企業更多的生產工作，原生公有云服務的使用增長率與非Hadoop使用相當。我們認為，大企業擁有讓Hadoop走得更遠、進入到生產部署所需的技能，無論是部署到內部還是部署到云。我們預計，一段時間后，中小企業會將更多份額的工作負載部署到公有云，因為這對操作要求比較低。

公有云用戶提到這一點：數據已經在云端（58.0%）及/或公有云提供了操作簡單的優點（53.8%）。44.5%的用戶認為，提供商能為自己提供一套更好的工具，可以更輕松地構建端到端應用程序。

大數據

圖12：使用公有云的幾大原因（來源：Wikibon 2015）

IT用戶與業務用戶在當前和未來公有云計劃方面的脫節

業務分析員和用戶（36.1%）聲稱使用原生服務的程度高于基礎設施管理員和數據科學家（30.6%）。這種不大的差異可能緣自這個事實：企業的業務部門在使用公有云，而IT部門甚至一無所知。我們預計這種差異會拉大。

技術人員更有可能（22.4%）聲稱沒有或不會將公有云用于其大數據分析項目。另一方面，業務人員更積極使用公有云（只有13.6%表示沒有或不會使用公有云）。這可能是由于技術人員偏向“我們自己搞”。

調查方法和調查對象

2015年秋季，Wikibon對美國的303名大數據分析從業人員進行了網上調查。調查一開始就詢問調查對象對于大數據分析的了解程度?；卮饘Υ髷祿治龉ぞ咧辽佟坝悬c熟悉”或“非常熟悉”的調查對象被要求繼續進行調查。

出于這次調查的需要，我們將大數據分析項目定義為：

利用非傳統數據管理工具和技術，比如Hadoop、NoSQL或大規模并行處理（MPP）分析數據庫及/或……
涉及分析多種結構化及/或非結構化數據，比如點擊流、文本、日志文件和社交媒體數據
出于這次調查的需要，大數據項目并不包括只涉及使用關系數據庫或其他“傳統數據管理技術”的項目――這些技術用來收集、處理、存儲和分析與CRM和ERP應用軟件等遺留系統有關的結構化數據。

調查進一步請調查對象明確企業所在行業、企業中的一般角色以及在大數據分析項目中的具體角色、企業員工數量和年收入。Wikibon得到了廣泛的企業類型，主要有IT技術提供商（21%）、制造企業（18%）、醫療保健企業（14%）、銀行及金融企業（11%）以及零售企業（10%）。

中等規模企業是指年收入在1億至5億美元之間，員工數量在1000人至5000人之間。23%的企業其員工數量在5000人至9999人之間，14%的員工數量超過10000人。

調查對象的職位級別從經理到高層主管不等。調查對象還被要求列出與大數據分析項目有關的角色，為此要從下列角色當中選一個：

19%的人是業務用戶（即業務部門專業人員，使用儀表板及其他可視化方式了解大數據）。
24%的人是業務分析員（即部門高級用戶，使用Excel和SPSS等工具來分析各個大數據集）。
13%是應用程序開發人員（即構建充分利用預測模型和算法等大數據分析工具的應用程序的開發人員）。
16%是數據科學家（即高級分析專業人員，針對大量“混亂”的大數據進行復雜分析，并開發預測模型/算法）。
28%是基礎設施管理員（即數據中心專業人員，管理與Hadoop、NoSQL數據庫及支持大數據分析項目的其他技術有關的基礎設施和硬件）。

從調查對象概況以及他們對大數據分析的了解來看，很顯然，因而獲得的分析表明了大數據分析工具在早期采用者當中的現狀。這是研究這個課題的必然結果。由于大數據分析技術和方法仍相對不成熟，那些在評估或已部署了大數據分析項目的企業和從業人員顯然是早期采用者。各位在考慮調查結果時，需要牢記這一個重要信息。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

大數據 Hadoop 數據分析數據倉庫 ETL SQL Hive 數據湖

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇大數據能干什么

下一篇大數據在CRM中的應用

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊