
大數據分析調查報告:盡管困難重重,企業依然滿懷熱情
前言
自18個月前上一次調查以來,大數據分析工具取得了穩步進展;這表明試點項目和概念證明繼續轉變為生產環境應用程序,41%的企業聲稱部署了一種生產應用程序,而上一次只有10%。
兩個隱含的重大影響造成了廠商號稱100%的增長與實際現狀之間出現脫節。
概要
來自廠商和研究公司的夸大說法聲稱Hadoop廠商的收入增長率高達三位數;聲稱對參與大數據分析生態系統的另外許多企業來說,數字接近三位數。Wikibon的調查結果表明這些夸大說法與實際情況之間存在著脫節。這種脫節意味著企業客戶的軟件“庫存”越積越多。到某個時候,我們可能會看到庫存“修正”,企業會放緩采購,以便部署的系統開始趕上來。
從許多方面來看,Hadoop和大數據分析工具的采用與上世紀90年代中后期兩個超速發展的軟件市場的情況頗為相似。當時,ERP應用軟件(比如PeopleSoft)和企業互聯網基礎設施軟件(比如Broadvision)都出現了類似增長。但那時眾多企業無法同樣迅速地吸收消化軟件;我們的調查結果表明,現在它們同樣無法迅速吸收消化。
無論那時還是現在,管理和開發技能以及部署和運行新應用架構的操作流程無法以三位數高速增長。當初擔心遺留應用軟件受到千年蟲(Y2K)的影響,加快了ERP軟件的采購。而15年至20年前,生怕錯過互聯網革命為互聯網基礎設施起到了助推作用。同樣,我們認為,如今生怕錯過大數據分析革命也在促進采購。
除了這些需求方面的問題外,還有新的供應方面的問題。上世紀90年代中后期,企業軟件和商業模式通過銷售昂貴的軟件前期許可證,支付直銷團隊所需的極高昂的成本:公司每創收1美元,直銷方面至少要花0.5美元的成本。研發成本和利潤來自每年可續生的維護費,日益龐大的用戶群帶來了相當可觀的維護費。由于開源軟件唱主角,現在很少有前期許可證收入可以支付那些銷售和營銷開支。而按照會計原則,廠商又無法事先確認為時多年的訂閱收入單子。因而,廠商面臨更大的壓力,設法銷售大宗單子來支付高昂開支,可是客戶吃不消這種單子。反過來,廠商至少可以要求客戶支付這些采購費,所得收入支付部分銷售和營銷開支,即使廠商的報告利潤很低或者虧損。
調查方法概述
Wikibon對美國企業的300名從業人員進行了一次網上調查,這些企業已經部署了大數據分析項目,或者評估在2015年秋季開展大數據分析項目。這項調查是2014年針對同一群調查對象開展的一項調查的后續。許多問題一樣,那樣我們可以分析一段時間后的進展。我們對大數據分析下了籠統的定義,包括傳統的縱向擴展型關系數據庫管理系統(RDBMS)難以管理的技術和數據。想查看調查方法和調查對象概況的全面描述,請參閱文章末尾的“調查方法和調查對象”這個部分。
調查結果解讀
(在可能的情況下,我們將調查結果描述了相對2014年春季調查的百分比變化)
針對大數據分析的態度:認為大數據分析是競爭優勢來源的企業多了6%。
許多企業相信,大數據分析工具對業務將至關重要,是一個新的競爭優勢來源(52.1%),而不是主要用來補充現有的數據倉庫和商業智能工作負載(43.2%)。2014年春季,持有這兩種態度的調查對象比例相當。
圖1:針對大數據分析的態度(來源:Wikibon 2015)
大數據分析部署現狀:擁有至少一個生產環境應用程序的企業多了10%
試點項目和概念證明(POC)繼續穩步成熟,進入到生產環境。企業正從部署的評估階段(2014年春季41%,2015年秋季32%)進入到至少將一個應用程序部署到生產環境的階段(2014年春季31%,2015年秋季41%)。這種轉變表明,企業在采用大數據分析方面取得穩步進展。
圖2:部署狀況和成熟度(來源:Wikibon 2015)
大數據分析項目結果:相比18個月前,聲稱“取得成功”的企業多了4%
2015年春季聲稱取得成功的企業(44.6%)比2014年秋季(40.6%)多一點。雖然它們處于采用大數據分析工具的不同階段(評估階段、概念證明階段和生產階段),幾乎所有(98%)的企業聲稱,至少獲得了部分價值,覺得自己在往正確的方向前進。
與我們的假設相一致,大企業(員工數量超過5000人)聲稱取得成功的可能性比中小企業高出12%(50.7%比39%),大企業更有可能擁有足夠的技術技能。
角色不同,結果評價大不一樣。技術型人員(基礎設施管理員和大數據科學家)比業務人員(業務分析員和用戶)更有可能聲稱“取得成功”:54.1%比32.6%。我們將這22%的差異歸因于技術人員更有可能認為正常運轉的集群是成功。業務人員更有可能認為可用的、可信的庫(含有可付諸行動的分析結果)是成功。很顯然,業務用戶當中還有增長空間。
圖3:大數據分析項目的結果(來源:Wikibon 2015)
大數據分析的主要使用場合:IT操作支持和提取轉換加載(ELT)各自超過50%
IT部門常常部署新技術,支持自己的使用場合,以便獲得支持更廣泛的生產環境部署所需的技能。大數據分析工具似乎遵循這種模式。
最流行的應用程序以IT操作支持為中心,一半以上的企業提到了它(允許多選)。此外,這些應用程序中70%以上在生產環境。
這個選擇似乎類似大型互聯網服務公司當中的早期采用情況。它們使用Hadoop來分析日志文件和點擊流,以便管理系統、改善應用程序的功能特性。作為一種即開即用的提供類似功能的應用程序,Splunk大受歡迎,這可能與這個結果有著關系。
對大多數調查對象來說,ETL也是一種應用程序。這個結果與Hadoop“跨越鴻溝”的應用(比如數據湖)相一致,這種應用還卸載了來自數據倉庫的ETL處理任務。
混合操作型分析應用程序的部署狀況:部署到生產環境的企業比18個月前多了15%
使用大數據用于操作型/事務型生產應用程序的比率在2015年秋季相比2014年春季有所提高:66.3%比51.6%。相比之下,那些還沒有部署應用程序,但計劃在今后六個月部署的企業減少了13%,減至32%。
在過去18個月間,企業在將其中一個應用程序部署到生產環境方面取得了顯著進展。事務功能和分析功能的組合是部署方面出現如此大幅提升的一個顯著特點,這表明這一類新的應用程序會在將來得到廣泛采用。其中許多應用程序將屬于Wikibon研究人員認為的智能系統(Systems of Intelligence)。
圖4:混合事務型大數據分析應用程序的部署(來源:Wikibon 2015)
支持操作型大數據分析應用程序面臨的挑戰:近實時集成和總體性能
雖然生產環境下操作型大數據應用程序的數量可能在增長,但是讓所有組件適當地協同運行的信心仍有待提高。重點是讓基本集成和操作性能都毫無問題。
IT從業人員和業務人員列出了一系列挑戰(可以多選)。這包括將分析工具以近實時方式集成到應用程序中,或者將來自操作型應用程序的數據饋送到分析工具;面對數據量龐大、讀/寫操作次數高以及并發用戶數量多的情形,保持應用程序性能。
如今,整合新的數據源和優化算法是不大艱巨的挑戰。
圖5:成功部署混合事務型大數據分析應用程序面臨的幾大障礙(來源:Wikibon 2015)
Hadoop方面的使用、體驗和計劃
182位即61%的調查對象聲稱,所在企業使用了Hadoop。
管理開銷:客戶環境從單一集群增加到3個或更多個集群后,每個集群的管理員數量減少了一半。
只有一個集群的客戶聲稱,平均需要3.5名管理員;而擁有2個以上集群的客戶聲稱,數量減少到1.4名,因為他們更能充分利用稀缺的技能??偟膩碚f,調查對象聲稱,每個集群需要2.2名管理員。
圖6:每個集群的管理員數量(來源:Wikibon 2015)
部署在Hadoop集群上的軟件
調查對象聲稱,平均近3個軟件工具部署在Hadoop集群上。最常被提到的工具是Cloudera Manager,達到32.4%,但Spark被提到的頻率幾乎一樣高,為29.7%。HBase也有18.7%,而Hive低一點,為18.1%。大多數調查對象可能并不認為MapReduce是一種軟件工具,因為它的提及率相當低。
計劃在今后12個月將Hadoop用于生產環境
絕大多數調查對象聲稱,他們如今就在生產環境下使用Hadoop,或計劃在今后12個月內使用。
主要的應用程序(可以多選)
客戶分析應用程序(比如客戶流失和營銷活動)共同排名超過50%,這不足為奇。ETL跨越鴻溝的初使使用場合超過50%。欺詐檢測應用程序達到37%。
Hadoop方面的長期計劃
雖然認識到大數據分析對業務成功而言很重要,但是調查對象通常并未準備好擁抱Hadoop代替數據倉庫;45.6%的調查對象表示,Hadoop戰略與傳統的數據倉庫技術扮演同樣重要的角色,都獲得了投入。31.2%表示了類似的觀點,但是將Hadoop用于不大關鍵的應用程序。然而,13.2%將Hadoop用于代替傳統的數據倉庫技術――或者獲得新的開支(6.6%),或者將目前用于傳統數據倉庫的一些開支實際上改而投入到Hadoop。
相對數據倉庫,大公司對于Hadoop部署所持的態度比小企業來得積極大膽,小企業更有可能認為Hadoop和傳統數據倉庫“扮演同樣重要的角色”。
圖7:相對數據倉庫的中長期戰略(來源:Wikibon 2015)
員工數量超過1000人的大企業(58.8%)比小企業更有可能擁抱“兩個角色同樣重要的”戰略,40.5%采用了“穩步增加投入”戰略。相比大企業(31.4%),小企業(45%)往往將Hadoop主要用于“不大關鍵的分析工作負載”――顯得比較謹慎。
Hadoop方面的滿意度
滿意度比較高――10.4%聲稱他們只是“有點”滿意,只有1個調查對象聲稱“有點不滿意”。95%聲稱凈推薦分高于80%。
圖8:Hadoop方面的滿意度(來源:Wikibon 2015)
開源Hadoop發行版與商用Hadoop發行版:商用發行版的采用率隨生產部署一并增長
2014年春季到2015年秋季,出現了一股非常大的趨勢:不再依賴免費的Hadoop發行版,改用付費訂閱。隨著大數據分析工具變得更整合到操作型應用程序中,企業變得更依賴能為這些關鍵智能系統提供優質工具和支持的廠商。員工數量超過10000人的公司中72%在使用收費發行版,而員工數量不到10000人的公司中只有64%使用收費發行版。然而,這兩類公司都從免費發行版向收費發行版轉變,轉變速度相似。
圖9:商用Hadoop發行版相對純開源發行版的采用(來源:Wikibon 2015)
相對Hadoop的Spark計劃和體驗:Spark部署于生產應用的步伐遠落后于Hadoop,卻被寄予厚望
Spark仍處于早期階段,只有6.9%的企業在生產環境中至少部署有一個Spark應用程序。然而,74.0%的企業在評估Spark,或者將Spark處于試點項目/概念證明階段。調查對象非??春肧park在未來計劃中的地位。78%表示,他們預計Spark會取代一些原本放在Hadoop處理引擎(比如Hive)上的新工作負載。足足有20%的調查對象表示,他們預計Spark會取代原本放在Hadoop引擎上的相當多的新工作負載。
普及看好Spark,一方面可能是由于它仍處于蜜月期。部署到生產環境和規模擴大免不了會帶來初期困難,未來會更頻繁地出現。
圖10:Spark部署的成熟度(來源:Wikibon 2015)
一半以上的調查對象聲稱在使用Spark的SQL庫,Streaming稍落后于它,這不足為奇。四大庫得到廣泛使用,這表明許多應用程序其實在充分利用諸多庫之間日益集成這一點。
公有云方面的計劃
企業在大量使用公有云用于大數據分析――74%的調查對象稱,他們在云端處理一些生產工作。使用Hadoop和使用原生服務的企業一樣多。我們定義的原生服務以AWS服務為例,比如Data Pipeline、Kinesis、DynamoDB、Redshift,以及在谷歌去云平臺和微軟Azure上的對應服務。一些用戶聲稱這兩種方法都用。雖然2014年春季調查對象表述這個問題有點不一樣,但在我們的2015年調查中,公有云使用總體增長了5%。
圖11:大數據工作負載在公有云上的采用(來源:Wikibon 2015)
Hadoop不是一個產品,而是一個迅速發展的、創新的生態系統。其缺點是,管理開銷相當高,具體表現為需要新的專業技能。我們的一部分假設是,隨著Hadoop部署進入到主流,中小企業(員工數量不足5000人)會更傾向于將Hadoop部署到公有云。我們不僅預計部署到云的Hadoop其份額會增長,還預計原生云服務的份額也會增長。
采用Hadoop的大企業往往在公有云中處理比其他企業更多的生產工作,原生公有云服務的使用增長率與非Hadoop使用相當。我們認為,大企業擁有讓Hadoop走得更遠、進入到生產部署所需的技能,無論是部署到內部還是部署到云。我們預計,一段時間后,中小企業會將更多份額的工作負載部署到公有云,因為這對操作要求比較低。
公有云用戶提到這一點:數據已經在云端(58.0%)及/或公有云提供了操作簡單的優點(53.8%)。44.5%的用戶認為,提供商能為自己提供一套更好的工具,可以更輕松地構建端到端應用程序。
圖12:使用公有云的幾大原因(來源:Wikibon 2015)
IT用戶與業務用戶在當前和未來公有云計劃方面的脫節
業務分析員和用戶(36.1%)聲稱使用原生服務的程度高于基礎設施管理員和數據科學家(30.6%)。這種不大的差異可能緣自這個事實:企業的業務部門在使用公有云,而IT部門甚至一無所知。我們預計這種差異會拉大。
技術人員更有可能(22.4%)聲稱沒有或不會將公有云用于其大數據分析項目。另一方面,業務人員更積極使用公有云(只有13.6%表示沒有或不會使用公有云)。這可能是由于技術人員偏向“我們自己搞”。
調查方法和調查對象
2015年秋季,Wikibon對美國的303名大數據分析從業人員進行了網上調查。調查一開始就詢問調查對象對于大數據分析的了解程度?;卮饘Υ髷祿治龉ぞ咧辽佟坝悬c熟悉”或“非常熟悉”的調查對象被要求繼續進行調查。
出于這次調查的需要,我們將大數據分析項目定義為:
調查進一步請調查對象明確企業所在行業、企業中的一般角色以及在大數據分析項目中的具體角色、企業員工數量和年收入。Wikibon得到了廣泛的企業類型,主要有IT技術提供商(21%)、制造企業(18%)、醫療保健企業(14%)、銀行及金融企業(11%)以及零售企業(10%)。
中等規模企業是指年收入在1億至5億美元之間,員工數量在1000人至5000人之間。23%的企業其員工數量在5000人至9999人之間,14%的員工數量超過10000人。
調查對象的職位級別從經理到高層主管不等。調查對象還被要求列出與大數據分析項目有關的角色,為此要從下列角色當中選一個:
從調查對象概況以及他們對大數據分析的了解來看,很顯然,因而獲得的分析表明了大數據分析工具在早期采用者當中的現狀。這是研究這個課題的必然結果。由于大數據分析技術和方法仍相對不成熟,那些在評估或已部署了大數據分析項目的企業和從業人員顯然是早期采用者。各位在考慮調查結果時,需要牢記這一個重要信息。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25