
2016年全球關于大數據分析領域的大事記
2016年2月,紅極一時的BI和可視化工具提供商Tableau發布財報,業績令人大失所望,其市值在一天之內被腰斬。這預示著2016年的BI市場將動蕩不安。幾個月后,風暴再起,Qlik Technologies的股價暴跌一半多,在2016年6月被Thoma Bravo以大約30億美元的價格收購。
Gartner表示,I市場已經達到“臨界點,需要我們從新的角度來思考”。AlphaGo系統,在圍棋比賽中戰勝人類頂尖棋手。按照英偉達(Nvidia)一位產品經理的話說,這場人機大戰堪稱AI技術的“宇宙大爆炸”時刻。從Siri和Alexa等AI驅動的聊天機器人,到自動駕駛汽車,無數消費者漸漸意識到AI帶來的巨大好處。
2016年11月互聯網巨頭亞馬遜(Amazon)在AWS re:Invent大會上發布的Amazon AI。2016年11月互聯網巨頭亞馬遜(Amazon)在AWS re:Invent大會上發布的Amazon AI。
民意調查機構未能就2016年6月的“英國脫歐”公投準確評估選民情緒。如果說這還只是讓人感到意外的話,那么唐納德·特朗普(Donald Trump)在11月份的總統選舉中擊敗希拉里·克林頓(Hillary Clinton),與幾乎所有的政治民意調查結果截然相反(只有一項調查例外),則可以說是大數據分析在2016年甚至可能是近十年來的最大慘敗。
IdentityForce制作的“2016年網絡安全恥辱墻”上還包括:美國司法部(3萬名DHS和FBI職員的數據失竊);美國國稅局(70萬名納稅人的記錄泄露);威瑞森(150萬客戶的記錄泄露);甲骨文(33萬臺MICROS收銀機被入侵);Dropbox(承認6,800萬個賬戶被入侵);AdultFriendFinder.com(4.12億用戶的記錄泄露)。
2016年剛剛過去,2017年已經來臨。值此辭舊迎新之際,讓我們盤點一下2016年大數據分析領域發生的大事件,摸清過去一年的脈搏,展望未來一年的趨勢。
至少可以說,2016年是大數據風起云涌的一年。沒人知道2017年將發生什么,但這不會阻止我們對新的一年作出各種預測。以下是最具有轟動效應的一些項目、事件和趨勢,它們使2016年成為了大數據年。
商業智能(BI)領袖衰落
2016年2月,紅極一時的BI和可視化工具提供商Tableau發布財報,業績令人大失所望,其市值在一天之內被腰斬。這預示著2016年的BI市場將動蕩不安。幾個月后,風暴再起,Qlik Technologies的股價暴跌一半多,在2016年6月被Thoma Bravo以大約30億美元的價格收購。
雖然Tableau和Qlik一直都是一流的工具,但它們曾經一馬當先的領先距離已經大幅縮小,因為微軟(Microsoft)、Microstrategy、Alteryx、Birst、Domo、Sisense、Gooddata和其他公司紛紛推出了價格更低、性能強大的BI工具。市場調研公司Gartner的《2016年BI和分析平臺魔力象限》報告記錄了不少于24家公司(其中甚至還沒加上BI新星Zoomdata)。Gartner表示,BI市場已經達到“臨界點,需要我們從新的角度來思考”。
人工智能(AI)崛起
谷歌(Google)旗下的DeepMind公司開發了AlphaGo系統,在圍棋比賽中戰勝人類頂尖棋手。按照英偉達(Nvidia)一位產品經理的話說,這場人機大戰堪稱AI技術的“宇宙大爆炸”時刻。從Siri和Alexa等AI驅動的聊天機器人,到自動駕駛汽車,無數消費者漸漸意識到AI帶來的巨大好處。
我們也看到了新的AI服務面世,包括2016年11月互聯網巨頭亞馬遜(Amazon)在AWS re:Invent大會上發布的Amazon AI。2016年10月,加州大學伯克利分校宣布,曾經發明Apache Spark等多項大數據技術的AMPLab實驗室將被替換為RISELab實驗室,后者將致力于AI和自動駕駛汽車等應用。這為AI正在吞沒和超越大數據概念的想法提供了更多佐證。
Hadoop十歲了
2016年1月底的一天是首個Hadoop生產集群在雅虎(Yahoo)誕生的十周年紀念日。雅虎工程師們最初只希望這個10節點的集群能夠持續運行一整天,根本沒想到Hadoop后來會成為大數據計算的代表,每家財富100強企業必備的IT工具。
Hadoop的成功無疑超出了道格·卡丁(Doug Cutting)的期望,這位Cloudera公司架構師和邁克·加法雷拉(Mike Cafarella)共同創造了Hadoop。在Strata + Hadoop World大會上一場廣泛性的演講中,卡丁說出了自己內心的疑惑:我們是否已經達到了“Hadoop頂峰”?未來十年的Hadoop會是什么樣子?考慮到大數據界對Hadoop第三版(將使存儲能力翻倍并引入糾刪碼)的開發興趣寥寥,大數據技術又發展神速,因此很難說2026年的Hadoop會是什么樣子,或者沒什么變化也說不定。
Apache Spark大行其道
作為經濟實惠的分布式計算開源框架,Hadoop無疑引起了技術人士的關注,他們以前使用昂貴的專有軟件來處理龐大的數據集,費錢又費力。但如果說Hadoop的Java明星光環已經開始淡去,那么正在取代它的則是另一項可能更有前途的技術,那就是Apache Spark。
Apache Spark在大數據階梯上的極速躥升是一個非常值得注意的現象,不僅IBM等大公司紛紛擁抱該技術,而且幾乎所有的BI和可視化工具提供商都使用這項基于內存的技術來進行批處理、交互處理和流處理。有些人認為,Spark在應用和受歡迎程度方面終將超越Hadoop,甚至已經超越。
Flink和Beam誕生
Spark基本上已經取代了Hadoop的批處理引擎MapReduce,更別說Spark的SQL、機器學習和流處理能力。但永不滿足的大數據界希望改進這套得到Databricks公司支持、用Scala語言編寫的多用途框架。于是Apache Flink和Apache Beam應運而生,成為了Spark在大數據框架之戰中的勁敵。
2016年3月,Cloudera公司的卡丁向Data Artisans公司的Flink項目表達了敬意。當時他說:“Flink在架構設計上可能要比Spark好上那么一點點?!迸c此同時,基于谷歌Cloud Dataflow API的Apache Beam受到了Talend公司一位法國大數據架構師的支持。Beam雄心勃勃,想要用同一組API統一所有的大數據應用開發,并通過“Runner”這種執行引擎支持Spark、Flink和Google Dataflow。
歷史性的民調失靈
毫無疑問,當今的政治民意調查已經成為應用統計(也就是“大數據分析”)的一個運用領域。以前,嚴謹的民意調查只需要通過白頁上的選民名字和電話號碼就可以進行。但現在,民意調查機構如果想從形形色色的選民中獲取具有代表性的樣本,就必須建立細致的權重模型。
民意調查機構未能就2016年6月的“英國脫歐”公投準確評估選民情緒。如果說這還只是讓人感到意外的話,那么唐納德·特朗普(Donald Trump)在11月份的總統選舉中擊敗希拉里·克林頓(Hillary Clinton),與幾乎所有的政治民意調查結果截然相反(只有一項調查例外),則可以說是大數據分析在2016年甚至可能是近十年來的最大慘敗。
大數據黑客入侵
數據明顯具有價值,無論保險公司和會計師怎么說。所以壞人會想要竊取個人和企業的數據也真的去竊取了,完全不足為奇。2016年發生了多起引人注目的數據泄露事件,比如美國民主黨全國委員會的電子郵件服務器被攻陷,雅虎10億用戶的數據被黑。而這還沒算上雅虎曾在2016年9月承認,黑客入侵了該公司5億用戶的賬戶。
IdentityForce制作的“2016年網絡安全恥辱墻”上還包括:美國司法部(3萬名DHS和FBI職員的數據失竊);美國國稅局(70萬名納稅人的記錄泄露);威瑞森(150萬客戶的記錄泄露);甲骨文(33萬臺MICROS收銀機被入侵);Dropbox(承認6,800萬個賬戶被入侵);AdultFriendFinder.com(4.12億用戶的記錄泄露)。
新的數據初創公司
2016年對大數據的風險投資較2015年減少了大約10%,但這沒有阻止科技創業者成立新公司,希望挖到大數據金礦。2016年的新來者包括:
SnappyData,致力于統一Spark和Pivotal的GemFire數據網格;
Panoply,為AWS Redshift 用戶開發ETL 軟件;
Cosmify,利用機器學習挖掘客戶信息;
Bonsai,這家AI公司在Strata + Hadoop World大會上贏得了創業展示比賽;
Armorway,利用深度學習實現網絡安全;
Leyvx,將Flash和Spark結合起來;
Jask,利用AI進行網絡安全分析;
Alluvium,致力于縮小“機器與人”的差距;
Pachyderm,這家容器公司在Strata + Hadoop World大會上贏得創業展示比賽;
Skry,區塊鏈智能供應商;
Wavefront,利用大數據來監控IT。
實時Kafka
人人都喜歡的大數據總線Apache Kafka在2016年如魚得水,這要歸功于對分析高速移動數據的新要求。Kafka才面世五年,但這部由LinkedIn開發的消息隊列系統已經成為管理流數據和實時數據管道的事實標準。
Kafka由杰伊·克雷普斯(Jay Kreps)和尼哈·納赫德(Neha Narkhede)創造,得到了兩人領導的Confluent公司團隊的支持,是2016年最受歡迎的大數據項目之一。由于人們對實時分析的興趣高漲,這個開源項目的采用率正在飆升。隨著批處理范式不斷與實時數據處理相融合,如果克雷普斯的Kappa架構超越目前流行的Lambda架構,請不要感到驚訝。
開源數據項目
并非所有的大數據產品都是由盈利性企業開發。最有前途的新技術很多都是開源項目。2016年引人注目的開源大數據項目包括:
ApacheArrow:該項目由MapR Technologies公司的一位Drill架構師帶頭,旨在建立一個通用數據層,兼容各種各樣的大數據工具和引擎,比如Drill、Spark、Impala、Cassandra和Parquet;
Alluxio:這是基于內存的文件系統(原名Tachyon),與Apache Spark和Apache Mesos一樣,也出自AMPLab實驗室,現在得到一家同名公司的支持;
ApacheBeam:這是很有前途的大數據框架,其目標之一是用同一組API進行實時交互的批處理,并且通過“Runner”支持Spark、Flink和Google Dataflow;
CrateDB:遵守Apache 2.0協議,是可擴展的SQL數據庫(有些人稱之為NewSQL數據庫),用于實時機器分析;
ApacheKylin:這個基于Hadoop的開源引擎提供聯機分析處理(OLAP)能力,在2016年全年都是Apache軟件基金會(ASF)的頂級項目(TLP);
ApacheGeode:2016年11月,ASF把分布式內存數據庫Geode 提升為TLP 級別。
大數據用于社會公益
現在,大數據分析已經遍地開花,既存在于我們購買的產品中,也存在于我們使用的網絡服務和我們通信的方式中。但值此辭舊迎新之際,我們必須提醒自己要從人性的角度出發,靜下心來好好想想如何終結人類的苦難。
為此,我們應該看到大數據對社會進步的積極作用,而不只是賺錢。在2016年,大數據被Polaris等團體用來打擊人口販賣,把罪犯繩之于法。撰寫“巴拿馬文件”調查報告的記者使用云分析和圖形數據庫等大數據技術,來剖析和披露離岸避稅行為。
大數據為公眾健康作出貢獻的例子不勝枚舉,包括美國疾病預防控制中心利用機器學習來阻止阿片類物質引發的HIV爆發,Spark和Hadoop加快癌癥研究,數據分析促使研究人員重新思考“干擾變量”對治療外傷性脊髓損傷意味著什么。
我們不知道2017年將為大數據世界帶來些什么。但如果和2016年一樣,那么我們將目睹那些改變著人類生活的核心技術遭遇意想不到的突破、令人震驚的失敗和穩步的發展。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25