
未來五年內將重塑大數據技術的五種趨勢
請大家不要再糾結于一塊磁盤能保存多少數據或者企業到底會不會采用Hadoop。關于大數據的真正問題在于,企業用戶將如何使用Hadoop、我們的系統到底能在智能化道路上走多遠、我們又該如何保證這一切都處于控制之下。
過去幾年當中,大數據技術已經迎來長足發展;從一個樂觀積極的流行詞匯變成人見人恨的疑難雜癥,關注重點也由純粹的數據規模轉向對類型及速度的追求。所謂大數據及其相關技術在經歷了高度重視、詳細甄別以及吐故納新之后,實際成果很可能與我們的認知存在較大差異。然而時至今日,我們正站在歷史的重要轉折點上、此前圍繞這一話題引發的各類爭論將最終帶來明確的結論。
如今自動化與智能化已經成為整個世界運轉的新方向,這一趨勢在簡化數據發掘工作的同時、也把智能化特性引入萬事萬物從移動應用到交通系統無所不包。大數據的大絕不是最終目標,各類新型處理模式的涌現旨在將日益增長的數據交付量轉化為智能化成效。所謂分類也不是最終目標,它的意義在于幫助我們實現大規模數據量化的同時、更為深入了解我們身邊的世界。
在這樣的背景下,我們將借助本屆Structure Data大會這一平臺鉆研更多相關細節此次會議將于本月十九號在紐約拉開序幕,為期一周。在此期間,世界各地的技術巨頭、知名企業以及一部分最為睿智的新興企業都會派出發言代表與大家分享自己的真知灼見。他們將探討與大數據相關的各類話題,內容涵蓋對抗販賣人口、Hadoop未來發展方向乃至人工智能前沿技術。
下面我將為大家帶來我自己一直在關注的五大發展趨勢,也許有助于各位提前把握會議發言人們的探討話題以及表述方向。如果大家有意參加此次會議,希望我的這篇展望文章能夠起到拋磚引玉的作用。
1. Hadoop以堅定步伐發展為真正的平臺
Apache Hadoop也許仍然只是一套分布式文件系統、MapReduce也將繼續扮演執行框架的角色,但Hadoop可絕不會這樣止步不前。歸功于YARN等各類通用性發展成果,Hadoop集群如今已經能夠針對任意數量的不同工作負載運行任意數量的不同執行框架,同時充分發揮同一套底層存儲基礎設施所帶來的資源優勢。舉例來說,面向ETL作業的MapReduce集群現在也可以同時充當支撐機器學習的Spark集群、面向流處理的Storm集群以及針對交互式SQL的Tez集群。
從本質上講,Hadoop已經從一款面向特定任務的實用工具轉變為一整套能夠支持各類應用程序的真正平臺。以Airbnb以及Twitter為代表的早期采用者已經從這種新型用途當中取得競爭優勢,Cloudera、Hortonworks以及MapR等Hadoop方案供應商也在自身產品中引入多種新功能并支持主流Hadoop用戶在某些情況下所需要的新型框架。Continuuity、Mortar Data以及WibiData等新興企業通過簡化大數據應用程序的方式加快了這一演化的進程,同時也對一部分技術基礎進行了開源化處理、從而為更多開發人員提供相關工具。
當然,受到Hadoop向平臺轉化趨勢影響的絕不僅僅是開發人員,眾多軟件廠商也感受到了這股時代洪流。傳統數據倉庫、數據庫甚至統計軟件供應商必須接受這一現實,即Hadoop如今能夠幫助他們以更低的成本保存更多數據、同時以多種方式對其內容進行分析。
2.人工智能開始崛起
我們擁有計算設備、我們擁有數據、我們也擁有算法:因此,我們現在已經擁有建立人工智能的技術基礎。請別誤會,人工智能還不像科幻小說中描述的那樣恐怖、也無法真正取代人類的地位,但這項技術最終必將成為現實。由于機器學習方案的不斷進步,我們已經能夠通過智能手機進行語音指令識別、擁有能夠預測用戶喜好的媒體服務、可以在數十億個數據點之間摸清關系脈絡的軟件以及善于挖掘潛在價值空間的應用程序。
IBM的沃森系統已經近在咫尺,足以為廚師們提供準確的食譜配料清單。
展望未來,針對上述領域的深入學習將幫助我們的人工智能系統變得更加實用也更為強大。在復雜數據集當中,這些模型能夠提取并識別出無法通過編程實現的深入分析途徑。在無人監管的情況下,深入學習項目已經能夠成功把握特定對象的外觀、將不同語言的詞匯加以映射甚至學會主機游戲的操作規則。幾乎就在一夜之間,眾多原本無法實現的任務如今似乎都擁有了可行的解決途徑例如能夠內容標注使其具備可搜索性,或者以出色的準確性預測用戶的詞語表意以及接下來要輸入的內容。
通過將新型內容應用在新領域當中,這些方案完全有可能為我們帶來更為可觀的潛在價值。特定癌細胞聚集在一起會表現出怎樣的特性?我們能否幫助護士了解原本只有醫生能夠接觸到的信息?哪些原本無法準確衡量的因素組合能夠反映出導致青少年自殺的原因?我們需要如何推動自動駕駛汽車與無人飛機進入商業應用領域?誠然,人工智能并不是什么救世主,但它確實為我們展示出光明而且廣闊無垠的可能性。
3.為人們帶來分析能力
與真正的高難度基礎設施與普遍適用的算法相比,將數據分析推向標準化并使其成為易于實現的技能似乎并不算什么了不起的成就但這一趨勢仍然有可能給我們的社會帶來重大變革。只需為普通民眾提供以新型方式審視身邊數據的能力,就相當于為我們的生活開啟了一扇通往無限可能的大門。
舉例來說,昨天我就利用免費軟件為自己的iTunes媒體庫建立起一幅網絡圖形,并把斯諾登在最近一次采訪中所使用的幾個詞匯與國安局局長Keith Alexander的發言進行了一番比較。我并沒有用到數據科學或者深入學習技術,但我仍然能夠完成較為簡單的分析任務、而后對自己發現的有趣數據進行審視。在此之前,我還曾經映射過自己的Twitter粉絲、分析Gigaom網站各位作者發布的頭條、甚至對自己的食物攝入量以及鍛煉強度進行了匯總。也許促使年輕人們積極以有趣的方式審視并分析自己的數據會有助于激勵數據技術專家們進一步把相關方案推向民間誰說得準呢?
而且隨著目前可供普通民眾使用的工具愈發先進、我們所收集到的數據量日益拓展(其中包括來自健身器材、聯網汽車以及物聯網等來源的數據),這種對于自身的量化分析也將變得越來越重要。出于各種目的,我們自身正逐步成為數據輸入與算法輸出流程的重要組成部分。我們的個人數據將帶來方方面面的影響包括我們看到的廣告內容以及收到的招聘信息而且這一切都將變得順理成章:每位用戶至少能夠了解到企業、機構以及政府部門所掌握的小部分信息。
4. 云計算
早在三年前我就說過,云計算與大數據的發展路線必將交接、碰撞,而這一猜測也已經成為現實只是實際影響范圍比我的預計更為廣泛。事實上,這場浩大融合帶來的最大影響幾乎沒有反映在Hadoop、商務智能套件或者任何其它分析軟件即服務方案的實際使用能力當中。誠然,這些趨勢讓新興企業及成熟公司能夠更輕松地將新型工作負載遷移到云環境當中;但就我個人來說,云技術變革帶來的最大意義在于為原本艱深的計算機科學引入了民主化進程。
我已經強調過,目前一部分技術方案已經以即服務形式供大家使用(主要通過API實現),而且這一陣營仍在不斷壯大之中。如果大家身為一位開發人員,而且希望學習Hadoop以及Elastic MapReduce的使用方法,那么如今已經有現成方案可供選擇。如果大家希望能接入某種服務,例如IBM的沃森云或者MindMeld API,并需要在自己的數據當中借用其它算法所提供的人工智能層,現成方案同樣多種多樣。在谷歌以及Pinterestto Netflix等眾多廠商的支持下,上述大部分技術方案都將被逐步嵌入到我們所使用的服務當中。
如果這些方案真的管用,而且能為開發人員帶來真正的智能化能力(這里所說的‘智能化’并非一般意義上的推薦功能,那更像是一種難以回避的瘟疫而非優勢),那么即使是平平無奇的任務也足以為消費者帶來超出預期的良好效果。相信很多朋友在了解食品采購清單的具體條目之外,還希望搞清這些食材有哪些好處,如果部分食材暫時斷貨、我們還有哪些后備選項或者在哪里能以更低的價格買到同類貨品。在智能手機與其它計算設備所帶來的處理能力與數據容量的支持之下,經過精心設計的應用程序完全能夠把我們從AT&T信號塔處獲取到的信號轉化為實際收益。
5. 法律法規
最后,法律制度也將成為大數據發展過程中的潛在影響因素具體效果如何取決于大家的審視角度。就目前來看,仲裁者、立法者、監管者甚至總統都在努力弄清收集到的這批龐大數據到底意味著什么,并以此為基礎勾勒出某種秩序草案。當然,要在這條湍流當中摸著石頭過河并非易事,在此過程中充分發揮所有競爭優勢更是難上加難。
在管理流程當中,最為棘手的難題就是如何妥善保護消費者的個人隱私;這部分信息擁有巨大挖掘潛力、足以顯著改善消費者的實際體驗,但同時也會帶來侵犯個人隱私的巨大風險。另外,大量宣傳資金也開始涌入這一新興領域。我們希望能以最劃算的價格買到食材或者新服飾,也希望能夠參與DNA測繪項目并拿到99美元的回報。但我們同時也需要確保自己提供的潛在敏感信息不會被泄露給他人或者出現在不應出現的場合例如一臺公用計算機的滾動廣告上。
這一點對于法律制定者以及其他起草法律框架、法規以及判例法的從業人士而言算是一項巨大挑戰,他們需要保證消費者在獲得正當利益的同時避免遭遇隱私泄露。坦率地講,我不太相信他們能在不理解大數據技術及其指向的情況下制定出可行的方案,我也不相信大家會對這樣產生的結果感到滿意。
當然,我們不希望Facebook、谷歌以及Geico等廠商對自己的全部數據進行深入分析,但我們同樣不希望重新經歷那段網站設計古怪難用、出租車干等不來、工作效率極其低下而且生活毫無個性化可言的悲慘歲月。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25