
作者 | Matthew Mayo
編譯 | CDA數據分析師
正如我們告別上一年并期待新的一年一樣,KDnuggets再次征求了眾多研究和技術專家對2019年最重要的發展及其2020年關鍵趨勢預測的意見。
又到了年終,這意味著現在是KDnuggets年終專家分析和預測的時候了。今年,我們提出了一個問題:
當我們回顧一年前專家的預測時,我們可以看到對自然技術進步的預測,并帶有一些更加雄心勃勃的預測。有幾個一般性主題,以及幾個值得注意的點。
特別要關注的是,人們不止一次提到了對AI的恐懼,不過目前這一預測似乎已經平息了。關于自動化機器學習的進展的討論非常多,人們對它目前是否有用等議論紛紛。我認為在某種程度上尚無定論,但是當對技術的期望降低時,我們就更容易將其視為有用的添加物而不是迫在眉睫的替代物了。
也有充分的理由指出了新增的AI永遠是有益的,并且有無數的例子表明了這種預測的準確性。實用的機器學習會產生影響,現在是時候學習使用機器學習了。最后,還提到了反烏托邦人工智能發展引起的對監視,恐懼和操縱的日益關注。
還有一些預測還沒有完成。感興趣的讀者可以自行尋找。
今年我們的專家名單包括Imtiaz Adam,Xavier Amatriain,Anima Anandkumar,Andriy Burkov,Georgina Cosma,Pedro Domingos,Ajit Jaokar,Charles Martin,Ines Montani,Dipanjan Sarkar,Elena Sharova,Rosaria Silipo和Daniel Tunkelang。我們感謝他們從忙碌的年終時間表中抽出時間為我們提供見解。
這是同一系列文章中的第一篇。盡管它們將被劃分為研究,部署和行業,但這些學科之間存在相當大且可以理解的重疊。
以下是今年專家組提出的2019年主要趨勢和2020年的預測。
在2019年,提高了對與數據科學中的道德與多樣性有關的問題的認識。
2020年,數據科學團隊和商業團隊將更加融合。5G將推動AI推理的發展,推動智能物聯網的發展,這意味著AI將越來越多地進入物理世界。深度學習與增強現實相結合將改變客戶體驗。
我認為這是深度學習和NLP的一年,這一點很難反對。更具體地說,是語言模型的年份,是Transformers和GPT-2的一年。是的,這可能令人難以置信,但是距OpenAI首次使用至今不到一年,談到他們的GPT-2語言模型。這篇博客文章引發了很多關于AI安全的討論,因為OpenAI并不對外發布該模型。
從那時起,該模型被公開復制,并最終發布。但是,這并不是該領域的唯一進步。我們已經看到Google發布了AlBERT或XLNET,還討論了BERT如何成為多年來Google搜索最大的改進。從Amazon、Microsoft到Facebook,所有人似乎已經真正地加入了語言模型革命,我確實希望在2020年在該領域看到令人矚目的進步,而且似乎我們越來越接近通過圖靈測試的日子了。
研究人員希望更好地了解深度學習,其泛化特性和失敗案例。減少對標記數據的依賴,而自訓練等方法也取得了進展。模擬對于AI培訓變得越來越重要,并且在諸如自動駕駛和機器人學習等視覺領域的逼真度也越來越高。語言模型變得很龐大,例如NVIDIA的80億Megatron模型在512 GPU上進行了訓練,并開始生成連貫的段落。
但是,研究人員在這些模型中顯示出虛假的相關性和不良的社會偏見。人工智能法規已成為主流,許多知名政客都表示支持政府機構禁止面部識別。從去年的NeurIPS名稱更改開始,人工智能會議開始執行行為守則,并加大改善多樣性和包容性的努力。
在未來的一年中,我預計將會有新的算法開發,而不僅僅是深度學習的表面應用。這將特別影響物理,化學,材料科學和生物學等許多領域的“科學人工智能”。
毫無疑問,2019年主要的發展是BERT,這是一種語言建模神經網絡模型,可以在幾乎所有任務上提高NLP的質量。Google甚至將其用作相關性的主要信號之一,這是多年來最重要的更新。
在我看來,2020年關鍵趨勢將是PyTorch在業界的廣泛采用,對更快的神經網絡訓練方法的研究以及對便利硬件上的神經網絡的快速訓練的研究。
在2019年,我們對諸如YOLOv3之類的深度學習模型中令人印象深刻的功能進行了評估,以應對各種復雜的計算機視覺任務,尤其是實時對象檢測。我們還已經看到,生成式對抗網絡繼續吸引著深度學習社區的關注,其用于ImageNet生成的BigGAN模型以及用于人類圖像合成的StyleGAN合成圖像。
今年,我們還意識到,愚弄深度學習模型非常容易,一些研究還表明,深度神經網絡很容易受到對抗性例子的攻擊。在2019年,我們還看到有偏差的AI決策模型被部署用于面部識別,招聘和法律應用。我希望在2020年看到多任務AI模型的發展,這些模型希望能做到實現通用和多用途。
2019年的主要發展:
2020年的主要趨勢:
在2019年,我們將牛津大學的課程更名為人工智能:云和邊緣實現,這也反映了我的個人觀點,即2019年是云成熟的一年。今年是我們談論的各種技術(大數據,人工智能,物聯網等)在云框架內融合在一起的一年。這種趨勢將繼續,特別是對于企業。公司將采取“數字化轉型”計劃-在這些計劃中,他們將使用云作為統一的范式來轉換由AI驅動的流程(類似于重新設計公司2.0)
在2020年,我還將看到NLP逐漸成熟(BERT,Megatron)。5G將繼續部署。當2020年后5G全面部署(例如無人駕駛汽車)時,我們將看到IoT的廣泛應用。最后,在IoT方面,我遵循一種稱為MCU(微控制器單元)的技術-特別是機器學習模型或MCU的部署。
我相信AI會改變游戲規則,每天我們都會看到許多有趣的AI部署示例。阿爾文·托夫勒(Alvin Toffler)在《Future shock》中所預測的大部分內容,今天已經在我們身邊了,人工智能究竟將如何放大,還有待觀察!可悲的是,人工智能的變化速度將使許多人落伍。
2019年的AI在NLP方面取得了巨大進步,例如BERT,ELMO,GPT-2等!OpenAI發布了他們的大型GPT-2模型,用于文本的DeepFakes。谷歌宣布將BERT用于搜索,這是自pandas以來的最大變化。甚至我在UC Berkeley的合作者都發布了(量化的)QBERT,用于低占用空間的硬件。每個人都在制作自己的文檔嵌入。
這對2020年意味著什么。根據搜索專家的說法,2020年將是具有相關性的一年。期望看到通過BERT樣式的微調嵌入,向量空間搜索最終會受到關注。
在底層,作為AI研究的選擇,2019年PyTorch超過Tensorflow。隨著TensorFlow 2.x的發布(以及pytorch的TPU支持)。2020年的AI編碼有希望將全部執行。
大公司在AI方面正在進步嗎?報告顯示成功率為十分之一。不是很好。因此,AutoML將在2020年出現需求,盡管我個人認為,像取得出色的搜索結果一樣,成功的AI需要針對業務的定制解決方案。
在2019年,每個人都選擇“ DIY AI”而不是云解決方案。推動這一趨勢的一個因素是遷移學習的成功,這使任何人都可以更輕松地以良好的準確性訓練自己的模型,并根據他們的特定用例進行微調。每個模型只有一個用戶,服務提供商無法利用規模經濟。轉移學習的另一個優點是,數據集不再需要那么大,因此注釋也在內部移動。
內部趨勢是一個積極的發展:商業AI的集中程度遠低于許多人的預期。幾年前,人們擔心每個人都只能從一個提供商那里獲得“他們的AI”。如今取而代之的是,人們并沒有從任何提供商那里獲得AI,而是他們自己在做。
2019年人工智能領域的主要進步是在Auto-ML,可解釋AI和深度學習領域。自最近幾年以來,數據科學的民主化仍然是一個關鍵方面,并且與Auto-ML有關的各種工具和框架都在試圖使這一過程變得更容易。還有一點需要注意的是,在使用這些工具時,我們需要小心以確保我們不會出現偏倚或過度擬合的模型。
公平,負責和透明仍然是客戶,企業和企業接受AI決策的關鍵因素。因此,可解釋的AI不再是僅限于研究論文的主題。許多優秀的工具和技術已經開始讓機器學習模型的決策更具可解釋性。同樣重要的是,在深度學習和轉移學習領域,尤其是在自然語言處理方面,我們已經看到了許多進步。
我希望在2020年圍繞NLP和計算機視覺的深度轉移學習領域看到更多的研究和模型,并希望有一些東西能夠充分利用深度學習和神經科學的知識,從而引導我們邁向真正的AGI。
到目前為止,深度強化學習是2019年最重要的機器學習的發展,在深度強化學習DQN和AlphaGo的游戲中, 導致圍棋冠軍Lee Sedol退役。另一個重要的進步是自然語言處理,谷歌和微軟開源了BERT(深度雙向語言表示),從而領導了GLUE基準測試,并開發了用于語音解析任務的MT-DNN集成并進行了開源采購。
重要的是要強調歐洲委員會發布的《Ethics guidelines for trustworthy AI》(人工智能道德準則),這是關于人工智能道德的第一份正式準則,其中列出了關于合法,道德和AI發展的明智準則。
最后,我想要分享一點,PyData London 2019的所有主題演講者都是女性,這是一個可喜的進步。
我預計2020年的主要機器學習發展趨勢將在NLP和計算機視覺領域內繼續。
2019年最有希望的成就是采用主動學習,強化學習和其他半監督學習程序。半監督學習可能有希望填充我們數據庫的所有這些未標記數據存根。
另一個重大進步是在auto-ML概念中用“指導”對“自動”一詞進行了更正。對于更復雜的數據科學問題,專家干預似乎是必不可少的。
2020年,數據科學家需要一種快速的解決方案,以實現簡單的模型部署,持續的模型監視和靈活的模型管理。真正的業務價值將來自數據科學生命周期的這三個最終部分。
我還相信,深度學習黑匣子的更廣泛使用將引發機器學習可解釋性(MLI)的問題。到2020年底,我們將看到MLI算法是否能夠應對詳盡解釋深度學習模型閉門事件的挑戰。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23