
機器學習,特別是深度學習,迫使重新評估芯片和系統的設計方式,這將改變未來幾十年的行業方向。
從芯片到軟件再到系統,計算領域將在未來幾年內因機器學習的普及而發生巨大變化。我們可能仍然將這些計算機稱為“通用圖靈機”,正如我們已有八十年或更長時間。但在實踐中,它們將與迄今為止構建和使用的方式不同。
任何關心計算機工作的人以及對所有形式的機器學習感興趣的人都會感興趣。
今年2月,Facebook負責人工智能研究的負責人Yann LeCun在舊金山舉行的國際固態電路會議上發表了演講,該會議是世界上運行時間最長的計算機芯片會議之一。在ISSCC,LeCun明確了計算機技術對人工智能研究的重要性。 LeCun說:“硬件功能和軟件工具既激勵又限制了AI研究人員想象并將允許自己追求的想法類型,我們所掌握的工具比我們承認的更能影響我們的想法”。
不難看出情況是怎樣的。從2006年開始,深度學習的興起不僅是因為大量數據和機器學習中的新技術,例如“輟學”,而且還因為計算能力越來越強。特別是,越來越多地使用來自Nvidia的圖形處理單元或“GPU”,導致計算的更大并行化。這使得對比以往更大的網絡的培訓成為可能。20世紀80年代提出的“并行分布式處理”的前提,即人工網絡的節點同時被訓練,最終成為現實。
一些人認為,機器學習現在有望接管世界上大部分的計算活動。在2月份的ISSCC期間,LeCun 向ZDNet講述了計算方向的變化。LeCun說:“如果你走了五年,未來十年,你會看到計算機花費時間做些什么,大多數情況下,我認為他們會做一些像深度學習這樣的事情 - 就計算量而言”。他還指出,深度學習可能無法通過收入占據計算機銷售的大部分,但是,“就我們如何每秒花費我們的毫瓦或我們的運營而言,他們將花在神經網絡上。
深度學習成倍增長
隨著深度學習成為計算的焦點,它正在推動當今計算機能夠做到的界限,在某種程度上推動神經網絡進行預測的“推理任務”,但對于訓練神經網絡更是如此,計算密集型功能。
注:據OpenAI稱,自2012年以來,深度學習網絡對計算的需求每3.5個月翻一番。
諸如OpenAI的GPT-2之類的現代神經網絡需要并行訓練超過十億個參數或網絡權重。作為Facebook的熱門機器學習培訓庫PyTorch的產品經理,5月份告訴ZDNet,“模型越來越大,它們真的非常大,而且培訓成本非常高?!?如今最大的模型通常不能完全存儲在GPU附帶的存儲器電路中。
此外:谷歌表示人工智能的“指數”增長正在改變計算的本質
計算周期的需求速度越來越快。根據OpenAI提供的數據,早在2012年創建的令人尊敬的AlexNet圖像識別系統在總培訓時間內耗費了相當于每秒1000萬次浮點運算的“千萬億次浮點運算”,總時間達到一天。但AlphaZero是由谷歌的DeepMind在2016年建立的神經網絡,它擊敗了世界上的國際象棋冠軍,并且每秒消耗超過一千天的千萬億次飛越。AlexNet和AlphaZero之間計算周期的增加使得每3.5個月的計算消耗量翻了一番。這是2016年收集的數據。到目前為止,步伐無疑會增加。
計算機芯片危機
世界甚至沒有佩戴千萬億次籌碼,用于深度學習培訓的頂級芯片,如Nvidia的Tesla V100,每秒運行112萬億次。因此,你必須運行其中的八天1000天,否則將許多人聚集成一個耗費越來越多能量的系統。
更糟糕的是,近年來芯片改進的步伐已經觸底。正如加州大學伯克利分校教授大衛帕特森和英國航空公司董事長約翰軒尼詩在今年早些時候的一篇文章中所指出的那樣,摩爾定律即每十二至十八個月芯片功率增加一倍的經驗法則,已經耗盡了氣體。英特爾長期以來一直否認這一點,但數據是帕特森和軒尼詩的一面。正如他們在報告中提到的那樣,芯片性能現在每年僅增長3%。
這兩位作者都認為,這意味著芯片的設計,眾所周知,它們的架構必須徹底改變,以便從不會產生性能優勢的晶體管中獲得更高的性能。(帕特森幫助谷歌創建了“Tensor Processing Unit”芯片,因此他對硬件如何影響機器學習非常了解,反之亦然。)
由于處理器的改進停滯不前,但機器學習需求每隔幾個月翻一番,就必須付出代價。令人高興的是,如果以正確的方式看待,機器學習本身可以成為芯片設計的福音。因為機器學習需要很少的遺留代碼支持 - 它不必運行Excel或Word或Oracle DB - 并且正如他們所說的,對于芯片設計師,由于其最基本計算的高度重復性,機器學習是一種綠地機會。
建造一臺新機器
卷積神經網絡和長期短期記憶網絡的核心,深度學習的兩個主要支柱,甚至在像谷歌的變形金剛這樣的更現代的網絡中,大多數計算都是線性代數計算,稱為張量數學。最常見的是,將一些輸入數據轉換為矢量,然后將該矢量乘以神經網絡權重矩陣的列,并將所有這些乘法的乘積相加。稱為乘法相加,這些計算使用所謂的“乘法 - 累加”電路或“MAC”在計算機中呈現。因此,只需改進MAC并在芯片上創建更多的MAC來增加并行化,就可以立即改善機器學習。
主導AI培訓的Nvidia和其CPU主導機器學習推理的英特爾都試圖調整他們的產品以利用那些原子線性代數函數。Nvidia為其Tesla GPU添加了“張量核心”,以優化矩陣乘法。英特爾已花費300億美元收購那些從事機器學習的公司,包括Mobileye,Movidius和Nervana Systems,其中最后一個應該在某個時候導致“Nervana神經網絡處理器”,盡管有延遲。
到目前為止,這些舉措并不能滿足機器學習的需求,例如Facebook的LeCun。在2月與ZDNet聊天期間,LeCun認為,“我們需要的是競爭對手,現在,你知道,主導供應商Nvidia”。 他還指出,這不是因為Nvidia沒有做出好的籌碼。這是“因為他們做出了假設,并且擁有一套不同的硬件可以用來做當前GPUS擅長的補充事物,這樣做會很不錯。
另外:為什么人工智能報告如此糟糕?
他說,其中一個有缺陷的假設是假設訓練神經網絡將是一個可以操作的“整齊陣列”的問題。相反,未來的網絡可能會使用大量的網絡圖,其中神經網絡的計算圖的元素作為指針流式傳輸到處理器。LeCun表示,芯片必須進行大量的乘法增加,但對于如何將這些乘法增加呈現給處理器的期望不同。
作為TPU芯片貢獻者之一的谷歌軟件工程師Cliff Young,去年10月在硅谷舉行的芯片活動上發表了主題演講時更直言不諱。Young說:“很長一段時間,我們都拒絕了,并說英特爾和Nvidia非常擅長構建高性能系統,”“五年前我們超越了這個門檻”。
創業公司的崛起
在這個漏洞中,新的芯片來自谷歌等人工智能巨頭,還有一大批風險投資支持的創業公司。
除了谷歌的TPU,現在已經進行了第三次迭代,微軟還有一個可編程處理器,一個名為Project Brainwave的“FPGA”,客戶可以通過其Azure云服務租用它。亞馬遜表示,它將在今年晚些時候推出自己的定制芯片,名為“Inferentia”。當LeCun在2月份與ZDNet談話時,他提到Facebook有自己的籌碼。
他指出,像谷歌和Facebook這樣擁有大量產品的公司,對你自己的引擎工作是有道理的,這方面有內部活動。
創業公司包括Graphcore,一家位于布里斯托爾的五年創業公司,一個位于倫敦西南一個半小時的港口城市; Cornami,Effinix和Flex Logix,所有這些都是由ZDNet描述的和硅谷的洛斯阿爾托斯的s系統公司仍然處于秘密模式。
許多這些初創公司都有一個共同點,那就是大大增加用于矩陣乘法的計算機芯片區域的數量,即MAC單元,以便在每個時鐘周期內擠出最多的并行化。Graphcore是所有初創公司中最遠的,是第一個真正向客戶發送生產芯片的公司。關于它的第一個芯片最引人注目的事情之一是大量的內存。為了紀念世界上第一臺數字計算機,Colossus 被稱為芯片,面積巨大,面積為806平方毫米。首席技術官Simon Knowles稱其為“迄今為止最復雜的處理器芯片”。
Colossus由1,024個被稱為“智能處理單元”的獨立核心組成,每個核心都可以獨立處理矩陣數學。眾所周知,每個IPU都有自己的專用內存,256千字節的快速SRAM內存??偣灿?04兆字節的內存是芯片中最常用的內存。
沒有人知道芯片上存在如此多的內存會如何改變構建的神經網絡的種類??赡苁峭ㄟ^訪問越來越多的內存,訪問速度非常低,更多的神經網絡將專注于以新的和有趣的方式重用存儲在內存中的值。
軟件難題
對于所有這些芯片的努力,問題當然是由于該公司的“CUDA”編程技術,他們沒有為Nvidia建立多年的軟件。Graphcore和其他人的答案將是雙重的。一個是用于機器學習的各種編程框架,例如TensorFlow和Pytorch,提供了一種避免芯片本身細節并專注于程序結構的方法。所有進入市場的芯片都支持這些框架,他們的創造者認為這些框架與Nvidia的競爭環境。
第二點是Graphcore和其他人正在構建自己的編程技術。他們可以證明他們的專有軟件既可以轉換框架,也可以智能地將并行計算分配給芯片上的眾多MAC單元和向量單元。這就是Graphcore為其“Poplar”軟件所做的論證。Poplar將神經網絡的計算圖分解為“codelets”,并將每個codelet分配到Colossus的不同核心,以優化并行處理。
在過去的二十年中,大數據和快速并行計算成為常態,推動了機器學習,帶來了深度學習。下一波計算機硬件和軟件可能是關于大量的內存和神經網絡,它們是動態構建的,以利用高度并行的芯片架構。未來看起來很有趣。
本文翻譯自:AI is changing the entire nature of compute(Machine learning, especially deep learning, is forcing a re-evaluation of how chips and systems are designed that will change the direction of the industry for decades to come.)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25