熱線電話:13121318867

登錄
首頁精彩閱讀Cerebras首席執行官談公司大芯片對機器學習的重大影響
Cerebras首席執行官談公司大芯片對機器學習的重大影響
2019-11-14
收藏
Cerebras首席執行官談公司大芯片對<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的重大影響

作者 | Tiernan Ray

編譯 | CDA數據分析師

硅谷創業公司Cerebras Systems周一推出了世界上最大的專為AI設計的芯片。Cerebras首席執行官兼聯合創始人Andrew Feldman與ZDNet討論了深度學習網絡培訓的一些含義。

你可能聽說過,周一,硅谷創業公司Cerebras Systems 推出了世界上最大的芯片,稱為WSE,或稱為“晶圓級發動機”,發音為“明智的”。它將被構建到Cerebras銷售的完整計算系統中。

您可能不知道的是,WSE及其制作的系統對AI的深度學習形式有一些有趣的含義,而不僅僅是加速計算。 Cerebras的聯合創始人兼首席執行官安德魯·費爾德曼(Andrew Feldman)與ZDNet討論了深度學習中可能發生的變化。

到目前為止,我們對WSE的了解有三個直接影響。首先,深度網絡的一個重要方面,即“規范化”,可能會得到徹底改革。其次,處理個別數據點而不是群體或“批量”的“稀疏性”概念可能在深度學習中扮演更重要的角色。第三,隨著人們開始考慮WSE系統的發展,更多有趣的并行處理形式可能成為迄今為止的情況。

所有這些都代表了費爾德曼所說的硬件解放設計選擇和深度學習實驗。

Cerebras首席執行官談公司大芯片對<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的重大影響

Cerebras的“晶圓級引擎”與Nvidia的頂級圖形處理單元相比,“V100”在深度學習培訓中很

“我們很自豪能夠大大加速現有的,開拓性的Hinton,Bengio和LeCun模式,”Feldman說,他指的是三位深度學習先鋒,他們因深度學習而獲得ACM圖靈獎,Geoffrey Hinton,Yoshua Bengio和Yann LeCun。

“但最有趣的是尚未開發的新車型,”他補充道。

“可以訓練的模型世界的大小非常大,”費爾德曼觀察到,“但在GPU上運行良好的子集非常小,而且到目前為止,事情一直是關注的地方,”指的是Nvidia的圖形處理芯片是深度學習培訓的主要計算設備。

第一個跡象表明,Cerebras發生了一些非常有趣的事情,5月份由Vitaliy Chiley和Cerebras的同事在arXiv預打印服務器上發布了一篇文章,名為“培訓神經網絡的在線規范化”。在那篇論文中,作者提出了對機器學習網絡建立方式的改變,稱為規范化。

歸一化是一種處理所有統計系統面臨的問題的技術:協變量變換。用于訓練統計程序的數據被假定為與訓練有素的統計模型將遇到的現實世界中的數據基本相似。分類器在野外遇到的貓和狗的圖片應該與訓練數據中遇到的圖片類似。但是,訓練中的自變量,“協變量”和野外實際數據中的自變量之間存在差異。這構成了分配的轉變。

谷歌科學家Sergey Ioffe和Christian Szegedy 在2015年的一篇論文中指出協變量轉移也發生在網絡內部。當每個訓練數據點退出網絡的一層中的激活單元時,網絡參數已經從該數據點進入網絡時轉換了該數據點。結果,數據的分布由網絡的連續層轉換 - 以至于它變得與訓練數據的原始統計數據不同。這可能導致網絡培訓不良。

Ioffe和Szegedy稱這種變化是“內部協變量轉變”。為了解決這個問題,他們提出了所謂的“批量標準化”。在批量規范中,如已知的那樣,將新的處理層插入到網絡中。它使用的事實是,數據樣本在所謂的“小批量”處理,同時由芯片處理的幾個數據樣本的分組。芯片統計批次,均值和方差,尤其是整個數據集中統計數據的近似值。然后,它將單個數據點的值調整為更符合這些批次統計數據,作為一種方法,將樣本輕推回與人口的“真實”分布一致。

批量規范在加快培訓時間方面具有優勢,但存在問題。首先,它可以顯著增加計算系統中使用的內存。另一方面,它可能會在數據中引入偏差,因為用于計算均值和方差的小批量樣本不一定是整個群體中數據分布的很大近似值。當受過訓練的網絡遇到真實世界數據時,這可能意味著問題,另一個協變量變化。多年來提出了許多后續方法來改進,例如“層規范化”,“組規范化”,“權重規范化”,甚至“重新規范化”。

現在,Cerebras的團隊決定提出替代方案。Cerebras科學家不是使用批次,而是建議跟蹤單個樣本,并“將整個數據集上的算術平均值替換為在線樣本的指數衰減平均值?!?該過程在下圖中的網絡圖中說明。在對ImageNet等的測試中,作者認為在線規范化“與大規模網絡的最佳規范化器競爭性地發揮作用”。(ZDNet向Google的Ioffe發表了評論,但他拒絕發表評論。)

Cerebras首席執行官談公司大芯片對<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的重大影響

Vitaliy Chiley及其同事在Cerebras提出的“在線標準化”圖表,作為批量標準化的替代

WSE不會自動關閉批量規范; 它是一個可以在處理器中設置的標志。WSE旨在運行在TensorFlow或PyTorch和其他框架中創建的任何現有神經網絡,并且它將適應批處理規范。

雖然僅僅是WSE芯片的一個選項,但在線標準化指出了一種可能的方式,即遠離費爾德曼多年來用神奇網絡來哄騙神經網絡以取悅Nvidia等圖形處理器。

費爾德曼說:“問題一直受到攻擊的方式已經聚集在他們周圍,一整套密封蠟和繩子以及糾正弱點的方法很少?!?“他們似乎幾乎要求你按照GPU讓你工作的方式工作?!?/span>

Feldman指出批量是GPU的并行處理形式的工件?!跋胂霝槭裁创笈砍霈F在一開始,”他說?!?a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經網絡中的基本數學是一個向量乘以矩陣?!?但是,“如果你這樣做,它會使GPU的利用率非常低,比如幾個百分點的利用,這真的很糟糕?!?/span>

因此,建議使用批處理來填充GPU的操作流程?!八麄兯龅氖撬麄儗⑹噶刊B加在一起,形成一個矩陣逐個矩陣,這些矢量的疊加就是所謂的小批量?!?/span>

所有這些意味著批處理“不是由機器學習理論驅動的,它們是由實現GPU的一些利用的需要驅動的;我們將神經網絡思維彎曲到非常特定的硬件架構的需求,但是那是落后的?!?/span>

“我們最興奮的事情之一是,WSE允許你深入學習深度學習的方式,而不是在特定的架構中進行深入學習,”費爾德曼說。

WSE適用于所謂的小批量,或者實際上是“批量大小”。WSE沒有通過每個可用電路干擾大量樣本,而是具有硬連線電路,該電路僅在檢測到具有非零值的單個樣本時才開始計算。

Cerebras首席執行官談公司大芯片對<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>的重大影響

Cerebras Systems聯合創始人兼首席執行官Andrew Feldman,蒂爾南雷

費爾德曼認為,對稀疏信號的關注是對運行多個樣本的“數據并行性”的譴責,這再次是GPU的時代錯誤?!皵祿⑿幸馕吨膫€人指令將同時應用于多個數據,包括它們是否為0,如果它們永遠不是零,則是完美的,如圖形中所示。 “但是當高達80%為零時,就像神經網絡一樣,它根本不聰明 - 這并不明智?!?他指出,在普通神經網絡中,人工神經元最常見的激活單元“ReLU”具有“80%零作為輸出”。

能夠處理稀疏信號似乎是深度學習的重要方向。在2月舉行的籌碼會議上,Facebook負責人工智能研究的負責人Yann LeCun指出,“隨著DL系統規模的擴大,模塊的激活可能會變得越來越稀疏,只有任何一次激活的模塊子集的變量子集?!?/span>

LeCun認為,這更接近大腦的運作方式?!安恍业氖?,使用當前的硬件,批處理使我們能夠將大多數低級神經網絡操作減少到矩陣產品,從而降低內存訪問計算比率,”他說,與Feldman呼應。

“因此,我們需要新的硬件架構,這些架構可以在批量大小為1的情況下高效運行?!?/span>

如果GPU的傳統數據并行性不是最優的,Feldman認為WSE使得并行處理的復興成為可能。特別是,可以探索另一種并行性,稱為“模型并行性”,其中深度學習的網絡圖的單獨部分被分配到芯片的不同區域并且并行運行。

“更有趣的是分割工作,以便你的400,000個核心中的一些在一個層上工作,一些在下一層上工作,一些在第三層上工作,依此類推,以便所有層都在工作中平行,“他沉思道。他說,其中一個影響就是大大增加了神經網絡可以處理的參數狀態的大小。根據GPU的數據并行性,任何一個GPU都可能能夠處理一百萬個參數?!叭绻惆褍蓚€GPU放在一起[在多處理系統中],你會得到兩臺可以處理一百萬個參數的機器,”他解釋說,“但是沒有一臺可以處理200萬個參數的機器 - 你沒有得到一個雙?!?/span>

使用單個WSE,可以支持40億個參數模型。他建議將機器集中在一起,“你現在可以解決80億或160億參數網絡,因此它可以讓你通過增加資源來解決更大的問題?!?/span>

費爾德曼認為像稀疏性和模型并行性這樣的東西采用的神經網絡“超出了創始人20或30年前給我們的意義”,意思是,Hinton,Bengio和Lecun?,F代網絡,如谷歌的“變形金剛”,他說,已經“在他們的TPU集群中考慮大量計算”,指的是谷歌開發的“Tensor Processing Unit”芯片。

“硬件正在扭曲我們行業的進步,”他是如何總結最先進的?!爱斢布木窒扌允刮覀儫o法探索肥沃的區域時,這就是我們想要改變的東西;硬件不應該妨礙你的探索,它不應該驅使你采用一些技術,如大批量。

“硬件應該成為你的思維能夠形成的平臺?!?/span>

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢