中國清華大學的一篇新論文描述了專門用于計算機視覺任務的超快速、人工智能處理芯片的開發和運行。該芯片名為電子與光計算相結合的全模擬芯片 (ACCEL),在專門的架構中利用光子和模擬計算,能夠在圖像分類工作負載中提供 Nvidia A100 3.7 倍以上的性能。是的,它是一款用于視覺任務的專用芯片,但我們不應該將其視為市場碎片化,而是可以將其視為邁向異構計算未來的又一步,其中半導體越來越多地設計用于滿足特定需求,而不是“捕獲”。所有”配置。
正如《自然》雜志上發表的論文所述,模擬的 ACCEL 處理器在視覺任務中達到了每秒 4,600 次萬億次運算 (TOPS)。與 Nvidia 的A100 (Ampere)相比,這具有 3.7 倍的性能優勢,后者在 INT8 工作負載(稀疏)中的峰值為 1,248 TOPS。根據該研究論文,ACCEL 的系統能源效率為每秒每瓦 74.8 peta 操作。此后,Nvidia 的 A100 被 Hopper 及其 800 億晶體管 H100 超級芯片所取代,但即便如此,與這些結果相比,這看起來也并不令人印象深刻。
當然,速度對于任何處理系統都是至關重要的。然而,準確性對于計算機視覺任務來說是必要的。畢竟,這些系統用于管理我們的生活和文明的應用范圍和方式是廣泛的:它從可穿戴設備市場(可能在 XR 場景中)延伸到自動駕駛、工業檢查以及其他圖像檢測和識別系統。一般,比如面部識別。清華大學的論文稱,ACCEL 在 Fashion-MNIST、3 類 ImageNet 分類和延時視頻識別任務中進行了實驗,具有“具有競爭力的高”準確度(分別為 85.5%、82.0% 和 92.6%),同時顯示在弱光條件下具有出色的系統魯棒性(每幀 0.14 fJ μm−2)。
就 ACCEL 而言,清華大學的架構通過衍射光學模擬計算 (OAC) 并輔以電子模擬計算 (EAC) 進行操作,在一塊芯片中具有可擴展性、非線性和靈活性,但其 99% 的操作是在光學系統內實現的。根據該論文,這有助于克服其他視覺架構中的限制,例如馬赫-曾德干涉儀和衍射深度神經網絡(DNN)。
這個 99% 的數字至少可以解釋 ACCEL 和其他非模擬方法之間能源效率的差異:Nvidia 的 GPU 是 100% 數字化的,這意味著它的運行基于電子的連續流動(并產生廢熱作為結果)。
然而,光子光學系統利用非電氣方式來傳輸、操作和編碼信息。這可以通過特定波長的激光脈沖來完成(我們在較近關于中國量子密鑰分配 [QKD] 衛星系統的文章中對此進行了探討,也是基于光子的),用于提取和傳達視覺數據(圖像)的特征并進行操作幾乎在過境時就按那個燈(改變它)。由于采用了這種光學處理系統,因此能量需求更少,熱耗散中浪費的電子也更少。擺脫 ADC(模數轉換器)的高能耗和延遲成本對于光子學帶來的性能改進大有幫助。這也是為什么光子系統被用于量子計算和 HPC(高性能計算)安裝。
同時,我們擺脫了電子在半導體上有序但混亂的運動,并解鎖了僅受光本身限制的運行速度,從而獲得了速度優勢。研究論文稱,該芯片的內部測試顯示,每幀的計算延遲較低,為 72 納秒,每秒生成約 13,000 幀的吞吐量,足以讓任何《毀滅戰士》玩家忘記現實。 。協處理器似乎也有足夠的幀來分析任何計算視覺任務中選擇的這些圖像。通過 ACCEL 對這些圖像進行深度學習處理似乎不會成為瓶頸。
ACCEL 似乎是專用集成電路 (ASIC) 設計的模擬版本。這正是電子模擬計算 (EAC) 單元的作用,因為它可以重新配置其中的模擬路徑以加速特定任務。將這些視為芯片內的預編程算法,由 EAC 協調應將哪種配置應用于哪個任務。
研究團隊聯合負責人戴瓊海表示:“為人工智能時代開發新的計算架構是一項成就。但更重要的挑戰是將這種新架構落地到實際應用中,解決國家和公眾的重大需求,這是我們的責任。”
新的光子和模擬 ACCEL 芯片可能會讓人想起 IBM 較近發布的另一款模擬 AI 加速芯片(Hermes)。也許有趣的是,即使對中國實施了所有制裁,該國的研發仍使其能夠迎頭趕上,并且在某些方面明顯有所改進,無論它們受到什么阻礙。能夠繞過限制無疑是中國考慮制裁的方式。
同樣重要的是要了解這一代基于光子學的模擬芯片正在極其輕松的光刻水平上進行加工。例如,ACCEL 是采用標準 180 nm CMOS 技術制造的,用于電子模擬計算單元 (EAC)——操作的大腦。當然,通過進一步小型化工藝以實現更低的 CMOS 節點(Nvidia 的 H100 采用 4 nm 工藝制造),可以進一步提率。目前還不清楚可以做哪些進一步的工作來小型化光學模擬計算(OAC)模塊。
大規模實施 ACCEL 等模擬計算系統似乎更多的是制造吞吐量和行業適應性的問題,而不是物理上不可能的問題。但高性能人工智能模擬芯片仍未大規模部署是有原因的:目前其制造水平太低,無法滿足研究工作和原型工作以外的任何需求。我們現在沒有足夠的吞吐量或可用的能力將這些芯片添加到臺積電等公司已經的 2025 年制造中,但在擴大規模之前始終需要這些實驗結果。此類芯片的市場非常希望擁有它們。較終,這都是計劃、支出和時間的問題。