導讀:Ethos-U85關鍵特性是釋放大模型和多模態(tài)AI在邊緣部署的巨大潛力。
將計算資源部署在邊緣和終端并不少見,目的是提升指令響應速度、節(jié)省帶寬資源、提高數(shù)據(jù)安全與隱私性等。并且隨著大模型與多模態(tài)AI的快速發(fā)展,邊緣與端側AI處理需求快速增長,邊緣AI同時迎來在性能、功耗、能效、成本等方面的挑戰(zhàn)。
近日,Arm宣布推出第三代面向邊緣AI的NPU產品Arm Ethos-U85 NPU,同時推出了能為語音、音頻和視覺等邊緣AI應用提供支持的全新物聯(lián)網(wǎng)參考設計平臺Arm Corstone-320,再次擴大了軟硬件協(xié)同的邊緣AI產品與服務矩陣。
其中Ethos-U85與上一代產品相比性能提升了四倍,能效提升了20%,可在主流網(wǎng)絡上實現(xiàn)高達85%的利用率,可滿足工廠自動化和商用或智能家居攝像頭等物聯(lián)網(wǎng)應用不斷攀升的性能需求。
Arm Corstone-320物聯(lián)網(wǎng)參考設計平臺則結合了領先的嵌入式IP、軟件、工具和支持,以預先集成、以預先驗證的模式,為合作伙伴縮短用于邊緣智能芯片的開發(fā)時間且降低開發(fā)復雜度和開發(fā)成本,加快產品上市。
“軟硬件必須協(xié)同工作才能釋放AI處理的最大潛能。Arm不僅僅聚焦我們的處理器IP,更是在軟件與工具鏈方面加強投資,確保我們領先于行業(yè),以滿足更簡單、快速的高性能邊緣AI系統(tǒng)的開發(fā)需求,支持諸多AI算子與應用在Arm計算平臺上的優(yōu)化運行,使邊緣AI在Arm平臺上枝繁葉茂。”Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務拓展副總裁馬?。–hloe Ma)在媒體溝通會上表示。
Ethos-U85關鍵特性是釋放大模型和多模態(tài)AI在邊緣部署的巨大潛力
近年來生成式AI大模型的快速發(fā)展與Transformer深度神經網(wǎng)絡的出現(xiàn)有極大關系。與上一代CNN、RNN架構相比,Transformer將模型參數(shù)提升到了幾十億、幾百億甚至上千億,模型的復雜程度和學習能力快速提高,尤其在機器翻譯、自然語言理解、語音識別、圖像字幕生成等AI任務中有優(yōu)異表現(xiàn)。
相比Arm Ethos-U系列前代產品甚至是行業(yè)中很多邊緣AI加速器,Ethos-U85的關鍵特性之一正是在支持CNN和RNN基礎上,增加了對Transformer架構的支持。
尤其因為資源受限,大模型往往需要變成相對小的模型才更適合部署在邊緣設備?;赥ransformer的大模型可以被調整和壓縮,支持在不過多影響準確度的情況下,高效運行于邊緣設備上。
Ethos-U85的主要特性包括:
單周期支持從128到2048個MAC單元的配置——在1GHz時,算力可支持從256GOPS到4TOPS。
支持int8權重和int8或int16激活。
支持Transformer架構網(wǎng)絡,以及CNN和RNN。
支持TensorFlow Lite和PyTorch等AI框架。
硬件原生支持2/4稀疏性,使吞吐量翻倍。
內部SRAM為29至267KB,多達六個128位AXI5接口。
支持權重壓縮,采用標準和快速權重編碼器。
支持擴展壓縮。
除了計算能力大幅提升,大模型和生成式AI另一大優(yōu)勢是對多模態(tài)的支持。例如一些智能家居應用需求已經從單一模型支持不同的傳感器,升級到統(tǒng)一模型支持不同的多模態(tài)傳感器輸入。多模態(tài)AI就像家庭大腦,可以更安全、更智能地營造個性化家庭居住體驗,而這也對AI算力提出更高要求。
至于Ethos-U85適用的場合,既包括需要AI加速的低功耗MCU系統(tǒng)如智能家居、零售、工業(yè)等新興邊緣AI應用場景,也包括高性能邊緣計算系統(tǒng)如工業(yè)機器視覺、邊緣網(wǎng)關、可穿戴設備、消費類機器人等。具體在執(zhí)行更高性能設備的邊緣推理需求時,Arm在設計Ethos-U85之初就考慮了將其與領先的Armv9 Cortex-A CPU相結合,以加速處理機器學習任務。
Corstone-320提供安全可靠的軟硬件組合以加快產品上市
在硬件IP方面,Corstone-320集成了Cortex-M系列最高性能的嵌入式處理器Cortex-M85(滿足視覺應用的能效、性能、安全等需求),以及全新的Ethos-U85 NPU AI加速器,還結合了Arm Mali-C55 ISP,確保實現(xiàn)視覺應用圖像處理和能效需求。
在軟件方面,Corstone-320集成了固件、所有IP的驅動程序、中間件、實時操作系統(tǒng)和云集成、ML模型和參考應用程序,有效幫助軟件開發(fā)者選擇其特定細分市場所需的組件和工具構建物聯(lián)網(wǎng)堆棧。軟件中還包含了固定虛擬平臺(FVP),用于對構成完整FPGA系統(tǒng)的外設進行建模。通過使用FVP,軟件開發(fā)者無需硬件即可開始開發(fā)應用,從而加快開發(fā)速度。
總的來說,新推出的Ethos-U85和Corstone-320參考設計平臺滿足了語音、音頻和視覺邊緣AI應用更高計算性能的需求,同時沿用了Arm軟件與AI開發(fā)者熟知的工具鏈,具有投資復用、上手容易等優(yōu)勢,能夠加速整個物聯(lián)網(wǎng)生態(tài)實現(xiàn)AI和ML的轉型。
基于 Arm技術的物聯(lián)網(wǎng)ML/AI芯片及解決方案持續(xù)擴展
Arm在ML和AI生態(tài)方面始終有持續(xù)投入。
2019年,Arm開始在Armv8.1-M架構中增加Helium矢量擴展技術,至今Cortex-M52、Cortex-M55和Cortex-M85都已引入Helium技術,使嵌入式和IoT開發(fā)者可以繼續(xù)基于Cortex-M設計ML和AI芯片解決方案。
Arm迄今推出的專用AI加速器包括Ethos-U55、Ethos-U65、Ethos-U85,
以進一步適應邊緣AI和嵌入式AI的市場需求。包括恩智浦半導體的i.MX系列、英飛凌的PSoC Edge和Alif Semiconductor的Ensemble系列等,都搭載了Ethos-U55和Ethos-U65AI微加速器。AlifSemiconductor和英飛凌更是全新ArmEthos-U85NPU的早期采用者。
Arm也發(fā)布了多種物聯(lián)網(wǎng)參考設計,比如Corstone-300、Corstone-310、Corstone-1000及最新的Corstone-320。這些參考設計不僅包括了Arm或集成了合作伙伴IP的子系統(tǒng),還包括必要的ML工具鏈及適用目標用例的AI模型。
對于未來AI產品及應用的發(fā)展方向,Arm認為“大小模型云邊端結合”將是重要趨勢。尤其邊緣部署大模型和生成式AI用例指日可待,Arm也已經為此做好準備,來挑戰(zhàn)物聯(lián)網(wǎng)與大模型/多模態(tài)AI結合的成本、性能與效率極限!這想必也符合物聯(lián)網(wǎng)產業(yè)對大模型與生成式AI應用最實際的期待。