技術(shù)
導(dǎo)讀:百度智能云宣布成功點(diǎn)亮昆侖芯三代萬卡集群,這也是國(guó)內(nèi)首個(gè)正式點(diǎn)亮的自研萬卡集群。
2 月 5 日消息,百度智能云宣布成功點(diǎn)亮昆侖芯三代萬卡集群,這也是國(guó)內(nèi)首個(gè)正式點(diǎn)亮的自研萬卡集群。百度智能云將進(jìn)一步點(diǎn)亮 3 萬卡集群。
首先,突破硬件擴(kuò)展性瓶頸,如卡間互聯(lián)的拓?fù)湎拗疲苊馔ㄐ艓挸蔀槠款i;
同時(shí),圍繞芯片及集群功耗,基于萬卡規(guī)模常規(guī)方案功耗可達(dá)十兆瓦或更高,采用創(chuàng)新性散熱方案,從而解決萬卡集群的能效與散熱問題;
完善模型的分布式訓(xùn)練優(yōu)化,采用高效并行化任務(wù)切分策略,訓(xùn)練主流開源模型的集群 MFU 提升至 58%;
在提升穩(wěn)定性方面,提供容錯(cuò)與穩(wěn)定性機(jī)制,避免由于單卡故障率隨規(guī)模指數(shù)上升而造成的萬卡集群有效性大幅下降,保障有效訓(xùn)練率達(dá)到 98%;
最后,針對(duì)機(jī)間通信帶寬需求,建設(shè)超大規(guī)模 HPN 高性能網(wǎng)絡(luò),優(yōu)化拓?fù)浣Y(jié)構(gòu),從而降低通信瓶頸,帶寬有效性達(dá)到 90% 以上。
從昆侖芯科技官方獲悉,本次點(diǎn)亮的昆侖芯三代萬卡集群,采用的是昆侖芯 P800。昆侖芯官網(wǎng)暫未公布該卡的參數(shù)。