導(dǎo)讀:近日,中國(guó)聯(lián)通研究院與浙江聯(lián)通、聯(lián)通服裝制造軍團(tuán)協(xié)同攻關(guān),針對(duì) AI 敏感數(shù)據(jù)的本地存儲(chǔ)異地訓(xùn)練需求提出了創(chuàng)新的業(yè)務(wù)模式,并成功在杭州與金華兩地間實(shí)施了業(yè)界首次 30TB 樣本數(shù)據(jù)的跨 200 公里存算分離拉遠(yuǎn)訓(xùn)練,經(jīng)過(guò)實(shí)際測(cè)算,訓(xùn)練效率高達(dá) 97% 以上。
據(jù)中國(guó)聯(lián)通官方,近日,中國(guó)聯(lián)通研究院與浙江聯(lián)通、聯(lián)通服裝制造軍團(tuán)協(xié)同攻關(guān),針對(duì) AI 敏感數(shù)據(jù)的本地存儲(chǔ)異地訓(xùn)練需求提出了創(chuàng)新的業(yè)務(wù)模式,并成功在杭州與金華兩地間實(shí)施了業(yè)界首次 30TB 樣本數(shù)據(jù)的跨 200 公里存算分離拉遠(yuǎn)訓(xùn)練,經(jīng)過(guò)實(shí)際測(cè)算,訓(xùn)練效率高達(dá) 97% 以上。
從官方介紹獲悉,通過(guò)本次測(cè)試充分驗(yàn)證了存算分離技術(shù)的安全性、可行性和高效性,為未來(lái) AI 技術(shù)的發(fā)展提供了新的思路和方向。
存算分離技術(shù)是指將存儲(chǔ)數(shù)據(jù)的倉(cāng)庫(kù)和對(duì)數(shù)據(jù)進(jìn)行計(jì)算的加工廠獨(dú)立開(kāi)來(lái),在訓(xùn)練時(shí)直接將數(shù)據(jù)從遠(yuǎn)端存儲(chǔ)設(shè)備中拉過(guò)來(lái)進(jìn)行計(jì)算,而不需要先存儲(chǔ)到本地的磁盤(pán)再進(jìn)行處理,可以有效保證用戶(hù)數(shù)據(jù)的安全性和一致性。
中國(guó)聯(lián)通稱(chēng),海量樣本數(shù)據(jù)處理過(guò)程中存在兩大挑戰(zhàn):一是數(shù)據(jù)多存儲(chǔ)于企業(yè)端,部分安全性要求較高的數(shù)據(jù)不便外遷;二是樣本數(shù)據(jù)量激增,AI 智算中心在具備強(qiáng)大算力的同時(shí),還需額外配備存儲(chǔ)資源,顯著提升了建設(shè)成本。在此背景下,業(yè)內(nèi)對(duì)實(shí)現(xiàn)“存算分離拉遠(yuǎn)、樣本隨訓(xùn)隨拉”需求迫切。
▲ 圖源中國(guó)聯(lián)通公眾號(hào)
本次存算拉遠(yuǎn)測(cè)試驗(yàn)證的主要特色包括:
第一,以跨地市 AI 大模型訓(xùn)練能力創(chuàng)新重構(gòu)智算訓(xùn)練模式。傳統(tǒng)的智算集中訓(xùn)練模式,需要用戶(hù)將樣本上傳到智算中心進(jìn)行落盤(pán)訓(xùn)練,但是部分用戶(hù)對(duì)隱私樣本落盤(pán)存在安全顧慮。浙江聯(lián)通通過(guò) IP 廣域無(wú)損方案,實(shí)現(xiàn)了杭州存、金華訓(xùn)的“數(shù)據(jù)不落盤(pán)”拉遠(yuǎn)訓(xùn)練,以算網(wǎng)協(xié)同的能力,為企業(yè)用戶(hù)隱私樣本訓(xùn)練探索出了一條新路。
第二,樣本數(shù)據(jù)總量達(dá) 30TB,傳輸距離超 200 公里,計(jì)算拉遠(yuǎn)效率大于 97%。通過(guò)聯(lián)通服裝制造軍團(tuán)“衣瞳行業(yè)模型”的 AI 訓(xùn)練存算分離現(xiàn)網(wǎng)測(cè)試。充分驗(yàn)證了針對(duì) AI 訓(xùn)練業(yè)務(wù)存算拉遠(yuǎn)的技術(shù)可行性,未來(lái)有相關(guān)數(shù)據(jù)敏感業(yè)務(wù)需求的用戶(hù)可通過(guò)運(yùn)營(yíng)商算力服務(wù),完成隱私樣本不出園區(qū)的拉遠(yuǎn)訓(xùn)練,實(shí)現(xiàn)成本與安全的最佳平衡。