技術(shù)
導(dǎo)讀:豆包實(shí)時(shí)語(yǔ)音大模型正式推出,并在豆包 App(版本號(hào)為 7.2.0 新春版)全量開(kāi)放。
從豆包官方獲悉,豆包實(shí)時(shí)語(yǔ)音大模型正式推出,并在豆包 App(版本號(hào)為 7.2.0 新春版)全量開(kāi)放。
據(jù)介紹,豆包實(shí)時(shí)語(yǔ)音大模型實(shí)現(xiàn)了語(yǔ)音理解和生成一體化,實(shí)現(xiàn)了端到端語(yǔ)音對(duì)話。相比傳統(tǒng)級(jí)聯(lián)模式在語(yǔ)音表現(xiàn)力、控制力、情緒承接方面表現(xiàn)驚艷,并具備低時(shí)延、對(duì)話中可隨時(shí)打斷等特性,“中文對(duì)話斷崖式領(lǐng)先,情商智商雙雙在線”。
同時(shí),豆包 App 更新實(shí)時(shí)語(yǔ)音通話功能,面向所有用戶開(kāi)放。該功能基于最新豆包實(shí)時(shí)語(yǔ)音大模型。官方表示,豆包中文場(chǎng)景的對(duì)話能力更新后在語(yǔ)音真實(shí)感和“喜怒哀樂(lè)”的情緒表現(xiàn)上近乎達(dá)到“人機(jī)難辨”的 AI 交互效果,可以模仿不同聲線,并且在“邏輯思考”和“情緒感知”上有明顯提升。
據(jù)了解,豆包全新實(shí)時(shí)語(yǔ)音通話功能可以根據(jù)場(chǎng)景自動(dòng)對(duì)節(jié)奏、兒化音、音量、氣音等細(xì)節(jié)精準(zhǔn)把控,還可跟用戶“說(shuō)”悄悄話。其掌握了部分方言與英語(yǔ)對(duì)話、多角色模仿,甚至部分歌曲演唱能力。
豆包的全新語(yǔ)音能力基于端到端框架研發(fā),其使用原生方法深度融合語(yǔ)音與文本模態(tài)進(jìn)行統(tǒng)一建模。最終可實(shí)現(xiàn)從多模態(tài)輸入直接到多模態(tài)輸出的效果,從而達(dá)到官方所述“賦予 AI 語(yǔ)音對(duì)話‘靈魂’”的效果。