證券之星消息,根據(jù)企查查數(shù)據(jù)顯示,中國(guó)電信(601728)公布了一項(xiàng)國(guó)際專利申請(qǐng),專利名為“3D 數(shù)字人唇形驅(qū)動(dòng)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)”,專利申請(qǐng)?zhí)枮?PCT/CN2023/140585,國(guó)際公布日為 2024 年 6 月 27 日。
該專利方法包括:獲取輸入的文本信息;基于從文本到語音 TTS 技術(shù),將文本信息轉(zhuǎn)化為音素序列、音頻數(shù)據(jù)和時(shí)間戳信息(其中時(shí)間戳信息包含音素序列中各個(gè)元素的時(shí)間戳);根據(jù)時(shí)間戳信息,對(duì)音素序列中相應(yīng)的靜音音素進(jìn)行刪除處理,對(duì)刪除處理后的音素序列進(jìn)行預(yù)設(shè)倍數(shù)采樣,得到 bs 動(dòng)畫系數(shù)序列;根據(jù) bs 動(dòng)畫系數(shù)序列、音頻數(shù)據(jù)、預(yù)設(shè)音素唇形映射表以及特殊音素的預(yù)設(shè)優(yōu)化,渲染生成 3D 數(shù)字人的唇形動(dòng)畫。其中預(yù)設(shè)音素唇形映射表包含多種音素與 3D 數(shù)字人唇形之間的映射關(guān)系,特殊音素包括雙唇音、唇齒音和齒擦音。
今年以來中國(guó)電信已公布的國(guó)際專利申請(qǐng) 116 個(gè),較去年同期增加了 87.1%。結(jié)合公司 2023 年年報(bào)財(cái)務(wù)數(shù)據(jù),2023 年公司在研發(fā)方面投入了 130.52 億元,同比增 23.59%。
這種 3D 數(shù)字人唇形驅(qū)動(dòng)方法提高了 3D 數(shù)字人唇形驅(qū)動(dòng)的魯棒性與流暢度,具體來說,通過構(gòu)建預(yù)設(shè)音素唇形映射表、對(duì)音素序列進(jìn)行處理和特殊音素優(yōu)化等操作,可以使生成的 3D 數(shù)字人唇形動(dòng)畫更加自然和準(zhǔn)確,減少對(duì)大量訓(xùn)練數(shù)據(jù)的依賴,并且能夠更好地應(yīng)對(duì)各種情況,提高唇形驅(qū)動(dòng)的效果和穩(wěn)定性。
特殊音素的預(yù)設(shè)優(yōu)化方式舉例如下:設(shè)置 3D 數(shù)字人在雙唇音(如 b、p、m 等)發(fā)音前,上嘴唇與下嘴唇接觸;在唇齒音(如 f、v 等)發(fā)音前,下嘴唇觸碰上牙齒;在齒擦音(如 z、c、s、j、q、x、zh、ch、sh 等)發(fā)音時(shí),上下牙齒之間的距離滿足預(yù)設(shè)距離。
在渲染生成唇形動(dòng)畫之前,可能還會(huì)對(duì) bs 動(dòng)畫系數(shù)序列進(jìn)行三次樣條差值采樣、衰減、平滑處理,或者在其預(yù)設(shè)位置添加靜音音素后再進(jìn)行平滑處理等操作。
該技術(shù)在虛擬數(shù)字人、人機(jī)交互、影視娛樂等領(lǐng)域可能具有廣泛的應(yīng)用前景,例如可以為虛擬客服、虛擬主播等提供更加自然和逼真的唇形表現(xiàn),提升用戶體驗(yàn)。同時(shí),也有助于推動(dòng)相關(guān)產(chǎn)業(yè)的發(fā)展和創(chuàng)新。具體的應(yīng)用方式和效果可能還需要根據(jù)實(shí)際情況進(jìn)行進(jìn)一步的開發(fā)和優(yōu)化。 |