粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

大數(shù)跨境
0
0

視聽分離SOTA提速6倍!清華發(fā)布首個(gè)6M高性能模型|ICLR'26

視聽分離SOTA提速6倍!清華發(fā)布首個(gè)6M高性能模型|ICLR'26 新智元
2026-02-13
9

新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】清華大學(xué)胡曉林團(tuán)隊(duì)推出的Dolphin模型突破“高性能必高能耗”瓶頸,僅用6M參數(shù)(較主流模型減半),通過離散化視覺編碼與物理啟發(fā)的熱擴(kuò)散注意力機(jī)制,實(shí)現(xiàn)單次推理精準(zhǔn)語音分離,速度提升6倍以上,在多項(xiàng)基準(zhǔn)測(cè)試中刷新紀(jì)錄,為智能助聽器、手機(jī)等端側(cè)設(shè)備部署高清語音分離開辟新路徑。

視聽語音分離(Audio-Visual Speech Separation, AVSS)技術(shù)模擬人類“雞尾酒會(huì)效應(yīng)”,利用說話人面部口型等視覺線索,從嘈雜環(huán)境中提取目標(biāo)語音,在智能助聽器、移動(dòng)通信、增強(qiáng)現(xiàn)實(shí)及人機(jī)交互等領(lǐng)域具有重要應(yīng)用價(jià)值。

然而,該領(lǐng)域長(zhǎng)期受限于“性能與效率難以兼顧”的難題:高性能模型依賴大參數(shù)量和高計(jì)算開銷,難以部署于邊緣設(shè)備;輕量化模型則常以犧牲精度為代價(jià),且多采用迭代推理,延遲高、實(shí)時(shí)性差。

針對(duì)這一挑戰(zhàn),清華大學(xué)計(jì)算機(jī)系胡曉林副教授團(tuán)隊(duì)提出高效AVSS模型Dolphin,通過離散化視覺語義表征與物理先驗(yàn)驅(qū)動(dòng)的注意力機(jī)制,在顯著降低計(jì)算復(fù)雜度的同時(shí),刷新多項(xiàng)基準(zhǔn)性能記錄。

Dolphin是首個(gè)在包含視覺編碼器情況下參數(shù)量壓縮至6M級(jí)別仍保持高質(zhì)量分離的AVSS模型,GPU推理速度相較現(xiàn)有SOTA模型提升6倍以上,為端側(cè)實(shí)時(shí)語音處理提供了全新解決方案。

論文地址:https://arxiv.org/pdf/2509.23610

論文主頁:https://cslikai.cn/Dolphin/

代碼地址:https://github.com/JusperLee/Dolphin

核心挑戰(zhàn)分析

  • 視覺編碼器“路徑依賴”問題:主流方法依賴預(yù)訓(xùn)練大型視頻編碼器提取語義特征,導(dǎo)致視覺分支計(jì)算開銷超過音頻處理;輕量方案則易丟失深層語義,影響分離效果。
  • 迭代推理帶來高延遲:輕量化模型常采用多輪迭代優(yōu)化策略,雖減少參數(shù)但增加推理時(shí)間,無法滿足實(shí)時(shí)交互需求。
  • 特征建模能力局限:傳統(tǒng)模型難以在單次前向傳播中同時(shí)捕捉長(zhǎng)時(shí)序全局依賴與短時(shí)序局部細(xì)節(jié),導(dǎo)致復(fù)雜聲學(xué)環(huán)境下出現(xiàn)偽影或信息丟失。

圖1. Dolphin模型整體架構(gòu)

三大核心技術(shù)創(chuàng)新

DP-LipCoder:雙路徑離散視覺編碼器

Dolphin提出基于矢量量化的雙路徑離散視覺編碼器DP-LipCoder(如圖2),解決輕量化與語義豐富性的矛盾。

圖2. DP-LipCoder網(wǎng)絡(luò)結(jié)構(gòu)

該編碼器包含“重建路徑”與“語義路徑”。前者捕獲身份、表情等基礎(chǔ)視覺信息;后者引入矢量量化(VQ)技術(shù),將連續(xù)視頻幀映射為離散token序列,并通過AV-HuBERT模型蒸餾,強(qiáng)制學(xué)習(xí)與音頻高度對(duì)齊的深層語義。該設(shè)計(jì)以極低計(jì)算成本獲得高判別力、抗噪性強(qiáng)的視覺特征。

GLA模塊:?jiǎn)未瓮评硐碌娜?局部協(xié)同建模

Dolphin采用單輪編碼器-解碼器架構(gòu),摒棄耗時(shí)迭代機(jī)制,設(shè)計(jì)高效全局-局部注意力(Global-Local Attention, GLA)模塊(如圖3),實(shí)現(xiàn)高質(zhì)量單次前向分離。

  • 全局注意力(GA):采用粗粒度自注意力,在低分辨率下捕捉數(shù)秒級(jí)長(zhǎng)時(shí)上下文,大幅降低計(jì)算復(fù)雜度。
  • 局部注意力(LA):創(chuàng)新引入基于熱擴(kuò)散方程的“熱擴(kuò)散注意力”(HDA),利用其平滑特性自適應(yīng)進(jìn)行多尺度濾波,在抑制噪聲的同時(shí)保留語音瞬態(tài)細(xì)節(jié)。

圖3. GLA模塊結(jié)構(gòu)示意圖

直接特征回歸機(jī)制

區(qū)別于傳統(tǒng)掩碼預(yù)測(cè)方法,Dolphin采用直接特征回歸策略,跳過非線性掩碼乘法,直接輸出目標(biāo)語音的深層表征。實(shí)驗(yàn)證明該方式有效提升信號(hào)還原度,在SI-SNRi指標(biāo)上帶來約0.5dB增益。

實(shí)驗(yàn)結(jié)果與性能突破

在LRS2、LRS3和VoxCeleb2三大權(quán)威視聽分離數(shù)據(jù)集上,Dolphin全面領(lǐng)先:

  • 分離質(zhì)量領(lǐng)先:在LRS2上SI-SNRi達(dá)16.8 dB,優(yōu)于IIANet(16.0 dB)和AV-Mossformer2(15.1 dB)。
  • 極致高效:總參數(shù)量?jī)H6.22M(含視覺編碼器),較IIANet減少超50%;處理1秒音頻延遲低至33.24毫秒,比IIANet快4倍以上,比輕量模型RTFS-Net快近50%;計(jì)算量(MACs)僅為10.89G,降低50%以上。
  • 強(qiáng)魯棒性與優(yōu)異聽感:在多人混音、強(qiáng)背景音樂及真實(shí)辯論場(chǎng)景中表現(xiàn)穩(wěn)定。主觀聽感測(cè)試(MOS)得分3.86,顯著高于對(duì)比模型的2.24分,語音更清晰自然、無人工痕跡。

總結(jié)

當(dāng)前視聽語音分離研究普遍追求大模型以提升性能,但難以適配端側(cè)設(shè)備。Dolphin打破“參數(shù)換性能”的固有范式,證明輕量化模型亦可實(shí)現(xiàn)超越大模型的分離效果。

通過離散化語義表征與物理啟發(fā)的熱擴(kuò)散注意力機(jī)制,Dolphin為智能眼鏡、手機(jī)端側(cè)AI、實(shí)時(shí)會(huì)議系統(tǒng)等資源受限場(chǎng)景下的高精度語音分離提供了可行的技術(shù)路徑與理論支撐,推動(dòng)AVSS技術(shù)邁向?qū)嵱没c普及化。

【聲明】?jī)?nèi)容源于網(wǎng)絡(luò)
0
0
新智元
智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人革命對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。
內(nèi)容 14888
粉絲 0
新智元 智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人革命對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。
總閱讀118.9k
粉絲0
內(nèi)容14.9k