分享
阿里推出全新多模態(tài)大模型Qwen3.5-Omni,性能超越谷歌Gemini 3.1 Pro
2026-04-01 10:38 星期三
3月31日,阿里正式發(fā)布新一代全模態(tài)大模型Qwen3.5-Omni。該模型在音視頻理解、識(shí)別、交互等215項(xiàng)權(quán)威測(cè)試中表現(xiàn)全球領(lǐng)先,整體能力超越Gemini-3.1 Pro,成為當(dāng)前最強(qiáng)的全模態(tài)大模型之一。
Qwen3.5-Omni能精準(zhǔn)理解并生成音視頻內(nèi)容的結(jié)構(gòu)化描述,支持113種語言和方言的語音識(shí)別與生成;首次實(shí)現(xiàn)“音視頻Vibe Coding”——用戶只需打開攝像頭,對(duì)著草圖或畫面口述需求(包括復(fù)雜邏輯),模型即可自動(dòng)生成帶完整UI的App、網(wǎng)頁或游戲原型代碼,真正實(shí)現(xiàn)“動(dòng)動(dòng)嘴就能編程”。
模型采用混合注意力MoE架構(gòu),基于海量文本、圖像及超1億小時(shí)音視頻數(shù)據(jù)進(jìn)行原生多模態(tài)訓(xùn)練,可同時(shí)處理文字、圖片、語音、視頻等多種輸入,并輸出對(duì)應(yīng)形式的內(nèi)容。在視聽交互(如DailyOmni、QualcommInteractive)、嘈雜環(huán)境語音識(shí)別(WenetSpeech)、多語言語音合成(30語種)等關(guān)鍵任務(wù)中,均大幅領(lǐng)先同類模型。
目前,公眾可在Qwen Chat免費(fèi)體驗(yàn);開發(fā)者和企業(yè)可通過阿里云百煉平臺(tái)調(diào)用Qwen3.5-Omni的Plus、Flash、Light三種API版本,廣泛用于短視頻、直播、游戲、自媒體等領(lǐng)域。每百萬Tokens輸入成本不足0.8元,僅為Gemini-3.1 Pro的十分之一。
Qwen3.5-Omni能精準(zhǔn)理解并生成音視頻內(nèi)容的結(jié)構(gòu)化描述,支持113種語言和方言的語音識(shí)別與生成;首次實(shí)現(xiàn)“音視頻Vibe Coding”——用戶只需打開攝像頭,對(duì)著草圖或畫面口述需求(包括復(fù)雜邏輯),模型即可自動(dòng)生成帶完整UI的App、網(wǎng)頁或游戲原型代碼,真正實(shí)現(xiàn)“動(dòng)動(dòng)嘴就能編程”。
模型采用混合注意力MoE架構(gòu),基于海量文本、圖像及超1億小時(shí)音視頻數(shù)據(jù)進(jìn)行原生多模態(tài)訓(xùn)練,可同時(shí)處理文字、圖片、語音、視頻等多種輸入,并輸出對(duì)應(yīng)形式的內(nèi)容。在視聽交互(如DailyOmni、QualcommInteractive)、嘈雜環(huán)境語音識(shí)別(WenetSpeech)、多語言語音合成(30語種)等關(guān)鍵任務(wù)中,均大幅領(lǐng)先同類模型。
目前,公眾可在Qwen Chat免費(fèi)體驗(yàn);開發(fā)者和企業(yè)可通過阿里云百煉平臺(tái)調(diào)用Qwen3.5-Omni的Plus、Flash、Light三種API版本,廣泛用于短視頻、直播、游戲、自媒體等領(lǐng)域。每百萬Tokens輸入成本不足0.8元,僅為Gemini-3.1 Pro的十分之一。
AI解讀
1、Qwen3.5-Omni大幅降低多模態(tài)AI使用成本與門檻,將加速跨境電商內(nèi)容生產(chǎn)智能化——尤其利好需高頻生成多語種視頻腳本、本地化商品演示、AI直播話術(shù)及多平臺(tái)素材適配的中小賣家;其113語種語音能力可強(qiáng)化海外社媒短視頻、TikTok Shop直播、Amazon A+視頻等場(chǎng)景的自動(dòng)化內(nèi)容生成效率。
2、建議賣家立即接入阿里云百煉平臺(tái)試用Qwen3.5-Omni Flash版,批量生成多語種產(chǎn)品短視頻腳本+配音+字幕;同步訓(xùn)練專屬商品知識(shí)庫,用于自動(dòng)生成合規(guī)化的各國平臺(tái)A+頁面文案、售后應(yīng)答話術(shù);優(yōu)先在TikTok和Temu站外社媒測(cè)試AI口播視頻,降低本地化內(nèi)容制作成本。
免責(zé)聲明:內(nèi)容由AI生成
新聞推薦
查看更多



