
快科技3月30日音讯开云体育,阿里本日认真发布千问新一代全模态大模子Qwen3.5-Omni。
据悉,Qwen3.5-Omni聘用夹杂看重力MoE架构,可竣事图片、视频、语音、笔墨等全模态践诺的输入与输出。
在音视频知晓、识别、交互等215项任务中,Qwen3.5-Omni得回SOTA(性能最好),寥落Gemini-3.1 Pro,成为现在巨匠最强的全模态大模子之一。

举例在聚焦视听交互才智的DailyOmni、QualcommInteractive、Omni Cloze等测试中,Qwen3.5-Omni得分大幅率先Gemini-3.1 Pro。
在检测嘈杂环境抗插手才智的WenetSpeech测试中,Qwen3.5-Omni诞妄率远低于Gemini,识别准确率极高。
在历练多言语语音生成质料的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni雷同显赫优于Gemini-2.5-Pro-TTS。

现在,Qwen3.5-Omni领有极强的音视频知晓与及时交互才智,未必对音视频践诺生成详备且可控的结构化描摹。
新模子撑捏113种言语及方言的语音识别和36种言语及方言的语音生成,就连使用东谈主数不及一百万的毛利语和国内的海南边言,也能精确识别。
同期,基于一系列时期革命,Qwen3.5-Omni还将Vibe Coding才智推入下一阶段。
与纯文本或图片运转的Vibe Coding不同,千问不错竣事音视频编程:通达录像头,用户对着草图口述需求,哪怕是包括复混居品逻辑的描摹,模子也能径直生成带有复杂UI的居品原型界面,真的竣事“动动嘴即可编程”。
而Qwen3.5-Omni顶尖的全模态才智,还能为专科限制带来超等坐蓐力。
新模子可对画面主体、东谈主物相关、对话逻辑、乃至东谈主物情谊转动进行极细的拆解,并自动完成视频章节切片与时辰戳标注,撑捏逾越10小时的音频输入。
现在,阿里云百真金不怕火已上新Qwen3.5-Omni的Plus、Flash、Light三种API,可浅近行使于短视频/直播平台、游戏、自媒体等行业。
普通用户可前去Qwen Chat免费体验,耕种者和企业可通过阿里云百真金不怕火平台调用Qwen3.5-Omni模子,每百万Tokens输入不到0.8元,比Gemini-3.1 Pro的1/10还低。
面前开云体育,千问已稳居中国企业级大模子调用阛阓第一,劳动涵盖互联网、金融、破钞电子及汽车等要点行业超100万家客户。
