Qwen3.5-Omni:开启视频会议模式,AI现场讲解论文、编写代码
视频通话中不仅能够对话,还能进行实时编程互动。
现在Qwen3.5-Omni来了!
实际测试发现它终于可以像真人一样参与正式的工作讨论了。
它能边编程序边讲解论文,并帮助拆解视频内容。
这简直就是工作中的得力助手!

根据官方介绍,Qwen3.5-Omni具有真正的全模态功能,能够理解多种类型的数据输入并生成高质量的音视频脚本。
它提供三种不同的配置选项——Plus、Flash和Light,支持256K的大上下文以及113种语言的识别能力,并且可以处理长达十小时的音频或一小时的视频内容。
在基准测试中表现优异,Qwen3.5-Omni拿下了215项SOTA的成绩,与Gemini 3.1 Pro相媲美甚至超越。

其通用音频理解、推理能力以及对话功能都超过了Gemini-3.1 Pro的水平。而音视频的理解能力也达到了相同的水准。
在视觉和文本处理上则保持了同尺寸Qwen3.5模型的表现力。
Qwen3.5-Omni的一大特色是自然出现的实时编程能力,它能够在视频通话中根据画面生成代码或原型设计。
新功能一经推出便引起了广泛讨论。
有人评论说这是巨大的进步!彻底改变了用户与AI交流的方式。

现在进入实测环节
实地测试Qwen3.5-Omni的功能表现
音视频拆解和分析
首先来检验它的视频解析能力。
我上传了无字幕版本的《疯狂动物城2》预告片,请求它分析并生成详细的脚本。
考虑到预告片的特点——节奏快、镜头多且角色频繁出现,这给理解带来了一定难度。
然而Qwen3.5-Omni迅速完成了任务,并在几秒钟内提供了一个详细的时间戳脚本。
不仅拆解了每个分镜和画面内容,还深入分析了字幕、特效以及音乐元素等细节信息。
为了进一步测试它的能力
当预告片播放到37秒时出现了哪些角色?他们在做什么?
我继续请求分析预告片的整体节奏与手法以及所传递的情感思想。
它快速给出了全面的分析报告,解析出“快—慢—爆—收”的波浪式结构,并在没有对话或字幕的情况下揭示了诸多隐喻。
真的是个专业的视频拆解专家!
接下来尝试Qwen3.5-Omni的实时编程功能。
看视频做网页
在Qwen Chat里启动视频通话,它能够看到摄像头的画面,并进行即时对话和代码编写。
我要求根据手绘草图制作一个关于Geoffery Hinton的网页。
语音流畅自然,仿佛与真人交流一般。几秒钟后就生成了HTML+CSS代码并提供了预览效果。
整体效果符合预期,并且网页布局按照我提供的草图进行设计。
通过调用WebSearch和复杂FunctionCall的能力,它顺利填充了一些内容到页面中。
尽管缺少图片并且信息量有限,但视频通话结合实时编程体验仍然让人印象深刻。
不仅如此,Qwen3.5-Omni还能一边进行视频通话一边解读学术论文。
面对复杂的英文术语和图表公式,有了它就不必再头痛了!
我们打开Yann LeCun团队发布的最新研究——LeWorldModel,并让它进行解读。
实时对话解读论文
它直接用通俗的语言解释了论文的核心概念及其创新之处。
当中间打断它的讲述并询问其中一张图的内容时,它也能立刻切换话题作答。
这次更新中新增的一项重要功能就是语义打断的支持。
而且不会被无关背景音干扰,即使有开门关门的杂音也不会影响到解读过程。
将来阅读学术论文会更加友好便捷了!
不再需要对着满屏的专业术语发愁,有了AI视频通话讲解,可以随时打断或强调重点内容,大大提升了学习效率和体验感。
在基准测试中Qwen3.5-Omni表现卓越,与Gemini 3.1-Pro不相上下甚至超越。
它在通用音频理解、推理等多个方面都超过了对手,并且音视频的理解能力也达到了同等水平。
视觉和文本处理功能则保持了同尺寸Qwen3.5模型的水准。
相较于上一代产品,Qwen3.5-Omni在长上下文、多语言支持以及音视频理解方面都有显著提升。
此外还新增了语义打断、声音复制和语音控制等实时交互功能,使得对话体验更加自然流畅。
ARIA(自适应速率交错对齐)技术的应用进一步提升了语音输出的稳定性和自然度。
Qwen3.5-Omni如何实现“边看边思考”的?
其中关键在于模型架构,它继承了Thinker-Talker结构:一个负责理解输入信息的大脑和另一个用来输出结果的嘴巴。
Thinker能够处理图像、声音等多种类型的数据;Talker则根据大脑提供的内容生成自然语音。


两者都采用了Hybrid-Attention MoE技术,提高了效率并增强了性能。


模型可以将音频和视频混合输入,并通过特殊的位置编码方式理解它们之间的时间关系。
最终Thinker会处理所有多模态信息生成文本输出;Talker则负责将其转换成自然语音。
关键升级包括轻量级的语音生成方法,解决了之前存在的“AI说话不稳定”的问题。
通过引入ARIA技术动态调整文本与语音之间的节奏对齐,提高了输出质量和稳定性。
还有就是实现了真正的实时对话功能,用户和模型可以同步进行交流而无需等待时间延迟。
这也是为什么有时感觉它在抢话或者你刚说几个字就立即接上。
现在Qwen Chat网站已上线该新版本供体验;也可以通过阿里云获取API接口来调用。
如果希望尝试视频通话功能,则需要使用手机网页端的Qwen Chat应用。

下面提供了访问链接,欢迎各位试用!
Qwen Chat:
API 离线:
API 实时:
Talker更像一个“AI配音演员”,它会根据Thinker给出的内容,把文本变成自然的语音。
这里有几个关键升级:第一,语音生成更轻量、更高效。这一代没有再用计算量很大的生成方式,而是换成了一种类似“语音压缩编码”的方法(RVQ)。
可以理解为不再是现场“逐帧渲染声音”,而是用更高效的“拼装声音单元”的方式生成语音。好处就是更快、更省算力。
第二,解决“AI说话不稳定”的老问题。
以前模型在说话时,经常出现漏读、读错、数字发音奇怪等问题,原因在于文本和语音的编码节奏不一样,可以理解为一个说得快,一个说得慢。
Qwen3.5-Omni引入了一个机制——ARIA(自适应速率交错对齐技术),本质就是动态对齐文本和语音的节奏,再交错组合输出。
可以做到说话更稳、更清晰,基本不会“嘴瓢”。
第三,真正做到“实时对话”。
Qwen3.5-Omni通过一套“边输入、边处理、边生成”的流式设计:你还没说完,模型已经在理解;它还没想完,就已经开始说。
这样就可以做到像真人一样实时对话,而不是“说一句等三秒”。
这也是为啥有时跟Qwen3.5-Omni对话,会感觉它在抢话,或者你刚说几个字,它就迫不及待接话了。

目前,新模型在Qwen Chat上就可以体验,你也可以通过阿里云百炼搜索Qwen3.5-Omni调用API。注意如果想体验视频通话,需要在手机网页端的Qwen Chat上使用~
地址已经附在下方,uu们快去试试吧~
Qwen Chat:
https://chat.qwen.ai/
API 离线:
https://help.aliyun.com/zh/model-studio/qwen-omni
API 实时:
https://help.aliyun.com/zh/mode

听雨