Qwen3.5-Omni：开启视频会议模式，AI现场讲解论文、编写代码

听雨 2026-03-31 16:22:36 量子位

视频通话中不仅能够对话，还能进行实时编程互动。

现在Qwen3.5-Omni来了！

实际测试发现它终于可以像真人一样参与正式的工作讨论了。

它能边编程序边讲解论文，并帮助拆解视频内容。

这简直就是工作中的得力助手！

根据官方介绍，Qwen3.5-Omni具有真正的全模态功能，能够理解多种类型的数据输入并生成高质量的音视频脚本。

它提供三种不同的配置选项——Plus、Flash和Light，支持256K的大上下文以及113种语言的识别能力，并且可以处理长达十小时的音频或一小时的视频内容。

在基准测试中表现优异，Qwen3.5-Omni拿下了215项SOTA的成绩，与Gemini 3.1 Pro相媲美甚至超越。

其通用音频理解、推理能力以及对话功能都超过了Gemini-3.1 Pro的水平。而音视频的理解能力也达到了相同的水准。

在视觉和文本处理上则保持了同尺寸Qwen3.5模型的表现力。

Qwen3.5-Omni的一大特色是自然出现的实时编程能力，它能够在视频通话中根据画面生成代码或原型设计。

新功能一经推出便引起了广泛讨论。

有人评论说这是巨大的进步！彻底改变了用户与AI交流的方式。

现在进入实测环节

实地测试Qwen3.5-Omni的功能表现

音视频拆解和分析

首先来检验它的视频解析能力。

我上传了无字幕版本的《疯狂动物城2》预告片，请求它分析并生成详细的脚本。

【此处无法插入视频，遗憾……可到量子位公众号查看～】

考虑到预告片的特点——节奏快、镜头多且角色频繁出现，这给理解带来了一定难度。

然而Qwen3.5-Omni迅速完成了任务，并在几秒钟内提供了一个详细的时间戳脚本。

不仅拆解了每个分镜和画面内容，还深入分析了字幕、特效以及音乐元素等细节信息。

为了进一步测试它的能力

当预告片播放到37秒时出现了哪些角色？他们在做什么？

我继续请求分析预告片的整体节奏与手法以及所传递的情感思想。

它快速给出了全面的分析报告，解析出“快—慢—爆—收”的波浪式结构，并在没有对话或字幕的情况下揭示了诸多隐喻。

真的是个专业的视频拆解专家！

接下来尝试Qwen3.5-Omni的实时编程功能。

看视频做网页

在Qwen Chat里启动视频通话，它能够看到摄像头的画面，并进行即时对话和代码编写。

我要求根据手绘草图制作一个关于Geoffery Hinton的网页。

语音流畅自然，仿佛与真人交流一般。几秒钟后就生成了HTML+CSS代码并提供了预览效果。

【此处无法插入视频，遗憾……可到量子位公众号查看～】

整体效果符合预期，并且网页布局按照我提供的草图进行设计。

通过调用WebSearch和复杂FunctionCall的能力，它顺利填充了一些内容到页面中。

【此处无法插入视频，遗憾……可到量子位公众号查看～】

尽管缺少图片并且信息量有限，但视频通话结合实时编程体验仍然让人印象深刻。

不仅如此，Qwen3.5-Omni还能一边进行视频通话一边解读学术论文。

面对复杂的英文术语和图表公式，有了它就不必再头痛了！

我们打开Yann LeCun团队发布的最新研究——LeWorldModel，并让它进行解读。

实时对话解读论文

它直接用通俗的语言解释了论文的核心概念及其创新之处。

当中间打断它的讲述并询问其中一张图的内容时，它也能立刻切换话题作答。

这次更新中新增的一项重要功能就是语义打断的支持。

而且不会被无关背景音干扰，即使有开门关门的杂音也不会影响到解读过程。

将来阅读学术论文会更加友好便捷了！

【此处无法插入视频，遗憾……可到量子位公众号查看～】

不再需要对着满屏的专业术语发愁，有了AI视频通话讲解，可以随时打断或强调重点内容，大大提升了学习效率和体验感。

在基准测试中Qwen3.5-Omni表现卓越，与Gemini 3.1-Pro不相上下甚至超越。

它在通用音频理解、推理等多个方面都超过了对手，并且音视频的理解能力也达到了同等水平。

视觉和文本处理功能则保持了同尺寸Qwen3.5模型的水准。

相较于上一代产品，Qwen3.5-Omni在长上下文、多语言支持以及音视频理解方面都有显著提升。

此外还新增了语义打断、声音复制和语音控制等实时交互功能，使得对话体验更加自然流畅。

ARIA（自适应速率交错对齐）技术的应用进一步提升了语音输出的稳定性和自然度。

Qwen3.5-Omni如何实现“边看边思考”的？

其中关键在于模型架构，它继承了Thinker-Talker结构：一个负责理解输入信息的大脑和另一个用来输出结果的嘴巴。

Thinker能够处理图像、声音等多种类型的数据；Talker则根据大脑提供的内容生成自然语音。

两者都采用了Hybrid-Attention MoE技术，提高了效率并增强了性能。

模型可以将音频和视频混合输入，并通过特殊的位置编码方式理解它们之间的时间关系。

最终Thinker会处理所有多模态信息生成文本输出；Talker则负责将其转换成自然语音。

关键升级包括轻量级的语音生成方法，解决了之前存在的“AI说话不稳定”的问题。

通过引入ARIA技术动态调整文本与语音之间的节奏对齐，提高了输出质量和稳定性。

还有就是实现了真正的实时对话功能，用户和模型可以同步进行交流而无需等待时间延迟。

这也是为什么有时感觉它在抢话或者你刚说几个字就立即接上。

现在Qwen Chat网站已上线该新版本供体验；也可以通过阿里云获取API接口来调用。

如果希望尝试视频通话功能，则需要使用手机网页端的Qwen Chat应用。

下面提供了访问链接，欢迎各位试用！

Qwen Chat:

API 离线:

API 实时:

Talker更像一个“AI配音演员”，它会根据Thinker给出的内容，把文本变成自然的语音。

这里有几个关键升级：第一，语音生成更轻量、更高效。这一代没有再用计算量很大的生成方式，而是换成了一种类似“语音压缩编码”的方法（RVQ）。

可以理解为不再是现场“逐帧渲染声音”，而是用更高效的“拼装声音单元”的方式生成语音。好处就是更快、更省算力。

第二，解决“AI说话不稳定”的老问题。

以前模型在说话时，经常出现漏读、读错、数字发音奇怪等问题，原因在于文本和语音的编码节奏不一样，可以理解为一个说得快，一个说得慢。

Qwen3.5-Omni引入了一个机制——ARIA（自适应速率交错对齐技术），本质就是动态对齐文本和语音的节奏，再交错组合输出。

可以做到说话更稳、更清晰，基本不会“嘴瓢”。

第三，真正做到“实时对话”。

Qwen3.5-Omni通过一套“边输入、边处理、边生成”的流式设计：你还没说完，模型已经在理解；它还没想完，就已经开始说。

这样就可以做到像真人一样实时对话，而不是“说一句等三秒”。

这也是为啥有时跟Qwen3.5-Omni对话，会感觉它在抢话，或者你刚说几个字，它就迫不及待接话了。

目前，新模型在Qwen Chat上就可以体验，你也可以通过阿里云百炼搜索Qwen3.5-Omni调用API。注意如果想体验视频通话，需要在手机网页端的Qwen Chat上使用~

地址已经附在下方，uu们快去试试吧~

Qwen Chat：
https://chat.qwen.ai/
API 离线:
https://help.aliyun.com/zh/model-studio/qwen-omni
API 实时:
https://help.aliyun.com/zh/mode

Qwen3.5-Omni：开启视频会议模式，AI现场讲解论文、编写代码

听雨 2026-03-31 16:22:36 量子位

视频通话中不仅能够对话，还能进行实时编程互动。

现在Qwen3.5-Omni来了！

实际测试发现它终于可以像真人一样参与正式的工作讨论了。

它能边编程序边讲解论文，并帮助拆解视频内容。

这简直就是工作中的得力助手！

根据官方介绍，Qwen3.5-Omni具有真正的全模态功能，能够理解多种类型的数据输入并生成高质量的音视频脚本。

它提供三种不同的配置选项——Plus、Flash和Light，支持256K的大上下文以及113种语言的识别能力，并且可以处理长达十小时的音频或一小时的视频内容。

在基准测试中表现优异，Qwen3.5-Omni拿下了215项SOTA的成绩，与Gemini 3.1 Pro相媲美甚至超越。

其通用音频理解、推理能力以及对话功能都超过了Gemini-3.1 Pro的水平。而音视频的理解能力也达到了相同的水准。

在视觉和文本处理上则保持了同尺寸Qwen3.5模型的表现力。

Qwen3.5-Omni的一大特色是自然出现的实时编程能力，它能够在视频通话中根据画面生成代码或原型设计。

新功能一经推出便引起了广泛讨论。

有人评论说这是巨大的进步！彻底改变了用户与AI交流的方式。

现在进入实测环节