近日,阿里推出了其最新的大语言模型Qwen3.6-Plus,作为Qwen系列的首个升级版本。
与前一版相比,该新模型特别加强了编程、智能体和工具调用等领域的技能,并且支持多达一百万个上下文窗口。
目前市面上主流的Agent框架及各类编程工具都已适配此最新版本。官方提及的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline以及OpenCode。
在大模型调用平台OpenRouter上,免费体验版的Qwen3.6-Plus在日榜中排名第二。值得注意的是,在前五名的模型中有四个是中国自主研发的。

通过SWE-bench Verified、Terminal-Bench 2及NL2Repo等编程基准测试显示,Qwen3.6-Plus的表现超越了GLM-5和Kimi K2.5,但相较于Claude Opus 4.5仍有差距。
在Claw-Eval与QwenClawBench的真实世界Agent能力评估中,这款新模型同样领先于许多国产模型,并且其性能接近Claude Opus 4.5的水平。

▲基准测试对比(图源:阿里)
需要注意的是,在SWE-bench Verified、MMMU、RealWorldQA和QwenClawBench等测试中,各比较模型的实际得分差异并不显著。
智东西团队已体验了该新版本的编程能力,并在Claude官方前端设计Skill指导下成功开发了一个AI眼镜独立站。整个过程大约耗时8分钟,花费2.5万个token(约等于0.15元)。
在提示词的要求下,生成的网页完成度较高,避免了一些过时的设计元素,不过字体的选择仍然较为常见。

实测结果:
https://mcp.edgeone.site/share/57IuyACJqUk1GjKHY9I4c
此次更新后,Qwen3.6-Plus依旧是一个原生多模态模型,并且在多模态推理和指令模式实用性方面进行了优化。它还解锁了视觉智能体编程能力,能够依据界面截图、设计稿或自然图文描述进行前端页面生成、代码补全及交互修改等任务。
在官方Demo中,Qwen3.6-Plus被要求规划从北京大兴机场到首都机场的最快路线,其方案与高德地图上显示的结果一致。

目前,用户可以在Qwen Chat中体验这一新模型,并通过API调用访问。该API原价为每百万输入tokens 4元和输出tokens 12元,目前有5折优惠活动。
近日,阿里巴巴的企业级AI应用“悟空”已迅速接入了新的大语言模型Qwen3.6-Plus。

值得一提的是,阿里在企业级市场的AI应用“悟空”第一时间接入了Qwen3.6-Plus。

Qwen Chat:
https://chat.qwen.ai/
阿里云百炼:
Qwen3.6-Plus具备完成长链路任务和多轮工具调用的能力,并在自然语言理解和编程智能体方面有所提升,不过其token使用效率仍有改进空间。
在复杂文档理解、物理世界视觉理解和视频推理等多模态能力上,Qwen3.6-Plus的表现也得到了显著的增强。
通过多项基准测试,该模型在编程智能体维度上的得分高于GLM-5和Kimi-K2.5,但在通用智能体方面略低于Claude Opus 4.5。
在实际操作中,Qwen3.6-Plus成功执行了统计A股股价最高的前十大公司并生成完整统计网页的任务。整个过程中调用了搜索工具七轮次,并从数十个网站收集数据,最终在大约7分钟内完成任务交付。

▲Qwen3.6-Plus制作的排名
此模型选择了权威的数据源,右侧详情链接正常跳转,数据准确无误。然而,在思维链中可以看出它多次反复思考同一个问题,并进行了多次搜索但没有获得太多新的信息。

▲左侧显示了Qwen3.6-Plus的思维链条
当被要求创建一款《潜水员戴夫》风格的游戏时,该模型拒绝直接生成可执行文件。相反,它为游戏开发提供了美术设计图、蓝图以及一份基础代码框架作为起点。

在进一步尝试通过API调用完成这一任务后,Qwen3.6-Plus提出了一项新的设计方案——一款白天深入动态雾林采集食材与古物,晚上经营一家“烹饪记忆”的森林酒馆的游戏概念,并交付了一个最小可行产品版本(MVP)。
https://mcp.edgeone.site/share/hkGsoqs3OCUQyXtxsYCal

再次要求后,Qwen3.6-Plus开始了开发,但是在写到200多行代码时出现了问题,于是停止了开发。

在考察视觉推理能力时,我们增加了地铁路径规划任务中的难度。即使假设某一线路因极端天气而停运,模型依然能够应对并给出合理的替代路线。
然而在某些情况下,如判断牡丹园站与昌平线之间的换乘时间表时,Qwen3.6-Plus的结论存在一定的错误。

试玩链接:
此外,官方还展示了其他多模态能力的表现。例如,该模型可以分析视频并生成图文结合的学习资料。
二、实测高难度路径规划,被北京地铁转晕
总体来看,随着Qwen3.6-Plus的发布,千问团队将更多精力放在了此版本的整体推出上,并计划在未来开源更小规模的模型版本以及推出性能更强的旗舰版Qwen3.6-Max。同时表明阿里巴巴正在全面押注原生多模态技术的发展。

自从Qwen3.5发布以来,千问团队已经将主力模型转向了原生多模态,并期待未来能够将其演变为一个能够在真实环境中持续感知、推理和行动的智能体。

Qwen3.6-Plus通过较长时间的思考后,得出了两个结论,第一个结论其实是正确的,但是它判断这条路线有点复杂,于是认为可以在“牡丹园站换乘昌平线”,这样更直接。Qwen3.6-Plus的最终结论有个bug,昌平线可能至少要等到2029年才能和19号线在牡丹园换乘。

在其他多模态能力方面,阿里官方还展示了多个demo。比如,Qwen3.6-Plus可以对视频进行分析,并生成图文并茂的讲义。

或是根据界面截图、产品原型、设计稿或自然图文描述,完成前端页面生成、代码补全、交互修改等任务。

结语:阿里全面押注原生多模态
随着Qwen3.6-Plus的发布,千问团队称,他们近期的工作重心将全面转向Qwen3.6系列的整体发布。在未来不久,千问还将开源更小规模的模型版本。同时,性能更强的旗舰模型Qwen3.6-Max也将很快亮相。
值得注意的是,自Qwen3.5发布后,千问已经全面将其主力模型Qwen转向了原生多模态。该团队称,他们希望模型逐步演进为一个能够在真实环境中持续感知、推理和行动的原生多模态智能体。

