Qwen 3.6-Plus实战评测：8分钟搭建官网，却在京都地铁中迷路

作者：世界网2026年4月3日科技8 阅读

近日，阿里推出了其最新的大语言模型Qwen3.6-Plus，作为Qwen系列的首个升级版本。

与前一版相比，该新模型特别加强了编程、智能体和工具调用等领域的技能，并且支持多达一百万个上下文窗口。

目前市面上主流的Agent框架及各类编程工具都已适配此最新版本。官方提及的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline以及OpenCode。

在大模型调用平台OpenRouter上，免费体验版的Qwen3.6-Plus在日榜中排名第二。值得注意的是，在前五名的模型中有四个是中国自主研发的。

通过SWE-bench Verified、Terminal-Bench 2及NL2Repo等编程基准测试显示，Qwen3.6-Plus的表现超越了GLM-5和Kimi K2.5，但相较于Claude Opus 4.5仍有差距。

在Claw-Eval与QwenClawBench的真实世界Agent能力评估中，这款新模型同样领先于许多国产模型，并且其性能接近Claude Opus 4.5的水平。

▲基准测试对比（图源：阿里）

需要注意的是，在SWE-bench Verified、MMMU、RealWorldQA和QwenClawBench等测试中，各比较模型的实际得分差异并不显著。

智东西团队已体验了该新版本的编程能力，并在Claude官方前端设计Skill指导下成功开发了一个AI眼镜独立站。整个过程大约耗时8分钟，花费2.5万个token（约等于0.15元）。

在提示词的要求下，生成的网页完成度较高，避免了一些过时的设计元素，不过字体的选择仍然较为常见。

实测结果：

https://mcp.edgeone.site/share/57IuyACJqUk1GjKHY9I4c

此次更新后，Qwen3.6-Plus依旧是一个原生多模态模型，并且在多模态推理和指令模式实用性方面进行了优化。它还解锁了视觉智能体编程能力，能够依据界面截图、设计稿或自然图文描述进行前端页面生成、代码补全及交互修改等任务。

在官方Demo中，Qwen3.6-Plus被要求规划从北京大兴机场到首都机场的最快路线，其方案与高德地图上显示的结果一致。

目前，用户可以在Qwen Chat中体验这一新模型，并通过API调用访问。该API原价为每百万输入tokens 4元和输出tokens 12元，目前有5折优惠活动。

近日，阿里巴巴的企业级AI应用“悟空”已迅速接入了新的大语言模型Qwen3.6-Plus。

值得一提的是，阿里在企业级市场的AI应用“悟空”第一时间接入了Qwen3.6-Plus。

Qwen Chat：

https://chat.qwen.ai/

阿里云百炼：

Qwen3.6-Plus具备完成长链路任务和多轮工具调用的能力，并在自然语言理解和编程智能体方面有所提升，不过其token使用效率仍有改进空间。

在复杂文档理解、物理世界视觉理解和视频推理等多模态能力上，Qwen3.6-Plus的表现也得到了显著的增强。

通过多项基准测试，该模型在编程智能体维度上的得分高于GLM-5和Kimi-K2.5，但在通用智能体方面略低于Claude Opus 4.5。

在实际操作中，Qwen3.6-Plus成功执行了统计A股股价最高的前十大公司并生成完整统计网页的任务。整个过程中调用了搜索工具七轮次，并从数十个网站收集数据，最终在大约7分钟内完成任务交付。

▲Qwen3.6-Plus制作的排名

此模型选择了权威的数据源，右侧详情链接正常跳转，数据准确无误。然而，在思维链中可以看出它多次反复思考同一个问题，并进行了多次搜索但没有获得太多新的信息。

▲左侧显示了Qwen3.6-Plus的思维链条

当被要求创建一款《潜水员戴夫》风格的游戏时，该模型拒绝直接生成可执行文件。相反，它为游戏开发提供了美术设计图、蓝图以及一份基础代码框架作为起点。

在进一步尝试通过API调用完成这一任务后，Qwen3.6-Plus提出了一项新的设计方案——一款白天深入动态雾林采集食材与古物，晚上经营一家“烹饪记忆”的森林酒馆的游戏概念，并交付了一个最小可行产品版本（MVP）。

https://mcp.edgeone.site/share/hkGsoqs3OCUQyXtxsYCal

再次要求后，Qwen3.6-Plus开始了开发，但是在写到200多行代码时出现了问题，于是停止了开发。

在考察视觉推理能力时，我们增加了地铁路径规划任务中的难度。即使假设某一线路因极端天气而停运，模型依然能够应对并给出合理的替代路线。

然而在某些情况下，如判断牡丹园站与昌平线之间的换乘时间表时，Qwen3.6-Plus的结论存在一定的错误。

试玩链接：

此外，官方还展示了其他多模态能力的表现。例如，该模型可以分析视频并生成图文结合的学习资料。

二、实测高难度路径规划，被北京地铁转晕

总体来看，随着Qwen3.6-Plus的发布，千问团队将更多精力放在了此版本的整体推出上，并计划在未来开源更小规模的模型版本以及推出性能更强的旗舰版Qwen3.6-Max。同时表明阿里巴巴正在全面押注原生多模态技术的发展。

自从Qwen3.5发布以来，千问团队已经将主力模型转向了原生多模态，并期待未来能够将其演变为一个能够在真实环境中持续感知、推理和行动的智能体。

Qwen3.6-Plus通过较长时间的思考后，得出了两个结论，第一个结论其实是正确的，但是它判断这条路线有点复杂，于是认为可以在“牡丹园站换乘昌平线”，这样更直接。Qwen3.6-Plus的最终结论有个bug，昌平线可能至少要等到2029年才能和19号线在牡丹园换乘。

在其他多模态能力方面，阿里官方还展示了多个demo。比如，Qwen3.6-Plus可以对视频进行分析，并生成图文并茂的讲义。

或是根据界面截图、产品原型、设计稿或自然图文描述，完成前端页面生成、代码补全、交互修改等任务。

结语：阿里全面押注原生多模态

随着Qwen3.6-Plus的发布，千问团队称，他们近期的工作重心将全面转向Qwen3.6系列的整体发布。在未来不久，千问还将开源更小规模的模型版本。同时，性能更强的旗舰模型Qwen3.6-Max也将很快亮相。

值得注意的是，自Qwen3.5发布后，千问已经全面将其主力模型Qwen转向了原生多模态。该团队称，他们希望模型逐步演进为一个能够在真实环境中持续感知、推理和行动的原生多模态智能体。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

Qwen 3.6-Plus实战评测：8分钟搭建官网，却在京都地铁中迷路

作者：世界网2026年4月3日科技8 阅读

近日，阿里推出了其最新的大语言模型Qwen3.6-Plus，作为Qwen系列的首个升级版本。

与前一版相比，该新模型特别加强了编程、智能体和工具调用等领域的技能，并且支持多达一百万个上下文窗口。

目前市面上主流的Agent框架及各类编程工具都已适配此最新版本。官方提及的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline以及OpenCode。

在大模型调用平台OpenRouter上，免费体验版的Qwen3.6-Plus在日榜中排名第二。值得注意的是，在前五名的模型中有四个是中国自主研发的。

通过SWE-bench Verified、Terminal-Bench 2及NL2Repo等编程基准测试显示，Qwen3.6-Plus的表现超越了GLM-5和Kimi K2.5，但相较于Claude Opus 4.5仍有差距。

在Claw-Eval与QwenClawBench的真实世界Agent能力评估中，这款新模型同样领先于许多国产模型，并且其性能接近Claude Opus 4.5的水平。

▲基准测试对比（图源：阿里）

需要注意的是，在SWE-bench Verified、MMMU、RealWorldQA和QwenClawBench等测试中，各比较模型的实际得分差异并不显著。

在提示词的要求下，生成的网页完成度较高，避免了一些过时的设计元素，不过字体的选择仍然较为常见。

实测结果：

https://mcp.edgeone.site/share/57IuyACJqUk1GjKHY9I4c

在官方Demo中，Qwen3.6-Plus被要求规划从北京大兴机场到首都机场的最快路线，其方案与高德地图上显示的结果一致。

目前，用户可以在Qwen Chat中体验这一新模型，并通过API调用访问。该API原价为每百万输入tokens 4元和输出tokens 12元，目前有5折优惠活动。

近日，阿里巴巴的企业级AI应用“悟空”已迅速接入了新的大语言模型Qwen3.6-Plus。

值得一提的是，阿里在企业级市场的AI应用“悟空”第一时间接入了Qwen3.6-Plus。

Qwen Chat：

https://chat.qwen.ai/

阿里云百炼：

Qwen3.6-Plus具备完成长链路任务和多轮工具调用的能力，并在自然语言理解和编程智能体方面有所提升，不过其token使用效率仍有改进空间。

在复杂文档理解、物理世界视觉理解和视频推理等多模态能力上，Qwen3.6-Plus的表现也得到了显著的增强。

通过多项基准测试，该模型在编程智能体维度上的得分高于GLM-5和Kimi-K2.5，但在通用智能体方面略低于Claude Opus 4.5。

▲Qwen3.6-Plus制作的排名

▲左侧显示了Qwen3.6-Plus的思维链条

https://mcp.edgeone.site/share/hkGsoqs3OCUQyXtxsYCal

再次要求后，Qwen3.6-Plus开始了开发，但是在写到200多行代码时出现了问题，于是停止了开发。

在考察视觉推理能力时，我们增加了地铁路径规划任务中的难度。即使假设某一线路因极端天气而停运，模型依然能够应对并给出合理的替代路线。

然而在某些情况下，如判断牡丹园站与昌平线之间的换乘时间表时，Qwen3.6-Plus的结论存在一定的错误。

试玩链接：

此外，官方还展示了其他多模态能力的表现。例如，该模型可以分析视频并生成图文结合的学习资料。

二、实测高难度路径规划，被北京地铁转晕

自从Qwen3.5发布以来，千问团队已经将主力模型转向了原生多模态，并期待未来能够将其演变为一个能够在真实环境中持续感知、推理和行动的智能体。

在其他多模态能力方面，阿里官方还展示了多个demo。比如，Qwen3.6-Plus可以对视频进行分析，并生成图文并茂的讲义。

或是根据界面截图、产品原型、设计稿或自然图文描述，完成前端页面生成、代码补全、交互修改等任务。

结语：阿里全面押注原生多模态

“”

Qwen 3.6-Plus实战评测：8分钟搭建官网，却在京都地铁中迷路

Qwen 3.6-Plus实战评测：8分钟搭建官网，却在京都地铁中迷路

相关文章

相关文章