Qwen3.6-27B实战评测：四分钟打造跑酷游戏，验证码破解精度逾九成

作者：世界网2026年4月24日科技37 阅读

智东西
编译杨京丽
编辑陈骏达

近日，阿里通义千问团队发布了Qwen3.6-27B的开源版本——这是一个具有270亿参数的大规模稠密多模态模型，并支持思考与非思考模式。

相较于先前推出的Qwen3.5-397B-A17B，新的Qwen3.6-27B虽然在参数量上仅为前者的十分之一，却在编程性能等多个关键指标上实现了超越。其不仅显著提升了编程能力，在文本和多模态推理方面也表现出色。

与同级别的Gemma 4-31B模型相比，Qwen3.6-27B在诸多重要领域展现出了更强的优势。

目前，阿里已宣布完成整个Qwen3.6系列的开发和发布工作，其中包括开源版本Qwen3.6-35B-A3B及闭源版本Qwen3.6-Plus、Qwen3.6-Max-Preview等产品线。

阿里云百炼平台已开放了Qwen3.6-27B的定价信息：每百万Token输入费用为3元，输出则需支付18元。鉴于该模型属于密集型设计，其成本相对较高。

Qwen3.6-27B现已部署在Qwen Studio，并以开源形式发布于Hugging Face和ModelScope两大平台。此外，阿里云百炼API也将很快上线，届时将支持preserve_thinking功能来配合智能体任务的执行需求。此模型还能接入OpenClaw、Claude Code等主流第三方编程工具。

用户可以通过链接体验Qwen3.6-27B的功能：https://chat.qwen.ai/

开源版本可以在这里获取：https://huggingface.co/Qwen/Qwen3.6-27B https://modelscope.cn/models/Qwen/Qwen3.6-27B

一、编程表现力：界面设计精美且功能全面，能够高效满足复杂需求。

在编程基准测试中，Qwen3.6-27B显著超越了其前辈。例如在SWE-bench Verified（77.2 vs. 76.2）、SWE-bench Pro（53.5 vs. 50.9）、Terminal-Bench 2.0（59.3 vs. 52.5）以及SkillsBench（48.2 vs. 30.0）等测试中，Qwen3.6-27B均展示出了更强的实力。

智东西通过一系列实际应用来验证了该模型的编程能力。

第一个任务是设计一款跑酷游戏，以检验其在编程和前端开发上的综合表现。测试中要求实现角色跳跃、关卡要素与道具系统等复杂功能。

在大约四分钟内，Qwen完成了约1200行代码的编写工作。从实际效果来看，这款游戏不仅涵盖了所有的核心设计元素，如玩家的跳跃动作和障碍物设置，还包含了多种互动机制及详细的UI展示。

尽管整体表现不错，但还有一些细节问题尚待优化，比如某些元素的位置不太合理、能量条未显示等问题仍需进一步改进。

接下来的任务是开发一个个人财务管理系统应用。这不仅考察了模型的应用开发能力，还考验其对复杂逻辑的理解和处理能力。

在这一任务中，Qwen3.6-27B展现了稳健的性能，成功实现了记录管理、月度筛选以及收入与支出统计等功能，并且能够正确持久化数据存储。

唯一的小问题是，在页面刷新后某些图表可能暂时无法显示完整信息。不过整体来看，该应用的功能设计合理，用户界面简洁明了，符合实际使用需求。

还有一个任务是制作一个新闻网站的前端设计方案。

Qwen3.6-27B独立完成了整个项目规划，包括科技、财经等五个主要版块的设计，并且考虑到了天气预报和广告位等功能性元素。设计条理清晰，内容丰富，视觉效果出色。

二、多模态处理能力：准确识别验证码及“找不同”任务

Qwen3.6-27B作为一款原生的多模态模型，能够同时应对图像与文本的理解和处理需求，在视觉推理和文档理解等方面有着卓越的表现。

针对这一功能，我们让Qwen尝试识别一些验证码图片。

测试结果表明，它成功地辨认出了绝大多数验证码中的字符，并且对于部分不确定的字符也给出了明确的位置标记。这种带有置信度反馈的方式有助于自动化流程中后续步骤的准确执行。

在详细解析过程中可以看到，在处理特定复杂图案时（如第八个验证码），模型经历了多次尝试和确认，但最终未能正确识别出“s”这一字母。

综上所述，Qwen3.6-27B在图像识别及推理方面的表现令人满意，但在某些特殊情况下可能需要进一步的人工校验以确保准确性。

另一个有趣的测试是让其进行视觉差异查找任务。

Qwen能够准确指出两张图片之间的五处不同点，涵盖了从明显到细微的多种区别，显示出强大的图像分析能力。

在整个思考过程中，模型的操作流程简洁明了且描述清晰，证明了它拥有较强的视觉识别与逻辑推理技能。

总结：阿里开源策略更加明确，小型模型专为开发者需求定制

Qwen3.6系列的推出标志着阿里巴巴在开源领域的战略调整。此前，公司曾开放过多种不同规模的AI模型供公众使用，但此次仅针对特定需求的小型模型进行了开源发布。

这些小尺寸模型非常适合个人开发者、科研人员以及小型团队进行本地部署或进一步研究开发工作。

对于广大社区来说，此类模型无疑更为实用；从实际应用场景来看，它们能够更好地满足用户对于灵活性和控制性的具体要求。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

Qwen3.6-27B实战评测：四分钟打造跑酷游戏，验证码破解精度逾九成

作者：世界网2026年4月24日科技37 阅读

智东西
编译杨京丽
编辑陈骏达

近日，阿里通义千问团队发布了Qwen3.6-27B的开源版本——这是一个具有270亿参数的大规模稠密多模态模型，并支持思考与非思考模式。

与同级别的Gemma 4-31B模型相比，Qwen3.6-27B在诸多重要领域展现出了更强的优势。

目前，阿里已宣布完成整个Qwen3.6系列的开发和发布工作，其中包括开源版本Qwen3.6-35B-A3B及闭源版本Qwen3.6-Plus、Qwen3.6-Max-Preview等产品线。

阿里云百炼平台已开放了Qwen3.6-27B的定价信息：每百万Token输入费用为3元，输出则需支付18元。鉴于该模型属于密集型设计，其成本相对较高。

用户可以通过链接体验Qwen3.6-27B的功能：https://chat.qwen.ai/

开源版本可以在这里获取：https://huggingface.co/Qwen/Qwen3.6-27B https://modelscope.cn/models/Qwen/Qwen3.6-27B

一、编程表现力：界面设计精美且功能全面，能够高效满足复杂需求。

智东西通过一系列实际应用来验证了该模型的编程能力。

第一个任务是设计一款跑酷游戏，以检验其在编程和前端开发上的综合表现。测试中要求实现角色跳跃、关卡要素与道具系统等复杂功能。

尽管整体表现不错，但还有一些细节问题尚待优化，比如某些元素的位置不太合理、能量条未显示等问题仍需进一步改进。

接下来的任务是开发一个个人财务管理系统应用。这不仅考察了模型的应用开发能力，还考验其对复杂逻辑的理解和处理能力。

在这一任务中，Qwen3.6-27B展现了稳健的性能，成功实现了记录管理、月度筛选以及收入与支出统计等功能，并且能够正确持久化数据存储。

还有一个任务是制作一个新闻网站的前端设计方案。

二、多模态处理能力：准确识别验证码及“找不同”任务

Qwen3.6-27B作为一款原生的多模态模型，能够同时应对图像与文本的理解和处理需求，在视觉推理和文档理解等方面有着卓越的表现。

针对这一功能，我们让Qwen尝试识别一些验证码图片。

在详细解析过程中可以看到，在处理特定复杂图案时（如第八个验证码），模型经历了多次尝试和确认，但最终未能正确识别出“s”这一字母。

综上所述，Qwen3.6-27B在图像识别及推理方面的表现令人满意，但在某些特殊情况下可能需要进一步的人工校验以确保准确性。

另一个有趣的测试是让其进行视觉差异查找任务。

Qwen能够准确指出两张图片之间的五处不同点，涵盖了从明显到细微的多种区别，显示出强大的图像分析能力。

在整个思考过程中，模型的操作流程简洁明了且描述清晰，证明了它拥有较强的视觉识别与逻辑推理技能。

总结：阿里开源策略更加明确，小型模型专为开发者需求定制

这些小尺寸模型非常适合个人开发者、科研人员以及小型团队进行本地部署或进一步研究开发工作。

对于广大社区来说，此类模型无疑更为实用；从实际应用场景来看，它们能够更好地满足用户对于灵活性和控制性的具体要求。

“”

Qwen3.6-27B实战评测：四分钟打造跑酷游戏，验证码破解精度逾九成

Qwen3.6-27B实战评测：四分钟打造跑酷游戏，验证码破解精度逾九成

相关文章

相关文章