智东西编辑团队发布了一篇关于腾讯新一代混合专家架构的大规模语言模型Hy3 preview的文章。
该文章详细介绍了姚顺雨领导的混元团队首次对外展示的新一代大模型。
Hy3 preview是迄今最智能的模型,采用了快慢思考融合的设计理念,并具备支持最长256K上下文的能力。它拥有总计295B的参数量和激活参数数量为21B。

从测评结果来看,Hy3 preview在复杂推理、指令遵循、代码生成与智能体能力等方面均有所提升。该模型在FrontierScience-Olympiad中得分70.0分,在IMO Answer Bench上则达到了84.3分,超过了GLM-5和Kimi-K2.5,接近于Gemini 3.1 Pro和GPT-5.4。
在清华求真书院的数学博士资格考试中,Hy3 preview取得了88.4分的成绩,这是国内最高纪录。在代码生成方面,模型在SWE-Bench Verified上达到了74.4%,与GLM-5和Kimi-K2.5相当接近。
在终端基准测试(Terminal-Bench 2.0)、浏览器竞赛(BrowseComp)以及广泛搜索能力(WideSearch)等场景中,Hy3 preview的表现也较为出色。尽管如此,在复杂交互任务的执行上,它仍然与Claude Opus-4.6这样的顶级闭源模型存在差距。
Hy3 preview在ClawEval、WildClawBench等代理评测中的综合执行能力明显提高。其平均得分约为56分,远超前一代Hy2(约35分),并且进入了当前主流代理模型的竞争区。
目前,Hy3 preview已在腾讯云的多条核心产品线上接入使用,并且支持流行的开源智能体产品,如OpenClaw、OpenCode和KiloCode等。此外,该模型还入驻了腾讯云大模型服务平台TokenHub。

在推理效率方面,首token延迟降低了54%,端到端时间缩短了47%,整体推理效率提升了40%;同时API价格下调至输入最低1.2元/百万tokens、输出最低4元/百万tokens,并提供每月最低28元的Token套餐。
最近国内外大型模型领域动作频频,相继发布了多款新版本和开源旗舰产品。
Anthropic上周五推出了Claude Opus 4.7;阿里在4月20日发布了Qwen3.6-Max-Preview;Kimi于4月21日正式发布并开放源代码的旗舰模型K2.6;小米则在4月23日宣布了其MiMo大模型家族中的四款新模型,包括旗舰推理模型MiMo-V2.5。
预计本周内还将推出备受期待的DeepSeek V4开源版本。这一系列旗舰级大型语言模型的相继发布,表明行业格局可能即将迎来重大变革。
在这种激烈的竞争环境下,定位为“全面实用性”的Hy3 preview在实际应用中的表现如何?我们进行了细致的测试以获取更准确的信息。
Hy3 preview已经可以在GitHub上找到(https://github.com/Tencent-Hunyuan/Hy3-preview)。
首先,为了全面了解其能力,我们在逻辑推理、前端代码生成和多模态表现等多个维度进行了测试。
例如,在处理复杂SVG图形与互动HTML时,Hy3 preview展示了出色的代码与逻辑处理能力。在执行一些复杂的任务时,如绘制一个Xbox 360控制器的SVG图像或创建带有交互功能的精灵球等,其表现令人满意。
然而,尽管Hy3 preview在静态结构理解和基本意图理解方面表现出色,但在涉及复杂空间和动态变化的任务上还有提升的空间。例如,在绘制Xbox 360控制器时虽然得分较高,但在创建带有交互功能的精灵球时表现则稍微逊色。
尽管如此,Hy3 preview在处理长文本和复杂代理任务的成本仍然可控。模型架构与推理框架间的深度协同以及算子优化策略的整体调整使得其整体推理效率提升了约40%。

总体而言,Hy3 preview代表了腾讯混元团队在全面重建后的第一步,它更注重实用性和场景适应性而非单纯追求参数规模的扩大。从实际落地效果来看,该模型已经在元宝、WorkBuddy等多个业务线中得到了广泛应用,并通过反馈推动进一步改进。

由此可见,Hy3 preview可能是腾讯在这轮大模型竞争中的一个转折点,标志着其在AI下半场的竞争中找到了新的节奏和方向。
在代码生成维度,我们首先选择了一个高难度的SVG绘制任务。
提示词:生成一个Xbox 360控制器的SVG代码。

Xbox 360控制器不仅具有复杂的人体工学非对称曲线,还包含了丰富的摇杆与按键布局。这能极具针对性地考验大模型在没有视觉反馈的情况下,对二维空间坐标、图层叠加关系及几何数学计算的精准控制能力。
从实测结果来看,Hy3 preview在首次生成时遭遇了失败,虽然系统很快进行了重新生成,但最终的视觉效果并不理想。摇杆、按键等核心组件出现了明显的坐标错位。
接下来,我们进一步测试了其生成带有交互逻辑的复杂HTML代码的能力。
提示词:用一个HTML代码块编写一个3D精灵球,它应该是可交互的,并且在打开时会有随机的宝可梦从里面出来。

实测发现,Hy3 preview输出的精灵球并没有达到预期的3D视觉效果,整体呈现依然比较粗糙。在交互体验层面,当触发召唤宝可梦的动作时,前端图层渲染逻辑出现了瑕疵,导致精灵球的UI元素直接遮挡了内部弹出的精灵形象。
最后一个体验案例是创建一个像素风格的前端页面。
提示词:创建一个骑自行车的鹈鹕的3D像素艺术作品。尽可能将场景刻画得非常细致,注意主体模型上的每一个小细节,同时也要考虑周围环境的细节。在一个HTML代码块中完成制作,将代码写得足够优秀,以展示你的水平超越其他作品。我赋予你完全的创作自由,尽情发挥。

在这一案例中,Hy3 preview在静态结构的理解上表现尚可,鹈鹕的身体结构与自行车形态也相对完整。但遗憾的是,代码生成的画面中鹈鹕并没有如预期般呈现出动态骑行效果,且在细节刻画上缺失了自行车链条这一部件。
总体而言,Hy3 preview在代码框架构建和基本意图理解上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时,仍需持续进化与打磨。
除了图形与交互测试,我们还验证了Hy3 preview在财务分析上的表现。我将腾讯2023、2024、2025年的财报输入模型,让它生成财报分析报告。
模型能够准确提取核心财务数据,并呈现三年的同比变化趋势。同时,按年报披露的业务分部,生成收入结构对比图和业务板块占比变化图,整体分析报告清晰可读,数据整合能力令人印象深刻。

总体而言,Hy3 preview在代码框架构建、基本意图理解及数据分析上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时,仍需持续进化与打磨。
二、多项核心基准跻身第一梯队,Agent能力逼近主流旗舰模型
从测评表现来看,Hy3 preview在多个关键能力维度上进入第一梯队。
以长上下文与指令遵循为例,在自建的CL-bench与CL-bench Life评测中,其得分分别达到22.8和15.7,明显高于GLM-5、Kimi-K2.5等同类模型,但与GPT-5.4级别模型相比仍存在差距,整体处于开源阵营前列位置。

在复杂推理能力上,Hy3 preview在FrontierScience-Olympiad中取得70.0分,高于GLM-5和Kimi-K2.5,接近Gemini 3.1 Pro与GPT-5.4。
在IMO Answer Bench上达到84.3分,超过Kimi-K2.5和GLM-5,但仍低于Gemini 3.1 Pro与GPT-5.4。
在清华求真书院数学博士资格考试中,其得分为88.4,显著高于Kimi-K2.5和GLM-5,但与顶级闭源模型仍有差距;在CHSBO 2025生物竞赛中,其87.8的表现同样领先多数开源模型,接近GPT-5.4的水平。

代码与Agent能力是其提升最明显的方向。
在后端工程任务集Hy-Backend上,Hy3 preview得分达到54.7,超过GLM-5和Kimi-K2.5;在更贴近用户交互的Hy-Vibe评测中,其表现同样领先Kimi-K2.5;在高难度软件工程任务Hy-SWE Max上,Hy3 preview达到30,明显高于Kimi-K2.5、接近GLM-5,但与Claude Opus-4.6仍存在差距。

这类内部评测更强调“真实开发环境中的完成能力”,相比标准化榜单,更能反映模型在复杂工程任务中的实际可用性。
在SWE-Bench Verified上,Hy3 preview达到74.4%,已经逼近GLM-5和Kimi-K2.5,但与Claude Opus-4.6仍有差距;在Terminal-Bench 2.0上,其54.4%的成绩超过GLM-4.7等模型,进入第一梯队。
在搜索与信息整合能力上,Hy3 preview在BrowseComp上达到67.1%,接近GLM-5与Kimi-K2.5;在WideSearch上取得70.2%,超过GLM-5,但仍低于Claude Opus-4.6。

这类能力直接决定模型在开放环境中的“找信息+做判断”能力,是Agent落地的关键基础。
进一步看整体Agent能力,在涵盖16项基准的综合评测中,Hy3 preview以约56分的综合得分,显著高于Hy2(约35分),并与GLM-4.7、DeepSeek-V3.2等模型拉开差距,接近GLM-5与Kimi-K2.5所在区间。

在更细分的Agent专项评测中,Hy3 preview也呈现出类似趋势。在WildClawBench(text-only)中,其得分为45.3,高于Kimi-K2.5、接近GLM-5;在ClawEval评测中达到55.0,超过Kimi-K2.5、接近GLM-5,但与Claude Opus-4.6同样存在差距。

这类评测更关注模型在多步调用、工具协同与任务拆解中的稳定性,直接对应Agent在真实环境中的执行能力。
在参数规模仅295B的前提下,这一表现也能看出其追求“性价比最优”,成为当前少数在成本与能力之间取得平衡的模型之一。
三、推理效率提升40%,输入1.2元/百万tokens起,256K长上下文成本压低
在能力之外,Hy3 preview此次更直接的变化体现在推理效率与成本结构上。
得益于模型架构与推理框架的深度协同,以及算子优化与量化策略的整体调整,其整体推理效率提升约40%,将单位调用成本进一步压缩。
从实际定价来看,在0-16K上下文范围内,Hy3 preview输入价格最低为1.2元/百万tokens,命中缓存后可降至0.4元,输出价格为4元。
在更长上下文(最高256K)场景下,Hy3 preview输入价格逐步提升至2元/百万tokens,输出价格为8元。

这意味着,在长文本、复杂Agent任务中,其成本仍处于可控范围。
除了按量计费,腾讯云还推出了面向开发者的Token套餐方案,将成本进一步前置与打包。以个人版为例,Lite套餐月费28元,对应约3500万tokens额度,折合单价约0.8元/百万tokens;Standard、Pro、Max套餐则分别提供100M、320M、650M tokens,对应单价逐步下降至0.72元/百万tokens。

这一梯度设计,对更高频、更长链路的调用场景更加友好,适用于需要持续运行的Agent应用。
结语:混元重建后的第一步,把重心放回真实场景
从某种意义上看,Hy3 preview是腾讯混元在团队、架构与基础设施全面重建之后的一个起点版本。它没有继续沿着“更大参数”的路径走下去,而是选择以295B的规模,注重打磨推理、代码、Agent等能力。
这一方向也对应姚顺雨提出的“AI下半场”判断——模型的价值,不在榜单,而在复杂场景中的可用性。从目前的落地情况来看,无论是元宝、WorkBuddy,还是QQ助手与AI客服,这一版本已经开始在腾讯内部多条业务线上持续“跑起来”,并通过实际反馈反向推动模型迭代。
放在更大的时间线上看,Hy3 preview或许是腾讯在这一轮大模型竞争中重新找到节奏的信号。
