
今日,腾讯发布了新一代的大规模语言模型混元Hy3 preview,并将其源代码公开,这是该团队自重组以来推出的首个重要产品版本。

Hy3 preview是目前混元系列中最先进的一个版本,采用了混合专家架构来实现快速和深入的思考过程。其参数总量达到2950亿个,激活参数为210亿,并能支持长达256K的内容上下文处理。
从测试结果来看,Hy3 preview在复杂推理、指令执行以及代码生成等方面的性能得到了显著提升。比如,在FrontierScience-Olympiad竞赛中获得了70.0分的高分;在IMO Answer Bench上得分84.3,超过了GLM-5和Kimi-K2.5的成绩。
在编程语言理解和搜索功能方面,该模型同样表现出色,在SWE-Bench Verified测试中的准确率高达74.4%,接近于顶级闭源模型Claude Opus-4.6的水平。
通过ClawEval和WildClawBench等代理程序评估体系,Hy3 preview在执行复杂任务时的能力也得到了显著提高。它在综合评价测试中的平均分数为约56分,明显高于上一代Hy2模型(大约35分)的表现。
目前,Hy3 preview已全面集成到了腾讯云、元宝、ima、CodeBuddy和WorkBuddy等多个核心产品线中,并支持流行的开源代理软件如OpenClaw和OpenCode等的接入。同时,该版本已经上线了腾讯云的大模型服务平台TokenHub。

在效率与成本方面,Hy3 preview实现了首token延迟减少54%,总处理时间缩短47%。此外,API价格下调至最低1.2元/百万tokens输入和4元/百万tokens输出,并提供了一个月仅需28元的Token套餐选项。
最近一段时间内,国内外的大模型领域频繁出现新动作。
上周五,Anthropic发布了最新的旗舰产品Claude Opus 4.7;在4月20日,阿里则推出了下一代旗舰版本Qwen3.6-Max-Preview的预览版。同一天,Kimi也正式发布并开源了其新的旗舰模型K2.6。接着,在4月21日和23日,小米接连公布了MiMo大模型家族中的四款新成员,并启动了旗舰推理模型MiMo-V2.5的公测。
深度寻求(DeepSeek)V4版本预计在未来几日内推出,这将标志着新一轮的大规模语言模型竞争已经开始。
当面对如此激烈的市场竞争时,“全面实用性”定位下的Hy3 preview是否具有竞争力?我们进行了实地测试以验证其能力。
该项目的开源地址为https://github.com/Tencent-Hunyuan/Hy3-preview
在对逻辑推理、前端代码生成和多模态表现等方面进行综合评估后,我们发现Hy3 preview在这些领域都有不错的表现。
首先,在陷阱题测试中,Hy3 preview准确地给出了答案,并成功避开了文字上的误导性问题。例如,对于洗车的问题,它还幽默地提出了代驾送车的解决方案。
其次,我们进行了SVG图形绘制和HTML交互代码生成的任务评估。
在设计Xbox 360控制器的SVG时,尽管初次尝试未能完全成功,但经过调整后,Hy3 preview最终呈现出了较为满意的视觉效果。然而,在创建一个带有随机宝可梦出现功能的精灵球HTML代码块的过程中,Hy3 preview的表现略有不足。

最后,我们挑战了构建一个像素风格的前端页面的任务。

在这一任务中,虽然模型能够较好地理解静态结构并生成相对完整的鹈鹕骑行图像,但在细节表现和动态效果方面仍需进一步改进。
总体来看,Hy3 preview在代码框架构造、基本意图理解和财务数据分析等方面展现出了良好的潜力,但需要继续优化其复杂空间任务处理能力。
Hy3 preview在后端工程测试集(Hy-Backend)上的得分为54.7,在更接近用户交互的评估中也表现良好。同时,它还在高难度软件工程项目上取得了不错的成绩,尽管与顶级模型Claude Opus 4.6仍有差距。

在SWE-Bench Verified和Terminal-Bench 2.0等评测中,Hy3 preview的表现同样出色,接近于GLM-5和Kimi-K2.5的水平。
这些能力直接影响了模型在开放环境中的信息检索与决策制定能力,是其代理程序落地的关键基础。
在包含16个基准测试的整体评估中,Hy3 preview得到了大约56分的成绩,显著超过了前一代产品(约35分),并且接近于GLM-4.7和DeepSeek-V3.2的表现。
通过WildClawBench(text-only)和ClawEval等专项评测显示,在多步骤调用、工具协同以及任务分解上的稳定性方面,Hy3 preview也有着不俗表现。

在参数规模仅为2950亿的前提下,这一成绩也反映了其在性价比方面的优势,使其成为少数几个能够同时兼顾成本与性能的模型之一。
此外,在推理效率和价格结构上,Hy3 preview实现了显著提升。输入端最低为1.2元/百万tokens,缓存命中后可降至0.4元;而在更长上下文场景下(最高可达256K),其成本仍然保持在一个合理的水平。
腾讯云还推出了多种Token套餐方案供开发者选择,根据不同的使用需求可以享受到更加优惠的价格和灵活的服务模式。
结论是,在团队、架构和技术基础设施重建之后,Hy3 preview标志着腾讯混元的一个重要转折点。它选择了以较小的参数规模(295B)来优化推理能力、代码生成以及代理程序执行等关键技能,并已经开始在腾讯内部多条业务线中得到应用和反馈。
总体而言,Hy3 preview代表了腾讯在这个阶段重新调整策略的一个信号。它不仅仅关注技术指标上的领先,更注重实际应用场景中的实用性和稳定性。这表明在未来的发展道路上,实用性可能会成为评估模型价值的关键因素之一。
除了图形与交互测试,我们还验证了Hy3 preview在财务分析上的表现。我将腾讯2023、2024、2025年的财报输入模型,让它生成财报分析报告。
模型能够准确提取核心财务数据,并呈现三年的同比变化趋势。同时,按年报披露的业务分部,生成收入结构对比图和业务板块占比变化图,整体分析报告清晰可读,数据整合能力令人印象深刻。

总体而言,Hy3 preview在代码框架构建、基本意图理解及数据分析上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时,仍需持续进化与打磨。
二、多项核心基准跻身第一梯队,Agent能力逼近主流旗舰模型
从测评表现来看,Hy3 preview在多个关键能力维度上进入第一梯队。
以长上下文与指令遵循为例,在自建的CL-bench与CL-bench Life评测中,其得分分别达到22.8和15.7,明显高于GLM-5、Kimi-K2.5等同类模型,但与GPT-5.4级别模型相比仍存在差距,整体处于开源阵营前列位置。

在复杂推理能力上,Hy3 preview在FrontierScience-Olympiad中取得70.0分,高于GLM-5和Kimi-K2.5,接近Gemini 3.1 Pro与GPT-5.4。
在IMO Answer Bench上达到84.3分,超过Kimi-K2.5和GLM-5,但仍低于Gemini 3.1 Pro与GPT-5.4。
在清华求真书院数学博士资格考试中,其得分为88.4,显著高于Kimi-K2.5和GLM-5,但与顶级闭源模型仍有差距;在CHSBO 2025生物竞赛中,其87.8的表现同样领先多数开源模型,接近GPT-5.4的水平。

代码与Agent能力是其提升最明显的方向。
在后端工程任务集Hy-Backend上,Hy3 preview得分达到54.7,超过GLM-5和Kimi-K2.5;在更贴近用户交互的Hy-Vibe评测中,其表现同样领先Kimi-K2.5;在高难度软件工程任务Hy-SWE Max上,Hy3 preview达到30,明显高于Kimi-K2.5、接近GLM-5,但与Claude Opus-4.6仍存在差距。

这类内部评测更强调“真实开发环境中的完成能力”,相比标准化榜单,更能反映模型在复杂工程任务中的实际可用性。
在SWE-Bench Verified上,Hy3 preview达到74.4%,已经逼近GLM-5和Kimi-K2.5,但与Claude Opus-4.6仍有差距;在Terminal-Bench 2.0上,其54.4%的成绩超过GLM-4.7等模型,进入第一梯队。
在搜索与信息整合能力上,Hy3 preview在BrowseComp上达到67.1%,接近GLM-5与Kimi-K2.5;在WideSearch上取得70.2%,超过GLM-5,但仍低于Claude Opus-4.6。

这类能力直接决定模型在开放环境中的“找信息+做判断”能力,是Agent落地的关键基础。
进一步看整体Agent能力,在涵盖16项基准的综合评测中,Hy3 preview以约56分的综合得分,显著高于Hy2(约35分),并与GLM-4.7、DeepSeek-V3.2等模型拉开差距,接近GLM-5与Kimi-K2.5所在区间。

在更细分的Agent专项评测中,Hy3 preview也呈现出类似趋势。在WildClawBench(text-only)中,其得分为45.3,高于Kimi-K2.5、接近GLM-5;在ClawEval评测中达到55.0,超过Kimi-K2.5、接近GLM-5,但与Claude Opus-4.6同样存在差距。

这类评测更关注模型在多步调用、工具协同与任务拆解中的稳定性,直接对应Agent在真实环境中的执行能力。
在参数规模仅295B的前提下,这一表现也能看出其追求“性价比最优”,成为当前少数在成本与能力之间取得平衡的模型之一。
三、推理效率提升40%,输入1.2元/百万tokens起,256K长上下文成本压低
在能力之外,Hy3 preview此次更直接的变化体现在推理效率与成本结构上。
得益于模型架构与推理框架的深度协同,以及算子优化与量化策略的整体调整,其整体推理效率提升约40%,将单位调用成本进一步压缩。
从实际定价来看,在0-16K上下文范围内,Hy3 preview输入价格最低为1.2元/百万tokens,命中缓存后可降至0.4元,输出价格为4元。
在更长上下文(最高256K)场景下,Hy3 preview输入价格逐步提升至2元/百万tokens,输出价格为8元。

这意味着,在长文本、复杂Agent任务中,其成本仍处于可控范围。
除了按量计费,腾讯云还推出了面向开发者的Token套餐方案,将成本进一步前置与打包。以个人版为例,Lite套餐月费28元,对应约3500万tokens额度,折合单价约0.8元/百万tokens;Standard、Pro、Max套餐则分别提供100M、320M、650M tokens,对应单价逐步下降至0.72元/百万tokens。

这一梯度设计,对更高频、更长链路的调用场景更加友好,适用于需要持续运行的Agent应用。
结语:混元重建后的第一步,把重心放回真实场景
从某种意义上看,Hy3 preview是腾讯混元在团队、架构与基础设施全面重建之后的一个起点版本。它没有继续沿着“更大参数”的路径走下去,而是选择以295B的规模,注重打磨推理、代码、Agent等能力。
这一方向也对应姚顺雨提出的“AI下半场”判断——模型的价值,不在榜单,而在复杂场景中的可用性。从目前的落地情况来看,无论是元宝、WorkBuddy,还是QQ助手与AI客服,这一版本已经开始在腾讯内部多条业务线上持续“跑起来”,并通过实际反馈反向推动模型迭代。
放在更大的时间线上看,Hy3 preview或许是腾讯在这一轮大模型竞争中重新找到节奏的信号。
