姚顺雨完成DeepSeek V4挑战

作者：世界网2026年4月23日科技34 阅读

今日，腾讯发布了新一代的大规模语言模型混元Hy3 preview，并将其源代码公开，这是该团队自重组以来推出的首个重要产品版本。

Hy3 preview是目前混元系列中最先进的一个版本，采用了混合专家架构来实现快速和深入的思考过程。其参数总量达到2950亿个，激活参数为210亿，并能支持长达256K的内容上下文处理。

从测试结果来看，Hy3 preview在复杂推理、指令执行以及代码生成等方面的性能得到了显著提升。比如，在FrontierScience-Olympiad竞赛中获得了70.0分的高分；在IMO Answer Bench上得分84.3，超过了GLM-5和Kimi-K2.5的成绩。

在编程语言理解和搜索功能方面，该模型同样表现出色，在SWE-Bench Verified测试中的准确率高达74.4%，接近于顶级闭源模型Claude Opus-4.6的水平。

通过ClawEval和WildClawBench等代理程序评估体系，Hy3 preview在执行复杂任务时的能力也得到了显著提高。它在综合评价测试中的平均分数为约56分，明显高于上一代Hy2模型（大约35分）的表现。

目前，Hy3 preview已全面集成到了腾讯云、元宝、ima、CodeBuddy和WorkBuddy等多个核心产品线中，并支持流行的开源代理软件如OpenClaw和OpenCode等的接入。同时，该版本已经上线了腾讯云的大模型服务平台TokenHub。

在效率与成本方面，Hy3 preview实现了首token延迟减少54%，总处理时间缩短47%。此外，API价格下调至最低1.2元/百万tokens输入和4元/百万tokens输出，并提供了一个月仅需28元的Token套餐选项。

最近一段时间内，国内外的大模型领域频繁出现新动作。

上周五，Anthropic发布了最新的旗舰产品Claude Opus 4.7；在4月20日，阿里则推出了下一代旗舰版本Qwen3.6-Max-Preview的预览版。同一天，Kimi也正式发布并开源了其新的旗舰模型K2.6。接着，在4月21日和23日，小米接连公布了MiMo大模型家族中的四款新成员，并启动了旗舰推理模型MiMo-V2.5的公测。

深度寻求（DeepSeek）V4版本预计在未来几日内推出，这将标志着新一轮的大规模语言模型竞争已经开始。

当面对如此激烈的市场竞争时，“全面实用性”定位下的Hy3 preview是否具有竞争力？我们进行了实地测试以验证其能力。

该项目的开源地址为https://github.com/Tencent-Hunyuan/Hy3-preview

在对逻辑推理、前端代码生成和多模态表现等方面进行综合评估后，我们发现Hy3 preview在这些领域都有不错的表现。

首先，在陷阱题测试中，Hy3 preview准确地给出了答案，并成功避开了文字上的误导性问题。例如，对于洗车的问题，它还幽默地提出了代驾送车的解决方案。

其次，我们进行了SVG图形绘制和HTML交互代码生成的任务评估。

在设计Xbox 360控制器的SVG时，尽管初次尝试未能完全成功，但经过调整后，Hy3 preview最终呈现出了较为满意的视觉效果。然而，在创建一个带有随机宝可梦出现功能的精灵球HTML代码块的过程中，Hy3 preview的表现略有不足。

最后，我们挑战了构建一个像素风格的前端页面的任务。

在这一任务中，虽然模型能够较好地理解静态结构并生成相对完整的鹈鹕骑行图像，但在细节表现和动态效果方面仍需进一步改进。

总体来看，Hy3 preview在代码框架构造、基本意图理解和财务数据分析等方面展现出了良好的潜力，但需要继续优化其复杂空间任务处理能力。

Hy3 preview在后端工程测试集（Hy-Backend）上的得分为54.7，在更接近用户交互的评估中也表现良好。同时，它还在高难度软件工程项目上取得了不错的成绩，尽管与顶级模型Claude Opus 4.6仍有差距。

在SWE-Bench Verified和Terminal-Bench 2.0等评测中，Hy3 preview的表现同样出色，接近于GLM-5和Kimi-K2.5的水平。

这些能力直接影响了模型在开放环境中的信息检索与决策制定能力，是其代理程序落地的关键基础。

在包含16个基准测试的整体评估中，Hy3 preview得到了大约56分的成绩，显著超过了前一代产品（约35分），并且接近于GLM-4.7和DeepSeek-V3.2的表现。

通过WildClawBench（text-only）和ClawEval等专项评测显示，在多步骤调用、工具协同以及任务分解上的稳定性方面，Hy3 preview也有着不俗表现。

在参数规模仅为2950亿的前提下，这一成绩也反映了其在性价比方面的优势，使其成为少数几个能够同时兼顾成本与性能的模型之一。

此外，在推理效率和价格结构上，Hy3 preview实现了显著提升。输入端最低为1.2元/百万tokens，缓存命中后可降至0.4元；而在更长上下文场景下（最高可达256K），其成本仍然保持在一个合理的水平。

腾讯云还推出了多种Token套餐方案供开发者选择，根据不同的使用需求可以享受到更加优惠的价格和灵活的服务模式。

结论是，在团队、架构和技术基础设施重建之后，Hy3 preview标志着腾讯混元的一个重要转折点。它选择了以较小的参数规模（295B）来优化推理能力、代码生成以及代理程序执行等关键技能，并已经开始在腾讯内部多条业务线中得到应用和反馈。

总体而言，Hy3 preview代表了腾讯在这个阶段重新调整策略的一个信号。它不仅仅关注技术指标上的领先，更注重实际应用场景中的实用性和稳定性。这表明在未来的发展道路上，实用性可能会成为评估模型价值的关键因素之一。

除了图形与交互测试，我们还验证了Hy3 preview在财务分析上的表现。我将腾讯2023、2024、2025年的财报输入模型，让它生成财报分析报告。

模型能够准确提取核心财务数据，并呈现三年的同比变化趋势。同时，按年报披露的业务分部，生成收入结构对比图和业务板块占比变化图，整体分析报告清晰可读，数据整合能力令人印象深刻。

总体而言，Hy3 preview在代码框架构建、基本意图理解及数据分析上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时，仍需持续进化与打磨。

二、多项核心基准跻身第一梯队，Agent能力逼近主流旗舰模型

从测评表现来看，Hy3 preview在多个关键能力维度上进入第一梯队。

以长上下文与指令遵循为例，在自建的CL-bench与CL-bench Life评测中，其得分分别达到22.8和15.7，明显高于GLM-5、Kimi-K2.5等同类模型，但与GPT-5.4级别模型相比仍存在差距，整体处于开源阵营前列位置。

在复杂推理能力上，Hy3 preview在FrontierScience-Olympiad中取得70.0分，高于GLM-5和Kimi-K2.5，接近Gemini 3.1 Pro与GPT-5.4。

在IMO Answer Bench上达到84.3分，超过Kimi-K2.5和GLM-5，但仍低于Gemini 3.1 Pro与GPT-5.4。

在清华求真书院数学博士资格考试中，其得分为88.4，显著高于Kimi-K2.5和GLM-5，但与顶级闭源模型仍有差距；在CHSBO 2025生物竞赛中，其87.8的表现同样领先多数开源模型，接近GPT-5.4的水平。

代码与Agent能力是其提升最明显的方向。

在后端工程任务集Hy-Backend上，Hy3 preview得分达到54.7，超过GLM-5和Kimi-K2.5；在更贴近用户交互的Hy-Vibe评测中，其表现同样领先Kimi-K2.5；在高难度软件工程任务Hy-SWE Max上，Hy3 preview达到30，明显高于Kimi-K2.5、接近GLM-5，但与Claude Opus-4.6仍存在差距。

这类内部评测更强调“真实开发环境中的完成能力”，相比标准化榜单，更能反映模型在复杂工程任务中的实际可用性。

在SWE-Bench Verified上，Hy3 preview达到74.4%，已经逼近GLM-5和Kimi-K2.5，但与Claude Opus-4.6仍有差距；在Terminal-Bench 2.0上，其54.4%的成绩超过GLM-4.7等模型，进入第一梯队。

在搜索与信息整合能力上，Hy3 preview在BrowseComp上达到67.1%，接近GLM-5与Kimi-K2.5；在WideSearch上取得70.2%，超过GLM-5，但仍低于Claude Opus-4.6。

这类能力直接决定模型在开放环境中的“找信息+做判断”能力，是Agent落地的关键基础。

进一步看整体Agent能力，在涵盖16项基准的综合评测中，Hy3 preview以约56分的综合得分，显著高于Hy2（约35分），并与GLM-4.7、DeepSeek-V3.2等模型拉开差距，接近GLM-5与Kimi-K2.5所在区间。

在更细分的Agent专项评测中，Hy3 preview也呈现出类似趋势。在WildClawBench（text-only）中，其得分为45.3，高于Kimi-K2.5、接近GLM-5；在ClawEval评测中达到55.0，超过Kimi-K2.5、接近GLM-5，但与Claude Opus-4.6同样存在差距。

这类评测更关注模型在多步调用、工具协同与任务拆解中的稳定性，直接对应Agent在真实环境中的执行能力。

在参数规模仅295B的前提下，这一表现也能看出其追求“性价比最优”，成为当前少数在成本与能力之间取得平衡的模型之一。

三、推理效率提升40%，输入1.2元/百万tokens起，256K长上下文成本压低

在能力之外，Hy3 preview此次更直接的变化体现在推理效率与成本结构上。

得益于模型架构与推理框架的深度协同，以及算子优化与量化策略的整体调整，其整体推理效率提升约40%，将单位调用成本进一步压缩。

从实际定价来看，在0-16K上下文范围内，Hy3 preview输入价格最低为1.2元/百万tokens，命中缓存后可降至0.4元，输出价格为4元。

在更长上下文（最高256K）场景下，Hy3 preview输入价格逐步提升至2元/百万tokens，输出价格为8元。

这意味着，在长文本、复杂Agent任务中，其成本仍处于可控范围。

除了按量计费，腾讯云还推出了面向开发者的Token套餐方案，将成本进一步前置与打包。以个人版为例，Lite套餐月费28元，对应约3500万tokens额度，折合单价约0.8元/百万tokens；Standard、Pro、Max套餐则分别提供100M、320M、650M tokens，对应单价逐步下降至0.72元/百万tokens。

这一梯度设计，对更高频、更长链路的调用场景更加友好，适用于需要持续运行的Agent应用。

结语：混元重建后的第一步，把重心放回真实场景

从某种意义上看，Hy3 preview是腾讯混元在团队、架构与基础设施全面重建之后的一个起点版本。它没有继续沿着“更大参数”的路径走下去，而是选择以295B的规模，注重打磨推理、代码、Agent等能力。

这一方向也对应姚顺雨提出的“AI下半场”判断——模型的价值，不在榜单，而在复杂场景中的可用性。从目前的落地情况来看，无论是元宝、WorkBuddy，还是QQ助手与AI客服，这一版本已经开始在腾讯内部多条业务线上持续“跑起来”，并通过实际反馈反向推动模型迭代。

放在更大的时间线上看，Hy3 preview或许是腾讯在这一轮大模型竞争中重新找到节奏的信号。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

姚顺雨完成DeepSeek V4挑战

作者：世界网2026年4月23日科技34 阅读

今日，腾讯发布了新一代的大规模语言模型混元Hy3 preview，并将其源代码公开，这是该团队自重组以来推出的首个重要产品版本。

在编程语言理解和搜索功能方面，该模型同样表现出色，在SWE-Bench Verified测试中的准确率高达74.4%，接近于顶级闭源模型Claude Opus-4.6的水平。

最近一段时间内，国内外的大模型领域频繁出现新动作。

深度寻求（DeepSeek）V4版本预计在未来几日内推出，这将标志着新一轮的大规模语言模型竞争已经开始。

当面对如此激烈的市场竞争时，“全面实用性”定位下的Hy3 preview是否具有竞争力？我们进行了实地测试以验证其能力。

该项目的开源地址为https://github.com/Tencent-Hunyuan/Hy3-preview

在对逻辑推理、前端代码生成和多模态表现等方面进行综合评估后，我们发现Hy3 preview在这些领域都有不错的表现。

其次，我们进行了SVG图形绘制和HTML交互代码生成的任务评估。

最后，我们挑战了构建一个像素风格的前端页面的任务。

在这一任务中，虽然模型能够较好地理解静态结构并生成相对完整的鹈鹕骑行图像，但在细节表现和动态效果方面仍需进一步改进。

总体来看，Hy3 preview在代码框架构造、基本意图理解和财务数据分析等方面展现出了良好的潜力，但需要继续优化其复杂空间任务处理能力。

在SWE-Bench Verified和Terminal-Bench 2.0等评测中，Hy3 preview的表现同样出色，接近于GLM-5和Kimi-K2.5的水平。

这些能力直接影响了模型在开放环境中的信息检索与决策制定能力，是其代理程序落地的关键基础。

在包含16个基准测试的整体评估中，Hy3 preview得到了大约56分的成绩，显著超过了前一代产品（约35分），并且接近于GLM-4.7和DeepSeek-V3.2的表现。

通过WildClawBench（text-only）和ClawEval等专项评测显示，在多步骤调用、工具协同以及任务分解上的稳定性方面，Hy3 preview也有着不俗表现。

在参数规模仅为2950亿的前提下，这一成绩也反映了其在性价比方面的优势，使其成为少数几个能够同时兼顾成本与性能的模型之一。

腾讯云还推出了多种Token套餐方案供开发者选择，根据不同的使用需求可以享受到更加优惠的价格和灵活的服务模式。

除了图形与交互测试，我们还验证了Hy3 preview在财务分析上的表现。我将腾讯2023、2024、2025年的财报输入模型，让它生成财报分析报告。

二、多项核心基准跻身第一梯队，Agent能力逼近主流旗舰模型

从测评表现来看，Hy3 preview在多个关键能力维度上进入第一梯队。

在复杂推理能力上，Hy3 preview在FrontierScience-Olympiad中取得70.0分，高于GLM-5和Kimi-K2.5，接近Gemini 3.1 Pro与GPT-5.4。

在IMO Answer Bench上达到84.3分，超过Kimi-K2.5和GLM-5，但仍低于Gemini 3.1 Pro与GPT-5.4。

代码与Agent能力是其提升最明显的方向。

这类内部评测更强调“真实开发环境中的完成能力”，相比标准化榜单，更能反映模型在复杂工程任务中的实际可用性。

在搜索与信息整合能力上，Hy3 preview在BrowseComp上达到67.1%，接近GLM-5与Kimi-K2.5；在WideSearch上取得70.2%，超过GLM-5，但仍低于Claude Opus-4.6。

这类能力直接决定模型在开放环境中的“找信息+做判断”能力，是Agent落地的关键基础。

这类评测更关注模型在多步调用、工具协同与任务拆解中的稳定性，直接对应Agent在真实环境中的执行能力。

在参数规模仅295B的前提下，这一表现也能看出其追求“性价比最优”，成为当前少数在成本与能力之间取得平衡的模型之一。

三、推理效率提升40%，输入1.2元/百万tokens起，256K长上下文成本压低

在能力之外，Hy3 preview此次更直接的变化体现在推理效率与成本结构上。

得益于模型架构与推理框架的深度协同，以及算子优化与量化策略的整体调整，其整体推理效率提升约40%，将单位调用成本进一步压缩。

从实际定价来看，在0-16K上下文范围内，Hy3 preview输入价格最低为1.2元/百万tokens，命中缓存后可降至0.4元，输出价格为4元。

在更长上下文（最高256K）场景下，Hy3 preview输入价格逐步提升至2元/百万tokens，输出价格为8元。

这意味着，在长文本、复杂Agent任务中，其成本仍处于可控范围。

这一梯度设计，对更高频、更长链路的调用场景更加友好，适用于需要持续运行的Agent应用。

结语：混元重建后的第一步，把重心放回真实场景

放在更大的时间线上看，Hy3 preview或许是腾讯在这一轮大模型竞争中重新找到节奏的信号。

“”

姚顺雨完成DeepSeek V4挑战

姚顺雨完成DeepSeek V4挑战

相关文章

相关文章