在DeepSeek-V4测试1000万token后，我发现三个惊喜与一个意外

作者：世界网2026年4月25日科技1 阅读

近日，关于DeepSeek-V4的一项深度体验报告发布，该款新推出的开源模型迅速在Hugging Face平台上获得了极高关注，并被视为当前最佳推理和智能体编程性能的代表。

在此次评估过程中，我们通过一系列多维度测试来验证这两款模型的实际效果。经过大量数据分析后发现，DeepSeek-V4系列及其Pro版本展示了卓越的技术优势，尤其是在自主规划与执行方面表现出色。

测试数据显示，这款新模型已经登上了Hugging Face的热榜首位（图源：Hugging Face）。

本次测试中我们总共消耗了超过1000万token。DeepSeek-V4系列及Pro版本虽然在某些极限任务和轻量级场景中的表现略有不足，但总体而言其功能强大且实用。

在智能体编程方面，尤其是长程任务执行能力上，DeepSeek-V4-Pro的表现尤为突出：它能够自主设计复杂的数据库并开发安卓模拟器长达60分钟以上，期间无需人工干预，并能顺利完成各项复杂工程任务。

对于复杂推理问题的处理，DeepSeek-V4-Pro在逻辑题中表现出色，但在解决IMO数学难题时却陷入了死循环或给出错误答案，显示其在某些高难度场景下的稳定性仍需改进。

在简单的轻量级测试中，Pro版有时会陷入过度思考而无法快速找到正确答案。相比之下，Flash版本显得更为直接高效。

尽管DeepSeek-V4系列的API价格有所上调，但在执行长任务时通过缓存机制可以有效降低部分成本，使得整体账单增幅并不明显。

接下来是我们的详细测试记录：

首先，在智能体编程能力方面进行了深入检测。此次实验中，DeepSeek-V4-Pro不仅能够连续自主编写代码60分钟以上，还成功完成了一些复杂的数据库设计任务。

深度学习社区内对于Agentic Coding（代理编码）这一概念的强调也得到了充分体现，在本次测试过程中，我们让该模型与Claude Code合作完成了多项复杂工程任务。

其中一项挑战是打造一个完整的记账系统。在无需过多指导的情况下，DeepSeek-V4-Pro能够独立完成数据库设计方案，并规划了详细的开发流程，包括前端和后端的数据交互测试。

经过连续50多分钟的不间断编程，这一模型成功构建了一个功能完善的记账系统，证明其拥有强大的长程规划、自我纠错能力和工具调用能力。

另一项挑战是创建一个安卓模拟器。尽管任务难度较大，DeepSeek-V4-Pro依然通过联网搜索找到必要的开发资源，并按照计划完成了整个项目的搭建与调试。

尽管最终构建的安卓模拟器未能完全运行成功，但其在自主解决问题和环境配置方面的表现令人印象深刻。

在推理能力方面，DeepSeek-V4也进行了多项测试。结果显示，在逻辑题上该模型表现出色，但在解答高难度数学问题时却遇到了一些挑战。

测试还发现，对于简单的日常生活问题（如洗车难题），DeepSeek-V4-Pro有时会因为过度思考而无法给出正确答案。

此外，当面对网页小游戏等轻量级任务时，该模型的表现并不理想。这些问题表明，尽管DeepSeek-V4在许多方面都表现出色，但在某些特定场景下的优化仍有待加强。

总结来说，DeepSeek-V4系列通过其强大的智能体编程能力和出色的推理性能，在开源模型领域定义了新的标准，并为未来的发展奠定了坚实的基础。

总体来看，在复杂数据库开发这种综合考察模型长程规划能力、自我纠错能力、长上下文能力和推理能力的任务上，DeepSeek-V4-Pro的表现可以说远远超过了DeepSeek-V3.2。

不过，需要注意的是，与此前DeepSeek的旗舰级模型相比，DeepSeek-V4-Pro的价格有一定幅度的上涨，跑完上述这一任务的token消耗量大概在20万个左右（大部分为输入token），换算为API账单大概是5块钱，由于缓存机制的介入，价格还算可以接受。

任务2：从零开始打造安卓模拟器，代码、环境全程包办

我们的下一个任务挑战更大：让DeepSeek-V4-Pro从零开始打造一个安卓模拟器。

这一任务的复杂程度似乎已经超出DeepSeek-V4-Pro的知识范围了，于是它决定开启联网搜索，查询配套工具、参考架构等等，进行了18次工具调用。

在足足思考了11分钟之后，DeepSeek-V4-Pro才开始动笔写开发计划，它还自我评价道：“很好，Plan Agent输出了很全面的架构，我现在开始写完整架构。”此时，已经烧了8000多个token。

不过这种token消耗并非浪费，通过更为全面的规划，DeepSeek-V4-Pro让我们原本极为简单的提示词变得更加体系化，有助于后续的开发。

最终，DeepSeek-V4-Pro的计划是七步走完成开发，包含框架搭建、图像管理模块设计、VNC显示插件、完整GUI开发、APK安装功能、打包和debug。

这一项目的规模确实有点大，DeepSeek-V4-Pro连续跑了50多分钟才完成。

我把后续的调试和环境依赖安装工作也交给了DeepSeek-V4-Pro。执行过程中，DeepSeek-V4-Pro缺了什么资源就会调动搜索工具，直接搜索到对应链接进行下载，也能通过命令行帮我解压、安装相关环境，彻底解放双手。

DeepSeek-V4-Pro又工作了20多分钟，把活全部都干完了。不过，最后这一模拟器未能成功运行，截至发稿，DeepSeek还在帮我debug。

二、实测复杂推理，被IMO难题打入死循环

除了智能体、编程能力之外，DeepSeek-V4在推理方面的提升也值得关注。

DeepSeek官方称，DeepSeek-V4-Pro和DeepSeek-V4-Flash两个模型的推理能力接近。在下方这几道逻辑和推理题目中，我们便同时测试了两个模型。

任务1：解答海龟汤，Pro反而比Flash要快？

我们向DeepSeek发送的题目如下。这种题目的考察难点主要不在“谜面有多复杂”，而在于模型如何突破常见的思维惯性。

先来看看DeepSeek-V4-Pro的解题过程。DeepSeek-V4-Pro用时33秒就便推理出正确答案，思考过程简洁清晰。

DeepSeek-V4-Flash的推理速度反而更慢，耗时61秒，输出的结果是正确的。DeepSeek-V4-Flash慢的原因是它的思维过程有些冗余，多了不少反复的确认与自我质疑。

任务2：实测IMO难题，Flash答错、Pro死循环了

解答数学题也是DeepSeek的老传统之一了。此次，DeepSeek称V4-Pro的数学能力在测评中超过了所有已公开测评的开源模型，比肩世界顶级闭源模型。

我们拿去年IMO的题目考了考DeepSeek，关闭联网开启推理，让模型完全靠自己解决问题。这张高糊的题目也考察了DeepSeek网页服务中OCR的能力，我们检查了下，识别结果都是正确的。

这道题目让两个模型都思考了很久很久，似乎陷入了无尽的循环。DeepSeek-V4-Flash最后给出答案，但是是错误的。DeepSeek-V4-Pro跑了10多分钟，没有明显进展，最后我们手动中断了思考。

三、轻量级测试题集锦：洗车店问题竟意外难倒V4-Pro

上述案例都比较硬核，接下来我们看几个轻松点的案例。

首先是大家喜闻乐见的洗车难题。我们让DeepSeek-V4-Flash、DeepSeek-V4-Pro在关闭联网和思考的模式下解答。

DeepSeek-V4-Flash给出了正确答案，它觉得这个问题太简单了，语气中满是嘲讽。

DeepSeek-V4-Pro的思路则有些清奇，它建议我们把车推过去，认为“这种方案对车最好，省去冷启动磨损”，还补充道“推过去是爱车的极致表现，直接开过去是最不划算的方式。”

后来我们又给了DeepSeek-V4-Pro几次机会，它给出正确答案的概率还是高一些，但偶尔还是会因为过度思考而把自己绕进陷阱。

鹈鹕骑自行车的SVG，DeepSeek-V4-Flash就可以轻松拿下，结果基本完美：

像是网页小游戏这样的题目，DeepSeek-V4-Pro和DeepSeek-V4-Flash的表现其实都不太好，Flash打造的结果根本无法渲染，Pro打造的虽然渲染成功，但基本不可玩。

在这些“Toy Case”上，DeepSeek似乎没有花太多精力进行针对性的优化。

结语：DeepSeek-V4，又一次定义开源模型的上限

DeepSeek-V4系列模型确实带来了惊喜，尤其是在智能体编程方面，其长程规划与执行能力令人印象深刻。其基准测试也基本回应了AI圈对DeepSeek的期待，拿下了多项开源SOTA。

DeepSeek的开源不只是把模型权重开放出来，在某种意义上，也是将训练1.6T超大规模模型所需的算力、资金乃至工程经验一并“开源”给了整个社区。这一选择值得敬意。

可以预见，随着后续迭代优化，DeepSeek-V4有望持续进化，成为开源AI生态中一个兼具性能与活力的基座模型。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

在DeepSeek-V4测试1000万token后，我发现三个惊喜与一个意外

作者：世界网2026年4月25日科技1 阅读

测试数据显示，这款新模型已经登上了Hugging Face的热榜首位（图源：Hugging Face）。

本次测试中我们总共消耗了超过1000万token。DeepSeek-V4系列及Pro版本虽然在某些极限任务和轻量级场景中的表现略有不足，但总体而言其功能强大且实用。

在简单的轻量级测试中，Pro版有时会陷入过度思考而无法快速找到正确答案。相比之下，Flash版本显得更为直接高效。

尽管DeepSeek-V4系列的API价格有所上调，但在执行长任务时通过缓存机制可以有效降低部分成本，使得整体账单增幅并不明显。

接下来是我们的详细测试记录：

经过连续50多分钟的不间断编程，这一模型成功构建了一个功能完善的记账系统，证明其拥有强大的长程规划、自我纠错能力和工具调用能力。

尽管最终构建的安卓模拟器未能完全运行成功，但其在自主解决问题和环境配置方面的表现令人印象深刻。

在推理能力方面，DeepSeek-V4也进行了多项测试。结果显示，在逻辑题上该模型表现出色，但在解答高难度数学问题时却遇到了一些挑战。

测试还发现，对于简单的日常生活问题（如洗车难题），DeepSeek-V4-Pro有时会因为过度思考而无法给出正确答案。

总结来说，DeepSeek-V4系列通过其强大的智能体编程能力和出色的推理性能，在开源模型领域定义了新的标准，并为未来的发展奠定了坚实的基础。

任务2：从零开始打造安卓模拟器，代码、环境全程包办

我们的下一个任务挑战更大：让DeepSeek-V4-Pro从零开始打造一个安卓模拟器。

这一任务的复杂程度似乎已经超出DeepSeek-V4-Pro的知识范围了，于是它决定开启联网搜索，查询配套工具、参考架构等等，进行了18次工具调用。

不过这种token消耗并非浪费，通过更为全面的规划，DeepSeek-V4-Pro让我们原本极为简单的提示词变得更加体系化，有助于后续的开发。

最终，DeepSeek-V4-Pro的计划是七步走完成开发，包含框架搭建、图像管理模块设计、VNC显示插件、完整GUI开发、APK安装功能、打包和debug。

这一项目的规模确实有点大，DeepSeek-V4-Pro连续跑了50多分钟才完成。

DeepSeek-V4-Pro又工作了20多分钟，把活全部都干完了。不过，最后这一模拟器未能成功运行，截至发稿，DeepSeek还在帮我debug。

二、实测复杂推理，被IMO难题打入死循环

除了智能体、编程能力之外，DeepSeek-V4在推理方面的提升也值得关注。

DeepSeek官方称，DeepSeek-V4-Pro和DeepSeek-V4-Flash两个模型的推理能力接近。在下方这几道逻辑和推理题目中，我们便同时测试了两个模型。

任务1：解答海龟汤，Pro反而比Flash要快？

我们向DeepSeek发送的题目如下。这种题目的考察难点主要不在“谜面有多复杂”，而在于模型如何突破常见的思维惯性。

先来看看DeepSeek-V4-Pro的解题过程。DeepSeek-V4-Pro用时33秒就便推理出正确答案，思考过程简洁清晰。

任务2：实测IMO难题，Flash答错、Pro死循环了

解答数学题也是DeepSeek的老传统之一了。此次，DeepSeek称V4-Pro的数学能力在测评中超过了所有已公开测评的开源模型，比肩世界顶级闭源模型。

三、轻量级测试题集锦：洗车店问题竟意外难倒V4-Pro

上述案例都比较硬核，接下来我们看几个轻松点的案例。

首先是大家喜闻乐见的洗车难题。我们让DeepSeek-V4-Flash、DeepSeek-V4-Pro在关闭联网和思考的模式下解答。

DeepSeek-V4-Flash给出了正确答案，它觉得这个问题太简单了，语气中满是嘲讽。

后来我们又给了DeepSeek-V4-Pro几次机会，它给出正确答案的概率还是高一些，但偶尔还是会因为过度思考而把自己绕进陷阱。

鹈鹕骑自行车的SVG，DeepSeek-V4-Flash就可以轻松拿下，结果基本完美：

像是网页小游戏这样的题目，DeepSeek-V4-Pro和DeepSeek-V4-Flash的表现其实都不太好，Flash打造的结果根本无法渲染，Pro打造的虽然渲染成功，但基本不可玩。

在这些“Toy Case”上，DeepSeek似乎没有花太多精力进行针对性的优化。

结语：DeepSeek-V4，又一次定义开源模型的上限

可以预见，随着后续迭代优化，DeepSeek-V4有望持续进化，成为开源AI生态中一个兼具性能与活力的基座模型。

“”

在DeepSeek-V4测试1000万token后，我发现三个惊喜与一个意外

在DeepSeek-V4测试1000万token后，我发现三个惊喜与一个意外

相关文章

相关文章