数学天才陶哲轩遭遇Claude挑战，详尽操作指南助其逆转局势

作者：世界网2026年3月11日科技4 阅读

新智元报道

全球知名数学家陶哲轩亲身经历了一场与AI的较量，他的实验警告人们：技术越先进，人类就越不能放松警惕。

在一次长达45分钟的操作后，电脑因过度计算而直接死机了。

世界顶尖数学家陶哲轩在测试一种最新的AI编程工具时遇到了一个令人惊讶的问题。

几个月前，他在视频中展示了如何将复杂的数学证明进行形式化处理。

然而在九个月后，面对备受推崇的新一代AI助手Claude Code，他原本以为这会是一次轻松的胜利。

未曾料到的是，在第一次全权委托给AI时，不仅没有得到预期的结果，还导致了电脑崩溃。

在收到一个宏大的指令之后，AI陷入了无休止的尝试和错误循环中，结果不仅未能生成任何可用代码，反而使系统过载直至死机。

当前科技圈热议的话题是关于智能体的能力边界。

似乎只要给出一句简单的指示，AI就能替你完成所有任务。然而陶哲轩的实际测试证明了这种想法过于理想化：

即便面对最先进的技术，人类也必须保持清醒的头脑和积极的参与。

持续的人类介入才是最有效的使用方式。

「一波流」幻想破灭

AI助手可能遇到的过载问题

故事回到几个月前。

在Equations of Theories项目中，陶哲轩利用GitHub Copilot和conical工具，通过人类智慧与轻度AI辅助完成了复杂证明的形式化工作。

如今，新一代智能体已经登场。

由于对新技术的过度信任，陶哲轩在初次尝试Claude时步入了常见的误区，即给它下达一个过于宽泛的任务：「请完成所有事项。」

他原本以为AI会自动分解任务并输出完美的代码。

然而这样的指令直接触发了机器的过载陷阱，在面对复杂逻辑链时迷失方向。

它在尝试各种可能的方式后，错误不断积累，导致长时间反复推倒重来。

在消耗大量计算资源之后，AI依旧未能完成任务，并且陶哲轩的电脑也因此崩溃。

实践证明，如果给AI下达的任务指令缺乏明确界限，它的努力反而会像无头苍蝇一般四处乱撞，最终导致无效的资源浪费。

这次失败的经历揭示了一个重要的事实：认为有了智能体就可以完全依赖它而不用参与的想法是不切实际的。

「保姆级」指令的胜利

转机出现在第二次和第三次尝试中。

第二次尝试已经取得了成功。

陶哲轩将任务拆解成多个小部分，不再要求Claude一次完成整个证明。他先形式化引理1、引理2和引理3，然后逐步补充完整证明。

最终在大约25分钟内完成了完整的证明。

在第三次尝试中，他还探索出了一套防止AI失控的策略，核心在于将所有指令详细记录在一个Markdown文件里再交给Claude执行。

这种做法的精髓在于控制和简明性。

第一步是先确立符号系统，然后再逐步推进证明过程。

在第二步中，他创建了一个初步的证明框架，并在这一阶段使用「sorry」占位符来避免AI陷入细节上的反复尝试。

这个策略背后的思想在于：防止让AI过早进入试图解决所有问题的状态。

与其让它一上来就全力冲刺，不如先搭建好基本结构再慢慢完善。

接下来的任务是将非形式化的证明逐行转换成Lean代码，并继续使用「sorry」来避免不必要的复杂化。

这个过程像盖房子一样：先立起梁柱再砌墙，而非一开始就试图完成所有工作。

陶哲轩还发现Claude的一个有趣弱点：它在处理机械性任务时反而容易变得过于繁琐和复杂。

人类可能会觉得这些步骤一目了然，而AI却倾向于采用更复杂的途径来解决。

这正是许多人误解AI的地方所在。

认为它擅长细小的工作，但实际上在需要执行具体任务时往往会过于自由发挥。

在形式化证明中，过度的创新反而可能成为问题的根本原因。

遵循详细的指令步骤后，Claude最终能够老实地按照人类设定的方向推进工作，并迅速生成了正确的代码框架。

你填空我修Bug

这次实践中最令人印象深刻的部分是人机之间的流畅合作。

在进展过程中电脑再次崩溃了一次。

然而这次，由于任务已经被拆解为小部分步骤，恢复起来相对简单得多。

「人机并行协作」

将工作分解成小块不仅防止了AI失控，还让后期修改变得更加容易。

更具亮点的是在调试阶段的表现。

在填充细节时，Claude遇到了一个底层逻辑问题。陶哲轩发现它错误地两次展开了一个简写表达式SA，而实际只需要一次即可。

面对这样的死胡同时，AI试图通过复杂的路径绕过障碍，甚至提供了冗长的代码。

此时人类的作用显现出来。

陶哲轩迅速接管这一逻辑部分，并利用Info View面板解决了问题。他使用了congruence命令消除了多余项，使错误信息瞬间消失。

接着他还意识到可以将H1提取为一个关键方程引理以供后续重复使用。

此刻，真正的协作编程场景上演了。

当陶哲轩在处理复杂的逻辑修复时，Claude Code并未闲着。

它默默地调整代码结构，并自动将H1替换成了简洁的证明形式，还为后续引理搭好了框架。

这种情况下，AI不仅遵循指令执行任务，还能自主优化代码并提前准备后续步骤。

在人机协作的最佳状态下，双方在同一个代码库中独立运作却又能默契配合。

这次实验耗时大约半小时，其中包括一次系统崩溃。对比之前45分钟的空转和电脑死机的情况，这次的结果显然更加高效。

陶哲轩通过此次试验得出了一种非常现实的技术态度：必须坚持参与其中并不断调整策略以达到最佳效果。

尽管Claude Code足够强大，大多数人可能会认为让它全权负责会更省心。

然而一旦这样做，它很可能抛弃原有的高效思路，按自己的方式重新编写代码。

这种做法可能导致生成的代码难以理解且调试困难。

此外，他还指出同时使用多个智能体并用另一个来管理的做法未必有效，至少在此次任务中他更倾向于单个可控的Agent。

拒绝「多智能体焦虑」

要把手放在方向盘上

在技术快速发展的背景下，人类必须保持参与感以确保工作效率和质量。

最佳的工作方式不是完全依赖工具，而是始终掌控局面。

因为一旦过度依赖，出现问题时往往只能重新开始或求助于黑箱式的解决方案。

相反地，当坚持「人在回路」的原则，你就能更好地利用AI的潜力来解决问题。真正指挥剑的方向的人依然是人类自己。

Claude Code足够强，大多数人很容易生出一种冲动：干脆让它全包，我少操点心。

可问题在于，一旦你真这么做，它很可能直接扔掉你原本已经很好的非形式化思路，按它自己的方式重写一遍。

结果，就是代码变得晦涩难懂，一旦跑不通，你连调试都无从下手。

他还顺手吐槽了当下很流行的一种趋势：

让多个智能体同时跑，再用另一个智能体去管理前面那几个智能体。

理论上当然可以。

可至少在这次任务里，他已经对单个、听话、受控的Agent非常满意了。再往上叠，不一定是效率提升，也可能只是另一种形式的复杂化焦虑。

此外，在这场技术洪流中，人类必须保持参与感。

最顶级的AI工作流，不是关掉大脑，而是始终把手放在方向盘上。

因为一旦完全依赖工具，出了问题，你能做的往往只剩下一遍遍重新调用，像是在对一个黑箱许愿。

而当你把「人类在环」这件事坚持到底，局面就完全不同了。

这时候，AI不是替你思考的大脑，而是你手里那把越来越锋利的剑。真正决定它往哪儿挥的人，仍然还得是你。

参考资料：

https://mathstodon.xyz/@tao/116190707979654536%20

https://github.com/teorth/analysis/blob/main/analysis/Analysis/Misc/equational.lean%20

https://www.youtube.com/watch?v=JHEO7cplfk8

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

数学天才陶哲轩遭遇Claude挑战，详尽操作指南助其逆转局势

作者：世界网2026年3月11日科技4 阅读

新智元报道

全球知名数学家陶哲轩亲身经历了一场与AI的较量，他的实验警告人们：技术越先进，人类就越不能放松警惕。

在一次长达45分钟的操作后，电脑因过度计算而直接死机了。

世界顶尖数学家陶哲轩在测试一种最新的AI编程工具时遇到了一个令人惊讶的问题。

几个月前，他在视频中展示了如何将复杂的数学证明进行形式化处理。

然而在九个月后，面对备受推崇的新一代AI助手Claude Code，他原本以为这会是一次轻松的胜利。

未曾料到的是，在第一次全权委托给AI时，不仅没有得到预期的结果，还导致了电脑崩溃。

在收到一个宏大的指令之后，AI陷入了无休止的尝试和错误循环中，结果不仅未能生成任何可用代码，反而使系统过载直至死机。

当前科技圈热议的话题是关于智能体的能力边界。

似乎只要给出一句简单的指示，AI就能替你完成所有任务。然而陶哲轩的实际测试证明了这种想法过于理想化：

即便面对最先进的技术，人类也必须保持清醒的头脑和积极的参与。

持续的人类介入才是最有效的使用方式。

「一波流」幻想破灭

AI助手可能遇到的过载问题

故事回到几个月前。

在Equations of Theories项目中，陶哲轩利用GitHub Copilot和conical工具，通过人类智慧与轻度AI辅助完成了复杂证明的形式化工作。

如今，新一代智能体已经登场。

由于对新技术的过度信任，陶哲轩在初次尝试Claude时步入了常见的误区，即给它下达一个过于宽泛的任务：「请完成所有事项。」

他原本以为AI会自动分解任务并输出完美的代码。

然而这样的指令直接触发了机器的过载陷阱，在面对复杂逻辑链时迷失方向。

它在尝试各种可能的方式后，错误不断积累，导致长时间反复推倒重来。

在消耗大量计算资源之后，AI依旧未能完成任务，并且陶哲轩的电脑也因此崩溃。

实践证明，如果给AI下达的任务指令缺乏明确界限，它的努力反而会像无头苍蝇一般四处乱撞，最终导致无效的资源浪费。

这次失败的经历揭示了一个重要的事实：认为有了智能体就可以完全依赖它而不用参与的想法是不切实际的。

「保姆级」指令的胜利

转机出现在第二次和第三次尝试中。

第二次尝试已经取得了成功。

陶哲轩将任务拆解成多个小部分，不再要求Claude一次完成整个证明。他先形式化引理1、引理2和引理3，然后逐步补充完整证明。

最终在大约25分钟内完成了完整的证明。

在第三次尝试中，他还探索出了一套防止AI失控的策略，核心在于将所有指令详细记录在一个Markdown文件里再交给Claude执行。

这种做法的精髓在于控制和简明性。

第一步是先确立符号系统，然后再逐步推进证明过程。

在第二步中，他创建了一个初步的证明框架，并在这一阶段使用「sorry」占位符来避免AI陷入细节上的反复尝试。

这个策略背后的思想在于：防止让AI过早进入试图解决所有问题的状态。

与其让它一上来就全力冲刺，不如先搭建好基本结构再慢慢完善。

接下来的任务是将非形式化的证明逐行转换成Lean代码，并继续使用「sorry」来避免不必要的复杂化。

这个过程像盖房子一样：先立起梁柱再砌墙，而非一开始就试图完成所有工作。

陶哲轩还发现Claude的一个有趣弱点：它在处理机械性任务时反而容易变得过于繁琐和复杂。

人类可能会觉得这些步骤一目了然，而AI却倾向于采用更复杂的途径来解决。

这正是许多人误解AI的地方所在。

认为它擅长细小的工作，但实际上在需要执行具体任务时往往会过于自由发挥。

在形式化证明中，过度的创新反而可能成为问题的根本原因。

遵循详细的指令步骤后，Claude最终能够老实地按照人类设定的方向推进工作，并迅速生成了正确的代码框架。

你填空我修Bug

这次实践中最令人印象深刻的部分是人机之间的流畅合作。

在进展过程中电脑再次崩溃了一次。

然而这次，由于任务已经被拆解为小部分步骤，恢复起来相对简单得多。

「人机并行协作」

将工作分解成小块不仅防止了AI失控，还让后期修改变得更加容易。

更具亮点的是在调试阶段的表现。

在填充细节时，Claude遇到了一个底层逻辑问题。陶哲轩发现它错误地两次展开了一个简写表达式SA，而实际只需要一次即可。

面对这样的死胡同时，AI试图通过复杂的路径绕过障碍，甚至提供了冗长的代码。

此时人类的作用显现出来。

陶哲轩迅速接管这一逻辑部分，并利用Info View面板解决了问题。他使用了congruence命令消除了多余项，使错误信息瞬间消失。

接着他还意识到可以将H1提取为一个关键方程引理以供后续重复使用。

此刻，真正的协作编程场景上演了。

当陶哲轩在处理复杂的逻辑修复时，Claude Code并未闲着。

它默默地调整代码结构，并自动将H1替换成了简洁的证明形式，还为后续引理搭好了框架。

这种情况下，AI不仅遵循指令执行任务，还能自主优化代码并提前准备后续步骤。

在人机协作的最佳状态下，双方在同一个代码库中独立运作却又能默契配合。

这次实验耗时大约半小时，其中包括一次系统崩溃。对比之前45分钟的空转和电脑死机的情况，这次的结果显然更加高效。

陶哲轩通过此次试验得出了一种非常现实的技术态度：必须坚持参与其中并不断调整策略以达到最佳效果。

尽管Claude Code足够强大，大多数人可能会认为让它全权负责会更省心。

然而一旦这样做，它很可能抛弃原有的高效思路，按自己的方式重新编写代码。

这种做法可能导致生成的代码难以理解且调试困难。

此外，他还指出同时使用多个智能体并用另一个来管理的做法未必有效，至少在此次任务中他更倾向于单个可控的Agent。

拒绝「多智能体焦虑」

要把手放在方向盘上

在技术快速发展的背景下，人类必须保持参与感以确保工作效率和质量。

最佳的工作方式不是完全依赖工具，而是始终掌控局面。

因为一旦过度依赖，出现问题时往往只能重新开始或求助于黑箱式的解决方案。

相反地，当坚持「人在回路」的原则，你就能更好地利用AI的潜力来解决问题。真正指挥剑的方向的人依然是人类自己。

Claude Code足够强，大多数人很容易生出一种冲动：干脆让它全包，我少操点心。

可问题在于，一旦你真这么做，它很可能直接扔掉你原本已经很好的非形式化思路，按它自己的方式重写一遍。

结果，就是代码变得晦涩难懂，一旦跑不通，你连调试都无从下手。

他还顺手吐槽了当下很流行的一种趋势：

让多个智能体同时跑，再用另一个智能体去管理前面那几个智能体。

理论上当然可以。

可至少在这次任务里，他已经对单个、听话、受控的Agent非常满意了。再往上叠，不一定是效率提升，也可能只是另一种形式的复杂化焦虑。

此外，在这场技术洪流中，人类必须保持参与感。

最顶级的AI工作流，不是关掉大脑，而是始终把手放在方向盘上。

因为一旦完全依赖工具，出了问题，你能做的往往只剩下一遍遍重新调用，像是在对一个黑箱许愿。

而当你把「人类在环」这件事坚持到底，局面就完全不同了。

这时候，AI不是替你思考的大脑，而是你手里那把越来越锋利的剑。真正决定它往哪儿挥的人，仍然还得是你。

参考资料：

https://mathstodon.xyz/@tao/116190707979654536%20

https://github.com/teorth/analysis/blob/main/analysis/Analysis/Misc/equational.lean%20

https://www.youtube.com/watch?v=JHEO7cplfk8

“”

数学天才陶哲轩遭遇Claude挑战，详尽操作指南助其逆转局势

数学天才陶哲轩遭遇Claude挑战，详尽操作指南助其逆转局势

相关文章

相关文章