
新智元报道
深度学习研究者们常常面临繁琐的工作流程,而开源框架Deep Researcher Agent则提供了一种解决方案:它可以全天候自动运行深度学习实验,帮助科研人员减少重复劳动。
研究过程中,修改超参数、执行训练并等待数小时以查看结果是一种常见的工作模式。在截止日期前的这段时期里,这一过程往往需要重复上百次。
在最后期限的压力下,研究者不得不熬夜或设定闹钟,在凌晨起床检查实验进展和损失函数的变化情况。
这种机械性的工作流程不仅耗时费力,还占用研究人员宝贵的思考时间。因此,能否通过AI代理来完成这些任务便成为了一个值得探讨的问题。
最近在GitHub上出现了一款名为Deep Researcher Agent的开源框架,它能够帮助研究者们实现这一目标——即使在休息的时候,该框架也能持续运行实验,并且能够在论文写作过程中提供已完成的结果表。
框架的核心机制是一个自主循环:THINK(思考)→ EXECUTE(执行)→ MONITOR(监控)→ REFLECT(反思)。

在THINK阶段,代理会读取项目描述和历史实验记录,并决定下一步的试验策略。它不仅能够调整超参数,还能修改模型代码、更换损失函数并增加数据增强策略。

它是怎么工作的?
执行时,代理先进行强制性干运行以确认没有错误,然后将训练任务发送到GPU上执行。

监控阶段是最具创新性的部分:在整个实验过程中,代理不会调用大型语言模型API。它通过检查进程状态和GPU使用情况来监控实验进展,且无需额外成本。
当训练结束时,代理会解析日志文件、提取关键指标,并与历史最佳结果进行比较以记录里程碑,随后启动下一轮循环。
整个过程可以24小时不间断运行。研究人员可以在任何时间点介入——只需在项目目录中添加一个指令文件即可。
- 该框架每天仅需花费五毛钱就能全天候运作,其成本控制主要依靠零费用监控技术。
- 框架的这种经济性允许研究人员在更长的时间内使用它来运行实验而不会增加成本负担。
- 第一层是固定的项目描述文本(最大3000字符),用于指导Agent的目标和约束条件;第二层则是自动压缩的关键成果记录(最多1200字符)和最近的决策记录(最多15条)。
该框架已成功应用于多个真实项目中,并实现了连续30多天的自主实验循环。每个项目的性能指标相比基准线提升了约52%,同时管理着4个项目和4台GPU服务器。
此外,它支持多种大型语言模型配置,包括Anthropic系和OpenAI系的产品,只需简单的命令行更改即可切换使用不同的LLM。
用户还可以通过手机端应用实时监控实验进度并接收通知消息。无论是地铁上、咖啡馆里还是床上,都可以轻松控制整个深度学习流水线。
安装过程非常简单快捷,只需要执行几个基本的命令即可完成设置。
对于新手用户而言,仓库中提供的交互式安装向导文件AI_GUIDE.md可以引导他们顺利完成配置和运行第一个实验的任务。

目前市面上大多数AI研究工具主要帮助编写论文或代码,但没有一个能够真正代替研究人员执行深度学习实验。
Deep Researcher Agent是首个专为自动运行深度学习实验而设计的开源代理框架。它旨在将重复性劳动从科研人员的工作中移除,让他们可以专注于更有价值的事情:思考和创新。
算下来:

项目作者在README文件中强调了使用本项目的伦理准则:禁止用于任何形式的学术不端行为。
创造这个工具的目的在于减轻研究人员的压力,使他们能够把更多时间投入到有意义的研究活动中去。因此,请不要期望通过它来实现科研作弊。
我们希望每一个使用者都能在遵守原则的前提下利用好这一强大的工具,在各自的领域内做出真实的贡献。
在当今“一键生成论文”的时代,看到一个开源项目主动设立这样的边界是非常令人感动的。
- 工具本身是中立的,但开发者的态度则体现了他们的立场和价值观。
- Deep Researcher Agent的目标就是让机器承担那些机械性的任务,从而帮助研究人员将更多精力投入到真正重要的事情上。
总记忆量恒定在约5000字符。Agent 跑1天是这个数,跑6个月还是这个数。
不是demo
是真打过仗
这个框架不是放在paper里看看的玩具。它已经在多个真实研究项目中连续跑了30多天:
自主完成500+轮实验循环,单个项目指标比 baseline 提升52%(200+ 次全自动实验跑出来的),同时管理4 个项目、4 台 GPU 服务器,最长连续运行30+ 天,期间人类只介入了五六次
Claude和Codex都能用,配置一行切换
框架不绑定单一LLM:
Anthropic系:Claude Sonnet 4.6(快) / Claude Opus 4.6(最强)
OpenAI系:Codex 5.3(快) / GPT 5.4(最强)
config改一行就能切,谁强用谁。
躺床上也能炼丹:手机端实时监控
配合Happy Coder App(iOS / Android),可以在手机上:实时查看实验进度、接收训练完成 / 出 bug 推送、随时给Agent下达「换个方向」的指令。
端到端加密,代码和结果完全私密。
这意味着你真的可以在地铁上、在咖啡馆、在床上指挥一整套深度学习实验流水线。
一键装好,7 个斜杠命令
git clone之后跑一句python install.py,立刻获得7个 Claude Code / Codex 斜杠命令:

完全不会用?仓库里有个AI_GUIDE.md——把这个文件直接丢给任何 AI 助手,它会交互式地一步步带你装好、跑起第一个实验。新手友好到这个地步。
AI科研工具对比
目前主流的AI研究工具——Claude Scholar、AI Scientist、SWE-Agent等——要么帮你写论文,要么帮你写代码。但没有一个能真正替你把实验跑出来。
Deep Researcher Agent是第一个专门为「跑」深度学习实验设计的开源 Agent 框架,而不是为「写」。
⚠️ 但是,请先看完这一段再去 Star
作者在 README 里挂了一段非常严肃的声明,我觉得这一段比项目本身更值得放到这篇文章里:
本项目严禁用于学术造假与任何形式的科研不端行为。
这个框架被造出来,只有一个目的——把跑实验里那些机械、重复的环节从研究者身上拿掉,让大家把节省下来的时间,投入到真正重要的事情:思考上面。
idea必须由人来提供。请不要寄希望于用本项目进行学术不端,这不是我们的项目初衷,也不是这个社区欢迎的事情。
学术应当保持纯粹。Agent可以替你跑实验,但idea、判断与责任必须由人来承担。我们真诚地希望每一位使用者都能human in the loop地去思考,在自己的研究方向上做出属于自己的、真实的贡献。
在这个动辄「AI一键生成论文」的时代,看到一个开源作者主动给自己的工具立这样的边界,挺打动人的。
工具是中立的,但作者立场不必中立。
一个人的精力是有限的。研究者本该把时间花在读论文、想 idea、解读结果上,而不是花在凌晨三点爬起来看loss有没有降。
Deep Researcher Agent想做的,就是把后者还给机器,把前者留给人。
如果你也是炼丹人,如果你也曾在deadline前哭着改config——
这一次,让AI替你熬夜。你去睡觉。
参考资料:
https://github.com/Xiangyue-Zhang/auto-deep-researcher-24x7
