Claw AI Lab团队
量子位 | 公众号 QbitAI
科研工作是否让你感到孤独?
实验中最难的部分,并非问题本身,而是从文献研究到实验设计再到论文撰写的过程,往往需要科研人员独自推进。
独自工作的研究员可能会错过正确的方向指引,遇到复杂的问题时没有讨论的机会。如果结果不理想,则只能反复尝试修正错误。所谓的“自动化科研”,很多时候只是将这些步骤整合成一个无人参与的流程——虽然减少了人力投入,但问题的本质并未得到解决。
而真正的高效科研应当是一个团队协作的过程:不同角色分工明确,项目同时进行,成果共享,错误尽早发现和纠正,研究方向在不断的交流中逐步确定。在这个过程中,人的判断力始终是关键因素。

△clawailab.ai
Claw AI Lab是由新加坡A*STAR的研究科学家刘发耀、前腾讯AI合伙人及首席专家叶德珩以及魔芯科技创始人陈天润共同创建的科研团队所提出的一项创新计划。
他们的目标是将这种高效的协作模式整合成一个自动化的系统。用户定义研究方向,多个智能体协同推进,项目并行开展,整个过程持续优化;用户可以随时介入、调整或回溯,确保研究工作形成闭环流程。
科研不再是一个人独力完成的任务。
你将扮演实验室主管的角色,让实验自主运行起来。
金字塔式分层架构管理+用户友好UI
Claw AI Lab采用了层级分明的架构设计,包括从制定科研方向、设计方法和规划实验,到编写代码并分析结果等多个阶段。这种结构化的方法确保了科研工作的高效执行与持续优化。
每一层级都有专门负责的智能体来处理任务,并通过上下文信息保持紧密连接,从而保证系统的整体规划能力和细节操作效率。此外,上层决策能够根据实验的结果进行动态调整,实现迭代和闭环改进。

△Claw AI Lab的操作界面
Claw AI Lab提供了一个直观的操作界面,用户可以像实验室负责人一样定义研究目标、拆解任务,并实时监控各个智能体的工作状态与中间结果。复杂的科研流程被简化为易于操作的界面和进度条,大大降低了使用难度。
同时支持三种模式
多方向并行调研模式:同时展开多个项目的研究,跨领域讨论以达成一致意见,形成统一假设。
独立研究模式:各课题平行开展,共享知识库但各自独立生成假设,速度快且不需要共识的建立。
论文重现模式:单个智能体从头到尾复现目标论文的方法和实验过程。
Claude Code Harness
传统的AI编程助手解决了编写代码的问题,而Claw Code Harness则致力于将科研想法转化为可运行的实验程序。
在Claw AI Lab中,模型不再是简单地生成代码片段,而是像工程师一样进入迭代循环:阅读本地库、数据集和检查点,完成理解任务、创建main.py文件、执行测试、定位错误并修复的过程。

△实验代码生成流程
更重要的是,系统会注入一个不可编辑的实验框架,负责时间预算控制、指标报告、异常值验证以及最终生成标准化的结果文档。这意味着Claw不仅仅是在编写代码,而是构建了一条从想法到可重现研究结果的信任链路,确保AI产生的不是演示模型,而是实际可以部署和优化的研究代码。
从“单一”智能体到“群体”智能
科研从来都不是单打独斗的活动。真正的突破往往产生于不断的讨论、质疑与修正之中——一个概念被提出、推翻并重建,在多次批评与合作后逐渐接近正确答案。
比如在一个涉及具身智能的研究项目中,你领导着三位研究员分别专注于VLM(视觉语言模型)、VLA和World Model领域。你们希望探讨最新视频动作模型在实际应用中的最佳实现方案。

讨论前:

World Model研究员
World Model领域的研究人员主张结合预测与决策来提高可控性和安全性;
VLA研究员
VLA研究者则提倡使用视频训练、执行时直接输出行动,以兼顾效率和闭环稳定性;
VLM研究员
另一位研究员认为短期内最容易实施的不是直接控制,而是任务理解、监控异常预警以及自动化,因为这些更容易融入现实系统。
在Claw AI Lab中,通过结合各方观点并提炼出更强的概念,最终得出一个更优且可部署的方法,具体内容如下:
- 训练阶段采用视频监督学习更强的动态表示;
- 执行时保留直接动作输出确保低延迟闭环控制;
- 系统层面增加规划和安全层进行重规划和约束筛选;
- 还有在执行旁路中加入步骤理解、异常监控、预测机制以及可解释推理,用于纠错恢复及长期运维。
除此之外,在Claw AI Lab内,讨论不会只给一个“看起来合理”的答案,它还会把争议背后的原因挖掘出来。
Claw AI Lab不仅能让多个智能体协同工作。它更像是真正的研讨会:分歧被公开讨论,假设被提出和验证,证据被对齐,方案被重组,最终产出更强的共识、更明确的重点以及新的研究方向。
例如关于人类视频是否可以直接迁移到机器人动作的问题,经过讨论得出结论是其短期内最大的价值在于预训练与中间表示,而不是直接替代低层的动作监督。
另一个分歧点是World Model和VLA为何有截然不同的主张。最终大家达成共识:前者代表系统可控性与安全性,后者则强调执行效率,真正的稳健方案需将两者结合在同一分层闭环内。
共识:前者代表系统可控性与安全性,后者代表低时延执行效率,真正更稳健的路线不是二选一,而是把两者放进同一个分层闭环里。
科研不再是单一结果的生成过程,而是一个由团队智慧驱动、不断优化和演变的过程。
科研不再只是生成一个结果,而是一个由群体智能驱动、不断收敛和演化的过程。
实验室模式下的项目案例
该项目旨在对大型模型中的幻觉现象进行全面量化分析。不仅评估输出是否错误,还深入研究推理过程中产生与传播错误的原因。主要挑战在于缺乏统一的标准答案、错误可能具备表面合理性,并在多步推理中被放大。为解决这些问题,项目通过结构化拆解模型的输出流程,并引入多层次一致性及过程级分析来实现对幻觉现象的精准测量和定位。

论文复现模式的项目结果示例
论文复现模式下的案例

该项目旨在真实工程环境中重现PhyCustom在FLUX模型上的效果。不仅验证论文结果,还测试“物理属性可控生成”是否能在复杂系统中稳定运行。主要困难在于物理属性难以被准确表示和复现过程对数据、训练细节及实现路径的敏感性。为克服这些障碍,项目通过嵌入完整的实验执行链路并约束追踪关键步骤来保证每次训练与生成都有可靠依据与反馈。
