在医学图像分割领域,一款国产多模态代理程序取得了显著成就。
这项成果已被CVPR 2026收录。
CVPR 2026接收了一种新的生物医学视觉推理框架。
医学专家在标记影像时,并非一目了然就能完成标注。
他们通常会先浏览整个图像,识别出潜在的异常区域,然后使用分割工具反复点击正负样本点,根据生成的mask形状不断调整策略——
这是一个需要多次迭代、边观察边思考的过程。
现有的医学多模态大型模型大多采取一次性推理的方式:
输入图像后直接输出mask。
在处理复杂解剖结构和模糊视觉语义时,这种模式显得力不从心。
为了给MLLM赋予分割功能,现有方法通常会引入隐式分割标记(如<SEG>)与像素级解码器协同训练——
这种做法破坏了模型原有的语言输出空间,导致推理能力和泛化能力受损。
上述模式存在四大主要问题:
- 一次性处理无法自我纠正:一旦初始步骤出现偏差,错误会逐步积累,最终影响分割结果的质量。
- 隐式标记干扰推理过程 :<SEG>等标记占据了文本空间,导致模型语言能力退化,抑制了细粒度视觉推理。
- 缺乏主动决策机制:现有的模型只能被动执行单次指令,无法像人类专家那样自主观察、反思和调整策略。
- 数据集局限性:当前的数据集中只有最终的mask信息,缺乏详细的交互步骤记录,难以直接指导多步操作。
针对上述问题,浙江大学蔡钰祥教授与上海人工智能实验室研究员江彦开等人联合开发了IBISAgent——
一种重新定义分割为多阶段决策过程的代理框架。
具体方法
IBISAgent的主要创新点包括:
- 将医学图像分割建模成一个多步骤马尔可夫决策过程(MDP),摒弃隐式标记,让模型在逐次交互中自主优化分割效果,并保持MLLM完整的语言推理能力。
- 设计了两阶段训练流程。初期通过冷启动SFT利用自动生成的轨迹建立像素级推理基础;随后采用代理强化学习方法以细粒度奖励信号引导模型探索最优决策路径,超越简单的模仿机制。
- 建立了一个包含456K条高质量交互轨迹的数据集,涵盖正常标注和自我校正两种类型,为多步视觉推理提供了系统化的训练基础。
具体而言,IBISAgent将分割过程视为一系列逐次决策的步骤:
- 推理(Textual Thinking) :模型根据当前图像状态进行语言分析,并提出下一步行动建议。
- 行动(Action) :输出明确的空间点击指令,包括目标类别、点击属性和归一化坐标等信息。
- 观察(Observation) :每次操作后生成的新mask被反馈给模型作为下一次决策的依据。
这一设计的关键在于:
每次行动都会根据前一步的结果进行调整,形成了视觉感知与语言推理相结合的闭环系统。
全程不需新增任何组件或隐式标记,分割能力源自MLLM本身的视觉理解力,并自然支持从头开始和逐步优化两种任务类型。
IBISAgent采用了两阶段训练策略:
第一阶段:冷启动SFT。
现有的医学分割数据集只提供了最终的mask信息,缺少详细的点击轨迹记录。
该团队利用BiomedParseData(包含340万图像-mask对和9种成像模态)开发了自动轨迹生成算法:
根据预设规则自动生成一系列点击序列,并通过Gemini-2.5-Pro为每一步创建相应的语言描述。
为了增加鲁棒性,特别设计了两类自我纠正的轨迹类型:
(1)错误修复——一旦发现错误动作,则回溯并重新推理;
(2)指令不一致处理——当遇到与初始mask不符的操作时,主动丢弃现有策略并重新开始分割。最终形成了包含456K样本的数据集。
第二阶段:代理强化学习。
在SFT结束后,引入RL机制以提供更为细致的反馈:
其中区域点击奖励和渐进式分割改进奖励尤为关键——
前者促使模型将每次点击定位到有意义的位置,后者确保每一步操作都能带来实质性的进展。
RL训练使用GRPO算法,在888K的VQA样本集上进行优化。
实验结果
实验结果表明,IBISAgent在多种基准测试中均表现出色:
相较于医学专用MLLM基线,平均IoU提高了35.13%,DSC提升了37.58%,F1得分上升了29.79%。
尽管Citrus-V和UniBiomed是在更大规模数据集上训练的模型,但IBISAgent依然保持领先,表明其优势主要源于方法论的进步而非单纯的数据量增加。
与依赖MedSAM2工具增强型代理(如GPT-4o、LLaVA-Med 和 HuatuoGPT-Vision)相比,IBISAgent在测试集上仍占据显著优势,充分展示了多轮交互推理的重要性。
消融实验表明,冷启动SFT、自我反思轨迹和强化学习三个部分缺一不可,并且它们逐级叠加均能带来明显的性能提升。
两阶段训练消融实验
强化学习阶段贡献了最大的性能改进,说明探索与利用机制对于激发真正的自主像素级推理至关重要。
细粒度奖励设计的消融实验证明,在域外集MeCOVQA-G+上的IoU从使用基础奖励时的73.77提升到加入区域点击奖励后的76.60,进一步引入渐进式分割改进后跃升至80.61。
最终叠加轨迹长度优化后,交互步数缩减至4.26步,同时保持了最高的分割质量水平。
这些结果表明细粒度的逐步反馈信号是实现模型性能和效率最佳平衡的关键因素。
本研究将医学图像分割从“一次推理输出”推进到了“多轮交互决策”的新阶段。
针对现有技术依赖隐式标记而导致推理能力下降的问题,IBISAgent通过交替的语言推理和点击动作完全替代了<SEG>标记,并保持了MLLM的完整语言处理功能。此外,它还利用多步MDP建模实现了真正的自主迭代优化。
进一步地,冷启动SFT结合自动轨迹生成建立了稳健的推理先验,而代理强化学习和细粒度奖励机制则引导模型超越模仿行为,探索最优决策路径,并最终实现精细的视觉推理。
广泛的实验验证了IBISAgent在多模态、多种疾病场景中的显著优势,为未来的智能医学图像分析系统奠定了坚实的基础。
这一结果表明,细粒度的逐步反馈信号是驱动模型在质量与效率之间取得最优平衡的关键,单纯依赖最终结果奖励无法达到同等效果。
小结一下
这项研究将生物医学图像分割从“单次推理输出”推进到“自主多轮交互决策”。
针对现有方法依赖隐式token导致的推理能力退化问题, IBISAgent以交错的文本推理与点击动作完全替代<SEG>token,保留了MLLM完整的语言能力,并通过多步MDP建模实现真正的自主迭代精化。
进一步地,冷启动SFT结合自动轨迹生成建立稳健的推理先验,Agentic强化学习与细粒度奖励驱动模型超越模仿、探索最优决策策略,最终实现了细粒度的视觉推理。
广泛的实验验证了IBISAgent在多模态、多疾病场景下的一致性优势,为未来面向真实临床的智能医学图像分析系统奠定了重要基础。
论文链接:
https://arxiv.org/abs/2601.03054
代码链接:
https://github.com/Yankai96/IBISAgent

一水