医学影像分割新突破：浙大与上海AI Lab联手打造IBISAgent

type

status

date

slug

summary

传统医学分割范式的困局

人类专家在进行医学图像标注时，往往是一个“观察-思考-点击-验证”的动态过程。现有的医学多模态大模型大多采用“输入图像，直接输出Mask”的单次前向推理模式，这种方式在面对细微病灶和复杂解剖结构时，极易出现定位偏差。

更严重的是，为了赋予模型分割能力，现有方法普遍采用引入隐式分割token（如<SEG>）并进行联合微调的策略。这种做法无异于“杀鸡取卵”，不仅破坏了语言模型原本的推理空间，还导致了灾难性的遗忘现象，使得模型在复杂视觉推理上的表现大打折扣。

IBISAgent：重构多步视觉决策过程

针对上述问题，IBISAgent将医学分割重新定义为一个多步马尔可夫决策过程（MDP）。其核心创新在于：

抛弃隐式token：完全剔除不必要的模型组件，利用模型内在的视觉推理能力，实现端到端的分割与精化。

闭环交互机制：模型通过文本推理分析当前状态，输出空间点击指令，并观测交互式分割工具反馈的Mask，形成“感知-推理-行动”的闭环。

自主迭代：模型能够像人类专家一样，根据上一步的反馈主动进行自我纠错和调整，从而大幅提升分割精度。

两阶段训练方案：从模仿到超越

IBISAgent采用了独特的两阶段训练框架，确保模型既有扎实的先验基础，又能具备自主决策能力：

冷启动SFT：通过自动生成的推理轨迹（包括正常标注、错误自纠正等），构建了包含456K条样本的高质量数据集。这一阶段为模型建立了稳健的像素级推理先验。

Agentic强化学习：引入细粒度的奖励框架（如区域点击奖励与渐进式分割改进奖励），利用GRPO算法驱动模型自主探索更优的决策路径。实验证明，这种机制使得模型在交互效率与分割质量之间取得了极佳的平衡。

临床应用的未来展望

实验结果表明，IBISAgent在多项基准测试中大幅领先现有的对比方法，IoU指标提升显著，且在域外泛化能力上表现优异。这不仅证明了多轮交互式推理的价值，也为未来真实的临床辅助诊断系统提供了技术蓝图。

随着大模型技术（LLM）与AI医疗的深度融合，像IBISAgent这样的智能代理将成为医生强有力的助手。如果你想持续跟踪最新的AI资讯、大模型进展以及AGI前沿动态，欢迎访问 AIGC.BAR 获取更多专业深度内容。作为领先的AI门户，我们致力于为开发者和研究人员提供最新的AI新闻、提示词技巧以及行业前瞻，助力您的AI变现与技术实践。

总之，IBISAgent的出现标志着医学图像分析正在从“被动工具调用”向“主动智能决策”转型。在人工智能（AI）不断演进的今天，这种基于多步推理的Agent架构，必将在更多复杂场景中展现出巨大潜力。