医学影像分割新突破:浙大与上海AI Lab联手打造IBISAgent
type
status
date
slug
summary
tags
category
icon
password
网址

在医学影像分析领域,精准的病灶分割是临床诊断的关键。然而,长期以来,多模态大模型(MLLM)在处理这一任务时始终面临“单次推理”的局限性。近日,浙江大学蔡钰祥教授团队与上海人工智能实验室联合发表的IBISAgent框架,为这一难题提供了创新的解决方案,并成功入选CVPR 2026。
传统医学分割范式的困局
人类专家在进行医学图像标注时,往往是一个“观察-思考-点击-验证”的动态过程。现有的医学多模态大模型大多采用“输入图像,直接输出Mask”的单次前向推理模式,这种方式在面对细微病灶和复杂解剖结构时,极易出现定位偏差。
更严重的是,为了赋予模型分割能力,现有方法普遍采用引入隐式分割token(如<SEG>)并进行联合微调的策略。这种做法无异于“杀鸡取卵”,不仅破坏了语言模型原本的推理空间,还导致了灾难性的遗忘现象,使得模型在复杂视觉推理上的表现大打折扣。
IBISAgent:重构多步视觉决策过程
针对上述问题,IBISAgent将医学分割重新定义为一个多步马尔可夫决策过程(MDP)。其核心创新在于:
- 抛弃隐式token:完全剔除不必要的模型组件,利用模型内在的视觉推理能力,实现端到端的分割与精化。
- 闭环交互机制:模型通过文本推理分析当前状态,输出空间点击指令,并观测交互式分割工具反馈的Mask,形成“感知-推理-行动”的闭环。
- 自主迭代:模型能够像人类专家一样,根据上一步的反馈主动进行自我纠错和调整,从而大幅提升分割精度。
两阶段训练方案:从模仿到超越
IBISAgent采用了独特的两阶段训练框架,确保模型既有扎实的先验基础,又能具备自主决策能力:
- 冷启动SFT:通过自动生成的推理轨迹(包括正常标注、错误自纠正等),构建了包含456K条样本的高质量数据集。这一阶段为模型建立了稳健的像素级推理先验。
- Agentic强化学习:引入细粒度的奖励框架(如区域点击奖励与渐进式分割改进奖励),利用GRPO算法驱动模型自主探索更优的决策路径。实验证明,这种机制使得模型在交互效率与分割质量之间取得了极佳的平衡。
临床应用的未来展望
实验结果表明,IBISAgent在多项基准测试中大幅领先现有的对比方法,IoU指标提升显著,且在域外泛化能力上表现优异。这不仅证明了多轮交互式推理的价值,也为未来真实的临床辅助诊断系统提供了技术蓝图。
随着大模型技术(LLM)与AI医疗的深度融合,像IBISAgent这样的智能代理将成为医生强有力的助手。如果你想持续跟踪最新的AI资讯、大模型进展以及AGI前沿动态,欢迎访问 AIGC.BAR 获取更多专业深度内容。作为领先的AI门户,我们致力于为开发者和研究人员提供最新的AI新闻、提示词技巧以及行业前瞻,助力您的AI变现与技术实践。
总之,IBISAgent的出现标志着医学图像分析正在从“被动工具调用”向“主动智能决策”转型。在人工智能(AI)不断演进的今天,这种基于多步推理的Agent架构,必将在更多复杂场景中展现出巨大潜力。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)