浙大CVPR'26新作:破解多模态AI“盲目自信”,重塑大模型感知力丨AINEWS
type
status
date
slug
summary
tags
category
icon
password
网址

引言:多模态大模型为何总是“盲目自信”?
在人工智能领域,多模态大模型(MLLM)的推理能力日新月异,但一个致命的缺陷始终挥之不去:模型往往表现得过于“嘴硬”。即便输入图像已经模糊到不可辨认,模型依然会以极高的置信度给出一个错误的答案。这种现象被研究者称为“盲目自信”,是导致大模型产生幻觉和误判的核心根源。
针对这一痛点,浙江大学联合阿里巴巴、香港城市大学及密歇根大学的研究团队,在最新被 CVPR 2026 接收的论文中,提出了全新的 CA-TTS(Confidence-Aware Test-Time Scaling) 框架。该研究不仅揭示了模型“感知钝化”的本质,更通过“先校准置信度,再分配算力”的策略,显著提升了模型在复杂视觉推理任务中的表现。欲了解更多前沿 AI资讯,欢迎访问 AI门户。
揭秘“感知钝化”:模型真的看懂了吗?
研究团队进行了一项极具启发性的实验:将输入图像逐步加噪,观察模型的反应。实验发现,随着噪声增加,模型的准确率呈断崖式下跌,但其输出的置信度却几乎纹丝不动。
这种感知钝化(Perceptual Bluntness)意味着模型对视觉证据的质量变化缺乏敏感性。在 LLM 和 大模型 的应用场景中,这会导致模型在证据不足时依然强行推理。为了量化这一问题,研究团队放弃了传统的token级校准,转而采用响应级别的平均负对数概率(NMLP)来定义置信度,为后续的优化奠定了基础。
第一阶段:CDRL让模型学会“诚实”
为了修正模型的自信心,研究团队开发了 CDRL(Confidence-Driven Reinforcement Learning,置信度驱动强化学习) 模块。这一阶段的目标不是刷题,而是让模型学会对视觉证据保持“诚实”。
CDRL引入了双重奖励机制:
1. 感知敏感性奖励:强制要求模型在面对清晰图像和噪声图像时,表现出明显的置信度差异。
2. 校准一致性奖励:对“预测正确且自信”的行为给予奖励,而对“预测错误却自信”的行为进行严厉惩罚。
通过这种方式,模型不仅提升了对视觉退化的感知力,更建立起了与准确性高度挂钩的自我评估体系。在 AI新闻 报道中,这种让模型“知之为知之,不知为不知”的训练方法被视为通往 AGI 的关键一步。
第二阶段:CA-TTS将置信度转化为推理信号
在拥有了可靠的置信度后,如何将其转化为实际的性能提升?研究团队提出了 CA-TTS 框架,通过三个核心模块在推理阶段动态分配资源:
- Self-Consistency(置信度加权投票):不再简单地少数服从多数,而是赋予高置信度答案更高的权重。
- Self-Reflection(自我反思):当初始置信度不足时,引入专家模型作为“评论家”,引导基础模型重新审视路径。
- Self-Check(视觉自检):通过对比原始图像与噪声图像下的概率分布,验证答案是否真的依赖于视觉证据。
这种“多阶段验证闭环”确保了算力被精准投向那些模型不确定的难题上,而不是在简单问题上浪费资源。
实验结果:刷新多项视觉推理纪录
实验数据证明了这一范式的强大。在以 Qwen2.5-VL-7B 为基座的测试中,CA-TTS 在四个主流基准上全面达到 SOTA。特别是在 Math-Vision 任务中,准确率从 23.0% 暴涨至 42.4%,几乎实现翻倍。
更具深远意义的是 Test-Time Scaling 曲线的提升。相比于传统方法,CA-TTS 的扩展效率提升了 2 到 3 倍。这意味着在相同的算力投入下,CA-TTS 能换取更高的准确率增长。这为 人工智能 领域如何高效利用推理成本提供了新的范本。
结论:从“先推理”转向“先感知”
浙大团队的这项工作挑战了多模态研究的惯性思维。过去我们总是在强化模型的逻辑链条,却忽视了逻辑的起点——感知。CA-TTS 倡导的“先感知后推理”范式,为解决大模型幻觉问题开辟了新径。
随着 人工智能 技术的不断演进,如何让模型具备人类般的“自知之明”将成为下一阶段的竞争高地。如果你希望获取最新的 AI日报 或学习更多关于 Prompt 和 提示词 的优化技巧,请持续关注 AIGC.BAR。这一研究成果不仅是学术上的突破,更为 AI变现 和工业级视觉应用提供了更稳健的技术支撑。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)