浙大CVPR'26新作：破解多模态AI“盲目自信”，重塑大模型感知力丨AINEWS

type

status

date

slug

summary

引言：多模态大模型为何总是“盲目自信”？

在人工智能领域，多模态大模型（MLLM）的推理能力日新月异，但一个致命的缺陷始终挥之不去：模型往往表现得过于“嘴硬”。即便输入图像已经模糊到不可辨认，模型依然会以极高的置信度给出一个错误的答案。这种现象被研究者称为“盲目自信”，是导致大模型产生幻觉和误判的核心根源。

针对这一痛点，浙江大学联合阿里巴巴、香港城市大学及密歇根大学的研究团队，在最新被 CVPR 2026 接收的论文中，提出了全新的 CA-TTS（Confidence-Aware Test-Time Scaling） 框架。该研究不仅揭示了模型“感知钝化”的本质，更通过“先校准置信度，再分配算力”的策略，显著提升了模型在复杂视觉推理任务中的表现。欲了解更多前沿 AI资讯，欢迎访问 AI门户。

揭秘“感知钝化”：模型真的看懂了吗？

研究团队进行了一项极具启发性的实验：将输入图像逐步加噪，观察模型的反应。实验发现，随着噪声增加，模型的准确率呈断崖式下跌，但其输出的置信度却几乎纹丝不动。

这种感知钝化（Perceptual Bluntness）意味着模型对视觉证据的质量变化缺乏敏感性。在 LLM 和 大模型 的应用场景中，这会导致模型在证据不足时依然强行推理。为了量化这一问题，研究团队放弃了传统的token级校准，转而采用响应级别的平均负对数概率（NMLP）来定义置信度，为后续的优化奠定了基础。

第一阶段：CDRL让模型学会“诚实”

为了修正模型的自信心，研究团队开发了 CDRL（Confidence-Driven Reinforcement Learning，置信度驱动强化学习） 模块。这一阶段的目标不是刷题，而是让模型学会对视觉证据保持“诚实”。

CDRL引入了双重奖励机制： 1. 感知敏感性奖励：强制要求模型在面对清晰图像和噪声图像时，表现出明显的置信度差异。 2. 校准一致性奖励：对“预测正确且自信”的行为给予奖励，而对“预测错误却自信”的行为进行严厉惩罚。

通过这种方式，模型不仅提升了对视觉退化的感知力，更建立起了与准确性高度挂钩的自我评估体系。在 AI新闻 报道中，这种让模型“知之为知之，不知为不知”的训练方法被视为通往 AGI 的关键一步。

第二阶段：CA-TTS将置信度转化为推理信号

在拥有了可靠的置信度后，如何将其转化为实际的性能提升？研究团队提出了 CA-TTS 框架，通过三个核心模块在推理阶段动态分配资源：

Self-Consistency（置信度加权投票）：不再简单地少数服从多数，而是赋予高置信度答案更高的权重。

Self-Reflection（自我反思）：当初始置信度不足时，引入专家模型作为“评论家”，引导基础模型重新审视路径。

Self-Check（视觉自检）：通过对比原始图像与噪声图像下的概率分布，验证答案是否真的依赖于视觉证据。

这种“多阶段验证闭环”确保了算力被精准投向那些模型不确定的难题上，而不是在简单问题上浪费资源。

实验结果：刷新多项视觉推理纪录

实验数据证明了这一范式的强大。在以 Qwen2.5-VL-7B 为基座的测试中，CA-TTS 在四个主流基准上全面达到 SOTA。特别是在 Math-Vision 任务中，准确率从 23.0% 暴涨至 42.4%，几乎实现翻倍。

更具深远意义的是 Test-Time Scaling 曲线的提升。相比于传统方法，CA-TTS 的扩展效率提升了 2 到 3 倍。这意味着在相同的算力投入下，CA-TTS 能换取更高的准确率增长。这为 人工智能 领域如何高效利用推理成本提供了新的范本。

结论：从“先推理”转向“先感知”

浙大团队的这项工作挑战了多模态研究的惯性思维。过去我们总是在强化模型的逻辑链条，却忽视了逻辑的起点——感知。CA-TTS 倡导的“先感知后推理”范式，为解决大模型幻觉问题开辟了新径。

随着 人工智能 技术的不断演进，如何让模型具备人类般的“自知之明”将成为下一阶段的竞争高地。如果你希望获取最新的 AI日报 或学习更多关于 Prompt 和 提示词 的优化技巧，请持续关注 AIGC.BAR。这一研究成果不仅是学术上的突破，更为 AI变现 和工业级视觉应用提供了更稳健的技术支撑。