微软清华联手BiPS:一拉一推根治AI看图幻觉,迈向AGI关键一步

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在当今的AI资讯大模型发展浪潮中,视觉-语言模型(VLM)的推理能力看似突飞猛进,但用户常常会发现一个令人啼笑皆非的现象:AI经常“一本正经地胡说八道”。在处理复杂的图表、几何题或医学影像时,模型虽然能识别出物体,甚至给出一套看似完美的推理逻辑,但最终答案却是错的。
这背后的核心症结往往被忽视:很多时候,不是AI“想”错了,而是它一开始就“看”错了。
为了解决这一顽疾,微软亚洲研究院与清华大学联合提出了一项名为BiPS(Bi-directional Perceptual Shaping)的创新技术。不同于以往在推理阶段打补丁的方法,BiPS主张在训练阶段就教会模型“怎么看”,通过独特的“一拉一推”机制,让人工智能真正具备了类似人类的视觉聚焦能力。作为关注AGI进程的AI门户aigc.bar 将带您深入解读这项可能改变VLM发展路径的技术。

视线错位:为什么AI总是“看”不到重点?

我们往往被大模型流畅的语言生成能力所迷惑,误以为它真的理解了图像内容。然而,人类的视觉是“目标驱动”的——当我们看股票K线图时,会盯着拐点;看几何题时,会关注角标。但目前的VLM大多停留在“打标签”的阶段。
现有的解决方案通常是在推理阶段给AI装上“外挂”,比如通过画框、遮挡或提示词来告诉模型看哪里。但这种方法存在明显的局限性:
  • 世界不是矩形的:关键的视觉证据往往是不规则的(如折线图的走势、散落的噪点),标准的矩形框很难精准覆盖。
  • 难以迁移:针对某个任务调教的提示词,换个场景就失效了。
  • 效率低下:在推理阶段增加视觉处理步骤,不仅拖慢速度,还容易让错误在推理链中放大。
BiPS团队意识到,必须从源头解决问题:让模型在训练阶段就内化“带着问题看图”的能力,而不是依赖外部提醒。

BiPS的核心逻辑:从“推理补救”转向“训练内化”

BiPS(双向感知塑形)的核心理念在于彻底改变模型的训练方式。它不再教模型“图里有什么”,而是教模型“为了回答这个问题,哪些视觉细节是必须关注的,哪些是可以忽略的”。
这种训练范式让模型产生了一种本能:当面对特定的Prompt(提示词)或问题时,自动聚焦于决定答案的关键区域。这正是通往更高级AGI视觉理解的必经之路。

“一拉一推”:重塑模型视觉的双重机制

BiPS之所以有效,归功于其设计的互补机制——“一拉”与“一推”,这使得模型既能看全证据,又能精准定位细节。
1. “拉”回正轨(Evidence-Preserving):看全必要信息
真实的视觉任务往往依赖分散的证据链。例如,解读一个图表可能同时需要看图例颜色、坐标轴刻度和标题。BiPS通过构建“证据保留视图”,系统性地剔除图像中的干扰信息,只保留回答问题所需的视觉元素。
这就像是把模型从嘈杂的背景中“拉”回来,强迫它基于一个信息量更少但结构完整的视图来输出正确答案。这确保了模型不会遗漏任何一个关键环节。
2. “推”向细节(Evidence-Ablated):精准识别关键
仅仅“看全”还不够,模型可能会偷懒,利用语言概率去猜答案。为了防止这种情况,BiPS引入了“证据消融视图”。
系统会精准地移除决定答案的那个微小细节(例如擦除图表中的某一段折线)。此时,训练目标反转:一旦关键证据消失,模型必须“拒绝”原来的答案。这是一种“反事实”训练——它“推”着模型去确认:如果我看不到这个细节,我就不能得出那个结论。

以图表为师:13K样本带来的跨越式提升

为了训练这种精细的视觉能力,BiPS团队选择了图表作为训练场。图表具有高密度、细粒度的特点,且可以通过程序精准控制每一个元素(如刻度、线条、标记)。
令人惊讶的是,这项技术并不需要海量数据。仅使用了13K条图表样本进行微调,BiPS就在8个不同的评测基准上实现了显著的性能提升。
  • 跨任务迁移:模型不仅在图表理解上变强了,在通用的视觉问答(如MMStar)和数理逻辑推理(如MathVision)上也取得了进步。
  • 性能飞跃:以Qwen2.5-VL-7B为底座,平均准确率提升了7.3%。
这证明了BiPS学到的不是某种特定的解题技巧,而是一种通用的、可迁移的视觉感知能力。

结论:让AI的眼睛真正“亮”起来

BiPS技术的出现,揭示了大模型视觉能力进化的新方向:从被动的图像扫描,转向主动的、问题驱动的精准聚焦。对于关注AI变现和应用落地的开发者而言,这意味着未来的视觉应用将更加可靠,不再需要复杂的提示词工程来修正模型的视线。
随着类似BiPS这样的技术不断成熟,我们离真正的通用视觉智能又近了一步。想要获取更多关于LLMOpenAI动态以及前沿技术解读,请持续关注 aigc.bar,我们为您提供最新鲜的AI新闻和深度分析。
Loading...

没有找到文章