PaDT模型革命:让AI大模型告别「猜坐标」时代
type
status
date
slug
summary
tags
category
icon
password
网址
引言:AI视觉理解的“最后一公里”难题
近年来,多模态大语言模型(MLLMs)的发展日新月异,从图文对话到视觉问答,其强大的能力令人惊叹。然而,在需要精确空间感知的任务上,如目标检测、图像分割等,即便是顶尖的LLM也常常显得力不从心。其根本瓶颈在于,现有模型大多采用一种间接且低效的方式来定位物体:将视觉目标的边界框“翻译”成一串文本坐标,例如
[489, 120, 600, 300]
。这种“说坐标”的方式不仅格式混乱、难以解析,更严重的是,数字在被分词器处理时会被拆解成独立的文本token(如“489”变成“4”、“8”、“9”),导致空间语义的割裂和丢失,最终引发重复生成甚至“幻觉”等问题。为了攻克这一人工智能领域的关键难题,颜水成院士团队联合多所顶尖机构,提出了一种颠覆性的统一范式——PaDT(Patch-as-Decodable Token),旨在让大模型实现真正的多模态表征输出,不再依赖“猜坐标”。
传统方法的困境:为何AI会「猜坐标」?
在深入了解PaDT之前,我们必须先理解传统MLLMs在处理精细视觉任务时面临的核心痛点。当模型被要求定位图像中的某个物体时,它本质上是在进行一场“翻译游戏”——将视觉空间信息强行编码为文本序列。这带来了三大难以逾越的障碍:
- 格式混乱与解析困难:不同模型输出的坐标格式五花八门,缺乏统一标准,给下游任务的解析和使用带来了巨大困难。
- 语义丢失与图文脱节:语言模型的分词器(Tokenizer)是为处理自然语言而设计的,当它处理数字坐标时,会将其拆分为无意义的独立字符,从而破坏了坐标作为一个整体的空间连续性。这导致模型生成的坐标token与图像中的实际区域关联性极弱。
- 效率低下与幻觉频发:逐个生成坐标数字的文本token序列,不仅效率低下,而且极易出错。由于缺乏对视觉空间的直接感知,模型很容易生成重复或完全错误的坐标,产生所谓的“视觉幻觉”。
这些问题共同指向一个事实:在文本空间内“模拟”视觉信息,是一条充满妥协且效率低下的路径。
PaDT的核心突破:从「说坐标」到「指图像」
PaDT的构想巧妙而直接:与其让模型费力地用语言“描述”位置,不如让它直接“指向”图像中的具体区域。
为了实现这一目标,PaDT引入了视觉参考令牌(Visual Reference Tokens, VRTs)。这些VRTs并非来自固定的文本词表,而是直接来源于当前输入图像的视觉块(patch)嵌入。在每次模型进行推理时,PaDT会动态地将当前图像的所有patch特征扩展到语言模型的词汇表中,形成一个临时的、图文一体的“动态嵌入表”。
这样一来,模型在生成内容时,其选择范围得到了极大的扩展。它不仅可以输出传统的文本token(如物体的类别名称“猫”),还可以直接输出一个或多个VRT(如
<VRT_227>
)。每一个VRT都唯一且精确地对应着输入图像中的一个特定局部区域。这种设计彻底打破了模态间的壁垒,实现了真正的图文统一预测。相比于一些依赖全局视觉码本的方法,PaDT的动态VRTs机制具有天然的优势:
* 唯一性:VRTs仅与当前图像绑定,从根本上避免了混淆不同图像中相似物体的问题。
* 空间一致性:由于VRTs直接源于图像patch,它们本身就蕴含了丰富的空间连续性信息。
实现机制:轻量解码器与鲁棒训练策略
拥有了能够“指向”图像的VRTs后,下一个问题是如何将这些“指针”转化为结构化的视觉输出,例如边界框(bounding box)或分割掩码(segmentation mask)。
为此,PaDT设计了一个极为轻量级的PaDT解码器。该解码器仅由三个双向注意力块构成,它接收大语言模型输出的VRT隐藏状态,并结合任务特定的可学习token(如box token、mask token),就能高效、统一地解码出目标的边界框、分割掩码和置信度分数。这种设计将复杂的视觉预测任务从LLM中解耦出来,既保留了LLM强大的语义推理能力,又赋予了其精准的空间输出能力。
更值得一提的是PaDT创新的训练策略。传统方法通常要求模型预测出目标区域内的所有前景patch,这不仅计算成本高,还容易导致过拟合。PaDT则另辟蹊径,在每次训练时,仅随机采样极少数(例如5个)前景VRTs作为监督信号。通过一种巧妙的掩码交叉熵损失函数,动态地屏蔽掉其他未被选中的VRTs的梯度,从而鼓励模型学会在不同的有效视觉参考点之间进行泛化。
这种“少而精”的监督方式,不仅显著提升了模型的泛化能力,还在推理时大幅降低了token的消耗,实现了效率与性能的双赢。
性能惊艳:3B模型如何超越78B巨无霸?
PaDT的实验结果堪称炸裂,充分证明了其范式的优越性。
- 指代表达理解(REC):在经典的RefCOCO/+/g基准测试上,仅有3B参数的PaDT Pro模型,其平均准确率高达93.6,成功超越了参数量是其26倍的78B巨无霸模型InternVL3(91.4)。
- 开放词汇检测(OVD):在极具挑战性的COCO开放词汇检测任务上,传统MLLMs的mAP普遍低于20,而PaDT Pro (3B) 一举将mAP提升至38.2,实现了近乎翻倍的性能飞跃,7B版本更是达到了39.0 mAP。
- 多任务泛化:通过联合训练多个视觉任务,PaDT Pro模型仅需通过不同的Prompt(提示词)即可在检测、分割、指代理解等任务间无缝切换,且性能普遍优于单任务训练的模型,展现了其作为通用视觉理解范式的巨大潜力。
这些成果清晰地表明,通过正确的架构设计,中等规模的模型完全有能力在特定任务上超越体量庞大的模型,为未来大模型的发展提供了新的思路。
结语:迈向真正的通用多模态智能
PaDT的诞生,是AI领域,特别是多模态人工智能发展的一个重要里程碑。它标志着MLLMs从“看图说话”的模糊理解,迈向了“指图说话”的精准感知。这一突破不仅在技术层面解决了长期存在的行业痛点,更在理念上启发我们:未来的通用人工智能(AGI),或许不应强行将所有信息都压缩到单一的文本空间,而是应该构建一个能让不同模态以其最自然、最原生的形式共存、交互与生成的统一框架。
这项工作的代码和模型均已开源,为广大研究者和开发者提供了一个探索下一代多模态智能的强大工具。对于希望紧跟AI新闻和前沿技术的爱好者来说,PaDT无疑是近期最值得关注的AI资讯之一。想要了解更多关于ChatGPT、Claude等大模型的最新动态和深度解读,欢迎访问AI门户网站 https://aigc.bar,获取每日AI日报和专业的行业洞见。
Loading...