LVLM推理提速2.9倍!腾讯VScan无损剪枝,让大模型看得快又准

type
status
date
slug
summary
tags
category
icon
password
网址

引言:当大模型遇上“视觉爆炸”

随着人工智能(AI)技术的飞速发展,大型视觉语言模型(LVLM)正以前所未有的能力处理日益复杂的视觉任务。从高清图像理解到长视频分析,LVLM让我们离通用人工智能(AGI)的梦想更近一步。然而,这份“看得更清、更广”的能力也带来了沉重的代价:视觉Token数量的爆炸式增长,正让模型推理变得不堪重负,算力成本急剧攀升。简单来说,模型“看得越多,算得越慢”,这已成为多模态AI落地应用的最大瓶颈。
为了破解这一难题,腾讯AI Lab与CMU联手推出了一种名为VScan的创新解决方案。该方法通过一套精妙绝伦的双阶段视觉Token剪枝机制,在几乎不损失模型性能的前提下,实现了高达2.91倍的推理加速。更重要的是,它无需修改模型架构、无需重新训练,是一种即插即用的通用方案。本文将深入解读VScan背后的核心思想、技术细节及其对整个AI领域的深远影响。想要获取更多关于AI、大模型、LLM的前沿AI资讯和深度解析,欢迎访问AI门户网站 https://aigc.bar

传统剪枝的困境:为何“一刀切”行不通?

在VScan出现之前,业界已经探索了多种视觉Token剪枝方法,旨在剔除冗余信息以提升效率。这些方法主要分为两大流派,但都存在明显的局限性。
1. 文本无关(Text-agnostic)剪枝:只见树木,不见森林
这类方法在视觉编码阶段,仅根据图像本身的特征(如视觉显著性)来决定保留哪些Token。它们通常关注模型输出层的注意力,认为注意力高的区域就是重要的。然而,研究发现这种策略过于短视。它倾向于保留图像中的主要物体(如人物、建筑),却常常忽略那些看似不起眼但对理解任务至关重要的背景细节。例如,在回答“图片里的人在用什么做饭?”时,模型可能将注意力集中在“人”和“墙”上,却忽略了关键的“锅”,导致回答错误。这证明,仅凭最后一层的“快照”来判断Token价值,会丢失大量深层网络才能理解的上下文信息。
2. 文本相关(Text-aware)剪枝:时机未到,操之过急
另一类方法则试图在语言解码的早期阶段,根据文本指令来筛选视觉Token。这个想法听起来很合理——尽早去掉与问题无关的视觉信息。但实证研究揭示了三大意外问题:
  • 位置偏置:在解码初期,模型注意力容易受到Token位置的影响,倾向于关注空间上离文本指令更近的视觉区域,而非内容上真正相关的区域。
  • 交互不足:模型在解码的早期层主要处理文本信息,对视觉信息的理解尚浅,此时进行剪枝,无异于在模型“看清楚”之前就让它做选择,容易“误伤友军”。
  • 决策不稳:模型的最终输出决策是在解码的中后段才逐渐稳定。过早剪枝会干扰后续的多模态融合过程,影响最终答案的准确性。
这些研究共同指向一个结论:有效的视觉剪枝,必须超越单一阶段的局部视角,系统性地理解视觉信息在整个推理流程中的动态价值。

VScan核心揭秘:双阶段协同剪枝的艺术

深刻理解了传统方法的不足后,VScan提出了一套全新的双阶段剪枝框架,完美结合了视觉编码和语言解码两个过程的特点,实现了精准而高效的“无损”压缩。
第一阶段:视觉编码“初剪”——兼顾全局与局部
在视觉编码器中,VScan进行第一轮粗筛。它不再只看最后一层,而是采用了“全局+局部”双扫描机制:
  • 全局扫描 (Global Scan):借鉴传统方法,从模型最后一层提取具有高层语义信息的关键Token,确保图像的“主角”和核心概念被保留。
  • 局部扫描 (Local Scan):回到模型的浅层,在不同的图像窗口内挑选细节最丰富的Token。这确保了那些容易被全局注意力忽略的、决定成败的关键细节(如小物体、纹理)得以保留。
通过合并这两部分Token,VScan构建了一个既有宏观语义又包含微观细节的精简视觉集合。同时,它还创新地引入了相似性引导的融合策略,将被剪掉的Token信息“融入”到语义最相近的保留Token中,实现了“剪”与“补”的结合,最大化信息密度。
第二阶段:语言解码“精剪”——在最佳时机出手
经过第一轮压缩后,VScan在语言模型解码阶段进行第二轮、也是更精细的一轮剪枝。与以往不同,VScan将剪枝时机巧妙地选择在解码的中间层
这正是模型完成初步文本理解,开始与视觉信息进行深度交互的“黄金窗口”。在这一阶段,VScan根据视觉Token与当前文本指令的注意力强度,筛选出与任务真正相关的视觉信息。这既避开了早期解码的位置偏置问题,又确保了所有对最终决策有价值的跨模odal信息都被充分利用,实现了真正意义上的“智能剪枝”。

惊艳的效果:速度与精度的完美平衡

VScan的有效性在多个主流LVLM(如LLaVA、Qwen2.5-VL)和横跨图像问答、视频理解、视觉定位等16个基准测试中得到了全面验证。
  • 极致加速与压缩:在LLaVA-NeXT模型上,VScan实现了高达2.91倍的推理加速,同时显著压缩了KV Cache的显存开销,对资源受限的部署环境极为友好。
  • 性能几乎无损:即便在高达88.9%的极端压缩率下(将576个视觉Token压缩至64个),LLaVA-1.5模型的平均准确率仅下降了约3.3%,在保留128个Token时,性能损失更是低至1.2%,几乎实现了“无损”剪枝。
  • 任务通用性强:在对空间细节要求极高的视觉定位任务中,其他方法性能可能“腰斩”,而VScan在75%的剪枝率下依然保持了超过80%的原始性能,展现了强大的鲁棒性。
  • 工程部署友好:VScan无需重新训练,原生兼容FlashAttention等高效注意力机制,可以作为“插件”无缝集成到现有工作流中,极大降低了工程成本。

结论:为多模态AI的规模化应用铺平道路

VScan的提出,不仅仅是一次技术上的突破,更代表了我们对多模态模型内部工作机制的深刻理解。它通过创新的双阶段协同剪枝范式,优雅地解决了视觉信息爆炸带来的算力难题,在速度、成本和性能之间找到了一个绝佳的平衡点。
这项研究为未来更强大、更高效的LVLM开发指明了方向,也为AI技术在实时交互、边缘计算等场景的广泛应用扫清了障碍。随着像VScan这样高效、通用的优化工具不断涌现,我们有理由相信,一个真正“看得快、看得准、看得懂”的多模态AI时代正加速到来。更多关于人工智能、Prompt工程、AI变现的最新动态和深度分析,尽在AI门户 https://aigc.bar
Loading...

没有找到文章