EMMA基准警示:多模态AI推理瓶颈凸显,AGI之路再添挑战 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
人工智能(AI)的浪潮正以前所未有的速度席卷全球,尤其是多模态大语言模型(MLLM)的崛起,让人们对通用人工智能(AGI)的实现充满了期待。然而,正如最新的ICML 2025 Spotlight研究成果——EMMA基准测试所揭示的,即使是顶尖的MLLM,在需要深度视觉与文本融合的复杂推理任务面前,也可能暴露出令人意外的“短板”。这一发现不仅为我们敲响了警钟,也为未来AI的发展指明了关键的突破方向。更多前沿AI资讯与深度解读,欢迎访问AI门户 https://aigc.bar

多模态AI的“阿喀琉斯之踵”:为何顶尖模型也失手?

想象一个物理问题:“三个点电荷 +Q、-2Q 和 +3Q 等距放置,哪个向量最能描述作用在 +Q 电荷上的净电力方向?”人类通过简单的受力分析草图便能轻松求解。但令人惊讶的是,即便是如GPT-4o这样的先进多模态大模型,也可能在理解“同性相斥”这样的基本物理原则时出错,错误判断力的方向。
这并非个例。EMMA(Enhanced MultiModal ReAsoning Benchmark)基准的出现,如同一面“照妖镜”,系统性地揭示了当前MLLM在进行真正意义上的多模态推理时所面临的困境。研究指出,即使是最先进的模型如Gemini-2.5-pro-exp-03-25,或具备视觉工具调用能力的o3/o4-mini模型,在EMMA上的表现也显著落后于人类专家超过20%。这表明,当前的大模型(LLM)虽然在文本处理和浅层视觉感知上取得了巨大进步,但在深度融合不同模态信息进行复杂推理方面,仍存在核心瓶颈。

EMMA基准:衡量“真”多模态推理的严苛标尺

为了更准确地评估MLLM的真实多模态推理能力,来自电子科技大学、中山大学等机构的研究者们推出了EMMA基准。它不仅仅是一个新的数据集,更是一套精心设计的“考题”,旨在挑战模型能力的极限。
EMMA的核心特点在于:
  • 真正的多模态融合:EMMA中的问题设计确保了答案必须同时深度依赖视觉信息(如图表、示意图)和文本信息(问题描述、逻辑条件),杜绝了仅靠单一模态或简单拼接就能解决问题的可能性。这考验了模型在不同模态间无缝切换与深度整合的能力,是衡量“真”多模态推理的关键。
  • 跨学科的严峻挑战:EMMA覆盖了数学、物理、化学和代码这四大核心科学与工程领域。这些领域的问题天然需要精确的逻辑演绎和领域知识运用,为MLLM提供了复杂且多样化的推理场景,全面评估其泛化能力。
  • 细粒度能力诊断:EMMA为每个学科下的具体技能(如数学中的“3D空间模拟”、物理中的“受力分析”)提供了细致分类。这种设计使得研究者能够精确分析模型在特定推理环节上的优势与不足,绘制出模型能力的“细粒度画像”,而不仅仅是一个笼统的得分。
与现有偏重“文本主导”或“浅层视觉感知”的基准不同,EMMA直指多模态推理的核心,为评估和推动下一代AI技术发展提供了坚实的基础。

EMMA揭示的关键发现:模型短板与核心挑战

通过在EMMA上对包括Qwen2-VL、LLaVA-Onevision、InternVL2等开源模型,以及GPT-4o、Claude 3.5 Sonnet (在本文的SEO优化语境下,我们可以畅想其后续版本如Claude 3.7的潜力)、Gemini系列等闭源模型的广泛测试,研究团队得出了一些发人深省的结论:
  • 整体表现堪忧:所有受测模型在EMMA上的表现均不理想,与人类专家存在巨大差距。这凸显了当前模型在解决需要深度、原生多模态推理任务上的普遍局限性。
  • 思维链(CoT)并非万能药:尽管思维链提示在纯文本推理中效果显著,但在EMMA的多模态挑战下,其对模型性能的提升有限。对于某些开源模型,CoT甚至可能产生负面影响,这可能与模型未能有效利用语言提示来辅助复杂的视觉空间推理有关。有效的提示词(Prompt)设计在多模态场景下依然任重道远。
  • 测试时计算扩展难补短板:通过增加候选答案数量(如多数投票、Best-of-N)等方式扩展测试时的计算资源,虽然能在一定程度上提升性能,但提升幅度有限,远不足以弥合与人类水平的根本差距。这表明,问题并非仅仅是计算量不足,而是模型核心能力的缺失。
  • 视觉推理是核心瓶颈:错误分析惊人地一致——MLLM常常在需要精确空间模拟、多跳视觉推理以及视觉与文本信息深度整合的任务上失败。尤其是在那些视觉辅助能够极大简化解题路径的问题上,模型的表现尤为不佳。这清晰地指出了,视觉推理能力的匮乏是当前多模态大模型最主要的性能瓶颈

EMMA数据集构建:严谨筛选与科学剖析

EMMA的构建过程体现了高度的严谨性和科学性。它包含从现有基准(如MathVision, MathVista等)中通过严格筛选流程(例如,过滤掉仅凭文本或“文本+图像描述”就能解决的问题)获得的992个问题,并与相关领域专家合作手动构建了1,796个全新问题,总计2,788个问题。
每个问题都经过精心设计和领域专家的严格审查或创建,确保其质量、相关性以及对多模态推理能力的真实考察。同时,问题被赋予了细致的技能标签,覆盖数学(如2D/3D变换、路径追踪)、物理(如场模拟、图表推理)、化学(如结构识别、反应模拟)和代码(如数据可视化相关的图表代码互选、基于目标图像修改代码)等多个方面,为深入分析模型能力提供了可能。

展望未来:迈向更强大多模态推理的AGI之路

EMMA的研究揭示了一个重要现象:人类专家在面对复杂问题时,倾向于借助简洁的手绘草图进行“视觉化思考和空间模拟”,而当前AI模型则更依赖详尽的、结构化的文本步骤进行推理。这种差异凸显了当前MLLM在处理多模态信息时,更偏向于运用其强大的语言逻辑能力,而较少展现出类人的、以视觉为核心的直观洞察和灵活高效的解题策略。
EMMA的出现及其揭示的挑战,为人工智能领域,特别是追求AGI的研究者们提供了宝贵的启示:
  1. 强化视觉推理能力:未来的模型研发必须更加重视视觉信息的深度理解和运用,开发新型的视觉与语言深度融合机制,而不仅仅是浅层的特征提取和对齐。
  1. 发展类人思考模式:探索如何让模型学会类似人类的“视觉化思考”和“空间模拟”能力,可能是提升其在复杂推理任务中表现的关键。
  1. 持续优化基准测试:EMMA是一个重要的里程碑,但对多模态能力的探索永无止境。需要持续开发更全面、更具挑战性的基准,以驱动AI技术的不断进步。
EMMA基准及其相关代码、数据集的全面开源(项目主页:https://emma-benchmark.github.io/),无疑将极大地推动社区在这一方向上的研究。

结论:正视挑战,砥砺前行

多模态大模型无疑是AI发展的重要方向,其潜力巨大。然而,EMMA基准如同一剂清醒剂,让我们认识到在通往真正智能的道路上,尤其是在需要深度多模态融合推理的复杂场景下,我们仍面临诸多挑战。正视这些由AI新闻和前沿研究所揭示的短板,并针对性地进行技术攻坚,特别是提升核心的视觉推理能力,是推动LLM和整个AI领域向更高层次——乃至实现AGI——迈进的关键一步。对AI技术真实能力的不断探索和评估,将是AI变现其巨大潜力的基石。
Loading...

没有找到文章