腾讯姚顺雨首篇论文发布:CL-bench揭示AI上下文学习的真实瓶颈
type
status
date
slug
summary
tags
category
icon
password
网址

引言:AI迈向高价值应用的“下半场”
在最近的AGI-Next前沿峰会上,原知名AI研究员、现腾讯混元团队成员姚顺雨提出了一个深刻的观点:大语言模型(LLM)若要真正迈向高价值的生产力应用,核心瓶颈在于能否“用好上下文(Context)”。这一观点在近日得到了学术界的进一步论证。
由腾讯混元团队与复旦大学联合发布的最新论文《CL-bench: A Benchmark for Context Learning》,正是姚顺雨加入腾讯后的首篇署名研究。该研究不仅提出了一个严苛的评测基准,更揭示了一个令人警醒的现状:即便我们通过提示词工程(Prompt Engineering)为模型提供了完美的参考信息,模型依然可能“视而不见”。这标志着人工智能的研究重心正在从单纯的参数规模竞赛,转向深度的上下文学习(In-Context Learning)能力建设。
了解更多前沿AI资讯与AGI进展,欢迎访问 AI门户。
从“做题家”到“实战派”:AI的学习范式需要重构
过去几年,我们见证了人工智能在奥数、编程和各类专业考试中大放异彩。然而,这些模型更像是背熟了课本的“做题家”。它们依赖的是预训练阶段压缩进权重的“参数化知识”。但在真实的办公或科研场景中,人类往往需要实时处理从未见过的文档、新发布的SDK或突发的实验数据。
人类的强大在于能够即时从环境中学习(Learning from context)。例如,开发者阅读一份全新的API文档后能立即写出代码,这依靠的是实时理解而非陈旧记忆。目前的大模型在这一维度表现欠佳。我们造出了依赖“过去”的推理者,但世界需要的是能吸收“当下”信息的学习者。
CL-bench:一把衡量“真才实学”的严苛标尺
为了精准量化模型从上下文中汲取新知识的能力,腾讯团队构建了 CL-bench。这个基准包含500个复杂上下文、近2000个任务以及超过3万个验证标准。其核心设计原则是“无污染”:所有任务所需的知识要么是全新构建的,要么是极其冷门的,确保模型无法通过回忆预训练数据来“作弊”。
CL-bench涵盖了四种现实世界的典型场景:
1. 新领域知识应用:如依据刚刚生效的法律条款进行案件评判。
2. 未知规则系统:如学习一门新设计的编程语言规范并编写程序。
3. 复杂产品工作流:在从未见过的软件框架中执行特定操作。
4. 归纳推理与规律发现:从300份原始实验日志中推导出物理常数。
这种深度的提示词测试环境,能够真实反映模型在处理复杂逻辑时的短板。
残酷的实验数据:即便是GPT-5.1也难言及格
实验结果出乎意料地严峻。在对十个顶尖LLM进行评测后发现,模型平均仅能解决17.2%的任务。即便是在行业内领先的GPT-5.1 (High),其任务解决率也仅为23.7%。
研究发现,导致失败的主因并非信息缺失,而是模型对上下文的“习惯性忽略”或“误用”。许多模型在面对明确的新规则时,依然固执地调用预训练时的旧知识。这说明,长上下文窗口(Long Context)只是基础,真正的挑战在于如何让模型在长序列中精准遵循指令并进行高效的归纳推理。
特别是对于需要从数据中总结规律的“归纳推理”任务,模型的表现普遍低于10%。这进一步证明了,让人工智能像科学家一样从观察中学习规律,远比让它应用既定规则要困难得多。
未来展望:从数据提供者转向上下文提供者
随着《CL-bench》的发布,AI行业的竞争焦点正在发生微妙的转移。在AI日报和最新的行业讨论中,专家们认为,未来人类在AI系统中的角色将发生质变:我们不再是单纯的训练数据搬运工,而是高质量“上下文”的构建者。
然而,还有一个亟待解决的挑战——上下文学习的“临时性”。目前模型一旦清空对话窗口,学到的知识就会消失。因此,2026年及以后的核心主题很可能是“记忆巩固”。我们需要新的架构,让模型能将从上下文中习得的经验、模式和技能持久化。
当上下文学习与持久化记忆结合,模型将实现真正的自主进化。这不仅是AI变现的新路径,更是通往通用人工智能(AGI)的必经之路。
结论
腾讯姚顺雨团队的这篇论文为我们敲响了警钟:大模型的“下半场”不是看谁的窗口更长,而是看谁能真正理解并利用好那几万字的上下文。对于关注chatGPT、claude等前沿工具的开发者和用户来说,理解这一转变至关重要。
持续关注大模型最新动态与AI新闻,请锁定 AIGC.bar,获取最专业的深度解读。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)