AI读脑新突破:上下文元学习实现零微调跨个体脑活动预测
type
status
date
slug
summary
tags
category
icon
password
网址

人工智能(AI)与神经科学的交叉融合正以前所未有的速度推动我们对大脑奥秘的理解。近日,一篇拟发表于顶级AI会议NeurIPS 2025的研究《Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex》引发了广泛关注。该研究提出了一种名为BraInCoRL(Brain In-Context Representation Learning)的创新模型,它利用上下文元学习技术,成功实现了在几乎不需要新数据微调的情况下,跨个体预测大脑对视觉刺激的神经响应。这一突破性进展不仅解决了传统脑编码模型高昂的数据成本问题,也为个性化神经科学和临床应用铺平了道路。想要紧跟AI前沿动态,欢迎访问AI门户网站 AIGC.bar。
脑科学的“个体化”困境与AI的破局之道
理解人类视觉系统如何表征世界,是神经科学的核心目标之一。科学家们通过构建大脑编码模型,试图从视觉刺激(如图像、视频)来预测大脑的神经活动(通常通过fMRI测量)。然而,一个巨大的挑战在于人脑的个体差异性。
尽管高级视觉皮层(如负责人脸识别的梭状回面孔区FFA)在不同个体间的位置大致相同,但其精细的功能组织却因人而异。这意味着,传统的编码模型必须为每一个新的研究对象(被试)采集海量的脑活动数据(通常需要数千张图像及其对应的fMRI扫描),然后进行独立的模型训练。这种“一人一模型”的范式成本极高、耗时漫长,严重限制了脑科学研究的规模化和在现实场景(如临床诊断、个性化治疗)中的应用。
现有方法虽然可以借助强大的预训练AI模型(如CLIP)提取图像特征,再通过线性回归拟合脑活动,但依然无法摆脱对大量个体化数据的依赖。当面对少样本甚至零样本的新个体时,这些模型便束手无策。
BraInCoRL的出现,正是为了打破这一瓶颈。它提出了一种全新的思路:不再为每个人单独训练模型,而是训练一个“学会如何学习”的元模型。
BraInCoL:上下文元学习的革命性应用
BraInCoRL的核心思想是将预测每个脑体素(voxel,fMRI成像的最小单位)的活动视为一个独立的“任务”。它巧妙地融合了元学习(Meta-Learning)和大型语言模型中流行的上下文学习(In-Context Learning, ICL)范式。
- 元学习视角:模型的目标不是学习某个特定体素的响应模式,而是学习一个通用的“推理算法”。这个算法能够从任何体素的少量样本数据中,快速推断出其独特的响应函数。
- 上下文学习实现:在预测阶段,模型仅需接收极少量新被试的“示例”数据(例如100张图像及其对应的脑活动),并将这些数据作为“上下文(Context)”。然后,模型就能利用在海量历史数据中学到的通用知识,直接为这个新被试生成定制化的脑编码器,而无需任何模型参数的微调。
其架构主要包含三个关键部分:
1. 冻结的图像编码器:使用如CLIP或DINO等先进的AI视觉模型,将输入的图像转换为高维特征嵌入。
2. 上下文Transformer:这是BraInCoRL的核心。它接收一系列“图像嵌入-脑活动”数据对作为上下文,通过自注意力机制(Self-Attention)整合这些信息,学习跨被试、跨体素的通用映射规律,并最终输出一个为特定体素“量身定制”的编码器权重。
3. 轻量化体素编码器:一个简单的线性层,它使用由Transformer生成的权重,来预测新图像会引发怎样的脑活动。
这种设计让模型在训练时就明确地优化其“看例子、学规律”的能力,从而在面对新个体时展现出惊人的适应性。
惊人的数据效率与泛化能力
BraInCoRL在多个公开fMRI数据集上进行了严格的实验验证,结果令人瞩目。
- 极高的数据效率:在著名的Natural Scenes Dataset (NSD) 数据集上,BraInCoRL仅使用100张图像作为上下文,其预测准确度就达到了使用9000张图像进行全量训练的传统模型的水平。相比之下,在同样只有100个样本的情况下,传统方法的性能则远远落后。这证明了BraInCoRL在数据利用效率上的巨大优势。
- 强大的跨数据集泛化:更令人印象深刻的是,当将在一个数据集(NSD,使用7T扫描仪)上训练好的模型,直接用于另一个完全不同的数据集(BOLD5000,使用3T扫描仪和不同刺激)时,BraInCoRL依然表现出色。这表明该模型不仅能跨个体泛化,还能跨扫描设备、跨实验协议泛化,具备极强的鲁棒性。
解锁大脑的可解释性与交互新范式
除了强大的预测能力,BraInCoRL还为我们提供了一个探索大脑功能组织的全新窗口。
- 功能聚类可视化:通过对模型生成的体素编码器权重进行降维可视化(如UMAP),研究人员发现,不同功能的脑区(如负责人脸、场景、身体、食物的区域)在特征空间中形成了清晰的、分离的簇。这种聚类模式在不同被试间高度一致,直观地揭示了大脑高级视觉皮层的功能组织结构。
- 语言驱动的大脑探索:结合CLIP的多模态能力,BraInCoRL甚至可以实现用自然语言来“探查”大脑。研究者只需输入一段文本描述(如“一张人脸的照片”),CLIP就能将其转换为图像嵌入,然后BraInCoRL便可零样本预测出当大脑看到符合该描述的图像时,整个视觉皮层的激活模式图。这为研究语义表征在大脑中的分布提供了前所未有的便捷工具。
结论:迈向通用脑编码模型的重要一步
BraInCoRL首次将上下文学习(In-Context Learning)成功引入计算神经科学领域,构建了一个无需微调、数据高效、可解释且支持语言交互的通用视觉皮层编码框架。它将构建高精度个体化脑模型的门槛从数千样本降低至百余样本,极大地加速了脑科学研究的进程。
这一成果不仅是AI技术在基础科学领域应用的典范,也为未来的临床神经科学开辟了新的可能性。在癫痫、抑郁症等疾病的神经标志物研究,以及脑机接口的个性化解码等数据受限的场景中,BraInCoRL展现出巨大的应用潜力。随着人工智能(AI)和大型语言模型(LLM)的不断发展,我们有理由相信,通向理解和解码人类大脑的道路将变得更加清晰。更多关于AI、AGI和Prompt工程的最新资讯,请持续关注 AIGC.bar。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)