LeCun炮轰Hinton:他认可LLM就是想摆烂退休了...

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
Lecun这次是真跟Hinton爆了……
Hinton之前从来没特别关注过LLM。结果2023年GPT-4出来,他突然跟顿悟了一样:
“天哪,这些模型已经非常接近人类智能了,它们可能有主观体验……”
对于这种转变,Lecun表示——
完全不认同,难以理解。
我感觉他就是想摆烂:“好了,这就是我们需要的,我可以宣布胜利了。”
“嗯嗯,我可以退休了。然后到处去做关于AI危险的演讲。”
紧接着,话锋一转,又把矛头指向了另一位图灵奖得主。
其实很多事情我早在几年前就说过,Hinton最近才意识到。
Bengio的情况类似。
这也是为什么Lecun在被主持人问到为何如此「另类」时,回答:
从来没有什么我和Hinton和Bengio分道扬镳,是他们变了。
既然要可汗大点兵,当然避免不了聊到老东家。
到了2024年初、尤其是2025年,FAIR已经不符合我认为保持创新、研究和突破所需要的条件了。
很多优秀的人都走了。
至于原因,Lecun说其实扎克伯格很好,领导层也都很支持他。只不过,Meta也卷入LLM竞赛后,实在没办法只顾着埋头做研究了。
对此,Lecun表示很遗憾。
因为在他看来,要获得突破性研究「其实很简单」。
就雇最好的人,这些人有嗅觉,知道该做什么。你给他们成功所需的资源,然后……
滚开,别挡路。
但主持人还是不太满意,一路刨根问底:为什么?为什么?为什么??
重点怀疑对象——亚历山大王。
主持人:
Scale AI的收购是不是这个纯LLM聚焦的催化剂之一?
LeCun的回答也很实在了,真是问啥说啥。
肯定是的。但我不确定我是否有足够的内部信息来评论。
扎克伯格可能在亚历山大王身上看到了某种接班人的影子,一个更年轻版本的自己。
除了这些,当然也保留了经典节目。
Lecun用带着点调侃的语气,再次向LLM阵营发起了挑衅。
JEPA类世界模型,五年内统治AI圈。(笑)
这是Lecun的最新一期播客专访,他跟主持人聊了快一个半小时,关于世界模型、JEPA、为什么离开Meta、为什么LLM走不到AGI……
好久没有这么逐字逐句地听访谈了,真有点力竭。
全程不敢跳过,全程无尿点,Lecun全程都在疯狂输出暴论:
• Anthropic在试图用恐惧来推动AI监管,我完全不认同这种做法。
• LLM永远不可能可靠,不是所有事情都是Coding。
• 模仿学习就是不行,连自动驾驶这一个任务都搞不定。
• 世界模型希望解决的,是zero-shot解决新任务
• 如果你在读PhD,别做LLM。没意义,你做不了贡献。
• 还有少数地方是真的在做研究,比如DeepMind。但整个行业越来越封闭了。
以下附上访谈全文。
为保证可读性,量子位在不改变原意的基础上,对内容做了部分调整。
Enjoy。
为什么LLM不是通往智能的路
主持人:你当年押注神经网络,所有人都在质疑你,结果证明你是对的。
现在你又在做一个类似的事情,押注against LLM和主流的生成式架构。
你最近还围绕这个方向创办了新公司AMI。AMI在做什么?
LeCun:首先我要说清楚,LLM没有什么问题。
LLM是很多非常有用的AI产品的基础,我自己也在用,它们很好,做它们该做的事情。
但LLM不是通往人类水平智能的路径,甚至不是通往动物水平智能的路径。
主持人:你自己还帮着做了最早一批主要的开源LLM。
LeCun:没错。所以AMI是什么?AMI代表Advanced Machine Intelligence,我们的定位是AI for the real world。
今天大家熟知的AI技术,擅长的是语言操作。
语言是很特殊的一种东西,它特别适合目前这些成功的架构。
但现实世界呢?是高维的、连续的、有噪声的、混乱的。难度完全不在一个量级。
这也是我大半个职业生涯在做的事情,过去五六年加速推进,最近两年取得了实质性进展。
到去年年底,很明显Meta已经不是推进这个项目的合适场所了,所以我离开并创办了AMI。
主持人:这似乎是一个行业趋势,越来越多的人从大公司或研究实验室出来,带着自己兴奋的研究方向创业。
LeCun:这确实是一个很奇怪的trade off。
有两种模式。一种是大量探索性研究,很多方向并行。然后某个东西好像work了,你需要继续推进,但它已经不是研究了。
做这些事的人是研究员——至少媒体这么叫他们——但实际上已经变成了工程和产品化。
这种事在Meta发生过好几次。
2023年初,FAIR开发的Llama 1非常有前景,Meta专门创建了Gen AI组织来把它变成真正的产品,后来出了Llama 2、Llama 3、Llama 4。
Llama 4有点令人失望,扎克伯格对此不满意,把整个组织重组了,换了新人。
但过去一年真正发生的事情是,Meta意识到自己落后了,于是把战略重新聚焦到追赶行业上。
副作用就是,大量的探索性研究被降低了优先级。
我做的JEPA和世界模型的工作倒没有受影响,但公司其他部分完全聚焦在LLM上了。
这让我很清楚,Meta不再是推进这个项目的合适地方。
我们有了初步成果,需要从研究转向真正的技术开发、规模化和产品化。
同时我们也意识到,大部分应用场景Meta其实不太感兴趣,比如制造业。
世界模型
主持人:你在追求世界模型这个大方向。但也有其他人从更偏生成式的角度切入世界模型,比如Google的Genie、各种视频模型,VLA,还有李飞飞做的3D空间模型……你怎么看JEPA模型和这些方法的比较?
LeCun:世界模型正在快速变成一个buzzword,在研究领域已经是了,在工业界也开始了。
VLA我就不多说了。这条路现在普遍被认为走不通了,不够可靠,需要的训练数据太多。
那什么是世界模型?从根本上说,世界模型就是让一个智能体能预测自己行为的后果。
我无法想象你怎么能构建一个agent系统,而这个系统没有预测自己行为后果的能力。如果人类不考虑后果就行动,别人会觉得我们是傻子。
所以世界模型就是这么回事,能够预测你自己行为的后果,你就可以规划一系列行动来完成一个任务、达成一个目标。
通过规划、推理、搜索和优化来做这件事,而不是像LLM那样一个token接一个token地自回归预测。你是在搜索一个能完成任务的最优行动序列。
LLM没有预测自己行为后果的能力,也没有真正的规划能力,因为推理就是预测下一个token,不是搜索。
所以,智能行为需要三个特征。
第一,预测行为后果的能力。
第二,通过优化和搜索来规划的能力,找到能产生正确结果的行动序列。
第三,就是你怎么预测行为的后果。
比如我面前有一个没有盖的水瓶。如果我推瓶子底部,它会在桌上滑动。如果我推瓶子顶部,它可能会翻倒。
但我们无法精确预测瓶子会往哪个方向倒。我们不可能在像素级别预测这些。
我们大脑中的世界模型,预测的是一个抽象层面的表征。
JEPA
主持人:这个架构的设计,很大程度上是受人脑启发的?
LeCun:至少是受认知科学的启发。能不能直接翻译成一个具体的神经网络架构,这中间有很大的gap。
认知科学确实是一个动机。心理学中的系统二就是这个意思,你在做深思熟虑的、反思性的行为时,会想象、预测自己行为的后果,然后据此规划。跟系统一那种本能的、反应性的行为不同。
所以有灵感来源,但也有大量的实证证据表明,你不应该去生成像素。
我对通过预测来建立世界模型这件事感兴趣很久了。
大约五年前有一个顿悟的时刻,我意识到所有成功学到了好的图像和视频表征的架构,都是非生成式的。
VAE,变分自编码器,或者更广义的自编码器,直觉上似乎是学习输入的抽象表征的自然方式。你把图像输入一个神经网络,训练它在输出端重建输入。
但如果你用一个大的神经网络直接这么做,什么有趣的事情都不会发生,它只是学到了恒等函数,完全没意义。
用VAE来学图像表征,能得到一些东西,但效果真的不好。稀疏自编码器也一样。
还有一类技术,叫denoising auto encoder,MAE是它的一个变体,BERT在NLP里也是类似的思路。你把图像损坏一部分,然后训练神经网络恢复原始图像。
FAIR曾经有一个大项目做这件事,投入了大量计算资源,结果非常令人失望。
但同时,一些相同的人和巴黎、纽约的其他人,在做另一套技术,用的是非生成式架构。
你拿一张图像,损坏它,把两个版本分别送入编码器,然后用一个预测器,从损坏版本的表征去预测原始版本的表征。
这就是JEPA。一个编码器对一个观察编码,另一个编码器对另一个观察编码,然后用一个预测器从第二个的表征预测第一个的表征。
当下具身模型的问题
主持人:现在很多机器人公司发布的demo越来越impressive,似乎展示了某种规划和推理能力,即使面对没见过的房间或任务版本也能执行。你怎么看?
LeCun:确实有真实的进展,有些demo确实令人印象深刻。但这些系统需要海量的数据来训练,要么通过遥操作采集,要么通过人手握着夹持器操作来收集……
主要靠模仿学习训练,加上一点在仿真中做的强化学习。
问题在于,模仿学习需要大量数据,而且对每个你想让机器人完成的任务都要单独收集数据,成本高、也比较脆弱。
而如果系统有一个世界模型,能预测动作的结果,它就可以直接规划行动去完成一个新任务,不需要专门为这个任务训练。
世界模型带来的泛化能力要大得多,用更少的训练数据就能覆盖更宽的任务谱。
任务之间确实有协同效应,你训练系统完成的任务越多,它学新任务需要的数据就越少。
但世界模型的希望是,能zero-shot解决新任务。目标是用很少甚至零训练数据就能解决大量问题,也许加一点RL风格的微调就够了。
人类完全有这个能力,很多动物也有。
一个17岁的孩子学开车只需要十几二十个小时。我们有几百万小时的驾驶数据,到现在还没有L5的自动驾驶。
模仿学习连自动驾驶这一个任务都搞不定。
主持人:有一种思路是用视频模型生成大量合成数据来做仿真,即使物理上不完美,也能改善机器人在真实世界的表现。你怎么看?
LeCun:还是那个问题,为什么17岁的孩子20个小时就能学会开车?
你不需要几百万小时的示范数据,也不需要合成数据。
如果我们破解了这个问题,就不需要生成数据了。
可能仍然需要在仿真中训练,但不需要现有系统所需的那种数据量和试错次数。
硅谷的羊群效应
主持人:一个有意思的点是,如果你是OpenAI,你知道某个东西继续scale就会继续变好,那从商业角度看,你并没有太大的动力去做数据效率更高的事情。
LeCun:其他公司也没有动力做不一样的事,谁都承受不起落后于对手的代价。这是一种硅谷的羊群效应,所有人都在挖同一条战壕。
这也是为什么我把AMI的总部设在了巴黎,美国办公室在纽约,不在硅谷。
主持人:你最兴奋的AMI技术的应用方向是什么?
LeCun:AI for the real world。家用机器人、L5自动驾驶。
主持人:我什么时候能有一个家用机器人?
LeCun:这还要好几年。尽管有大量公司在造机器人,但没有一家真正知道怎么让它们足够聪明。
主持人:也不能信任它们在有婴儿的家里工作。
LeCun:那肯定不行。即使是相对窄的制造业任务,靠模仿学习也只能处理少数几个任务,没有人真正知道怎么让它们可靠地工作。
短期来看,工业领域有海量的应用场景。
你需要一个智能系统能预测如果我改变这个复杂系统上的某个控制变量会发生什么。喷气发动机、化工厂、发电厂、生产线、人体、人体细胞……
这些系统复杂到无法用少数方程来建模,传统的建模方式行不通。
你需要做的是用深度学习从数据中训练出一个模型来捕捉这个系统的动态行为。得到的就是一个现象学模型。
如果它是action-conditioned的,那你就得到了一个这个系统的世界模型,可以用来做最优控制。
这类应用的数量是惊人的。
主持人:你觉得JEPA模型在接下来几年会发展到什么程度?
LeCun:五年吧。
五年内,完全统治世界。
主持人:好的,五年统治世界。(笑)
LeCun:开玩笑的。
这话是引用Linus Torvalds。当年有人问他Linux的目标是什么,他说total world domination。他确实做到了。
但我确实认为JEPA类世界模型就是未来智能系统的蓝图。
LLM还会有一小块位置,作为语言接口。
但我们在设计的是能思考的系统。它们一开始可能不会说话或听,但它们会思考,然后你可以在上面再加说话和听的能力。
主持人:你之前就有过这样的经历,在神经网络上做了一个极其逆共识的押注,最终被历史证明正确。
你觉得这次,在什么时间内,大家会意识到你又对了?
LeCun:我觉得会比预期来得更快。
很多人意识到VLA不行,LLM处理不了真实世界的数据。范式转换的认知正在发生。到2027年初,这会变得对所有人都完全显而易见。
Tapestry
主持人:换个话题,聊聊你在做的Tapestry。
LeCun:这个跟AMI Labs有点正交。
主持人:好像光AMI还不够你忙的。
LeCun:这是我过去三年左右慢慢形成的一个想法。
人们越来越多地使用AI助手来做各种事情,传统搜索引擎的使用量在下降,大家都直接问自己的AI助手。
如果Meta和其他公司开发的智能设备计划实现了,比如智能眼镜之类的,你基本上就是通过语音跟你的AI助手对话。你所有的信息获取都将由AI助手来中介。
那么问题来了。
如果你是中美以外国家的人,你用的AI助手是硅谷或者北京公司做的。其实不太好。
你说的语言,根本没有被认真对待。
你的文化,这些做AI的公司不理解。
你的价值观,在互联网上公开可用的训练数据里几乎没有体现。
怎么解决这个问题?
你需要一个平台,基于一个开放的、免费的基础模型,Llama那种风格的,任何人都可以微调,去适配特定语言、特定文化。
这就是Tapestry的核心。全球的贡献者参与训练一个全球模型,这个模型本质上是全世界知识和文化的存储库。
贡献者贡献的是数据和算力,同时保留对数据的控制权。他们不需要把数据分享给其他贡献者。他们贡献的是参数向量。
这是一种联邦学习的思路。
一堆数据中心,每个拿到一个全局共识模型的参数向量,可以把它理解为所有贡献者参数向量的平均。所有贡献者定期通过一个中心服务器交换参数向量。
本地worker在更新自己的参数时,同时尽量让它接近全局共识向量。随着训练推进,所有参数都收敛到一个共识模型,它就相当于在所有数据上训练出来的效果。
现在你有了一个开放模型,效果跟在全世界数据上训练过一样好。然后你可以针对自己的目的去微调。
我认为有一种自然的力量会推动这件事发生。
AI正在快速变成一个平台,平台有自然走向开放的趋势。
Linux就是这样,互联网的软件基础设施也是这样,无线网络也是这样。一开始都是私有的,后来全被开源替代了。
OpenAI就是下一个Sun Microsystems
主持人:这确实是一个很聪明的方式来对抗开源萎缩的趋势。很多人担心闭源模型越来越强,会被用来训练下一代,形成一种闭源的逃逸效应。
LeCun:还记得1996年互联网基础设施的大玩家是谁吗?
Sun Microsystems、HP、Dell。Sun给你搭配Solaris和他们的私有硬件,HP搭配HP-UX。
Unix比Windows可靠多了,你不会在Windows上跑web server。
但现在谁还在用Windows NT跑web server?全部被Linux干掉了。整个互联网跑在Linux上,连Azure都是,微软自己都是Linux。
所以今天的OpenAI、Anthropic,就是昨天的Sun Microsystems和HP-UX。
主持人:这背后隐含的是你对这些模型能力上限的判断,开源迟早能追上来。
LeCun:它们已经用完数据了。
公开可用的、有价值的文本数据已经全部用完了,没有更多了。这些公司在做的就是购买商业版权数据的授权,或者用合成数据训练。
主持人:但过去几年确实有一些impressive的结果,是在大规模预训练之后取得的。IMO金牌、各种benchmark持续提升。
LeCun:这个很有意思。
想想这两个领域,数学和代码。这两个领域的共同点是什么?
语言本身就是推理的载体。不是唯一的载体,但当你在纸上做形式化的数学推演时,你操作的就是语言,LLM在这上面确实很强。证明定理之类的,LLM很擅长。
但LLM不太擅长提出好的概念、好的定义。创造性的行为,LLM做不到。数学不只是解题,大部分其实是创造性行为。
代码也一样。
LLM是好的程序员,但不是软件架构师,不是计算机科学家。它们能帮我们写代码,但还替代不了人类。
它改变的是人类的角色。
人类现在往抽象层级上走一层,我们的工作是决定造什么,而造的过程可以让LLM帮忙。
主持人:LLM需要做到什么才能说服你改变看法?
LeCun:zero-shot的agenting。
给它一个全新的问题,它没有被训练过解决这个问题,没有针对它的脚本。它能不能完成这个从未训练过的任务?
除非这个系统有预测行为后果的能力,并且能用这个能力来做规划。
也许一个被大幅增强的LLM可以,加上了搜索和规划能力的那种。
目前做数学的LLM其实已经在做这件事了,它们搜索能完成特定任务的token序列,可以跑代码或验证证明是否正确,所以有一种方式来检查输出是否正确。
但这不是一种高效的规划方式,而且只在token空间里能做搜索的领域有效。
我说的JEPA,不是在token空间做这件事,是在抽象思维空间做。
主持人:可能有些听众会想,就算效率低,在token空间能work的事情已经覆盖了经济中很大一部分了。
LeCun:对。
LLM擅长什么就用它做什么,这完全没问题。
我只是说,它不是通往AGI的路。而通用AGI能覆盖的领域会相当巨大。
主持人:听起来你觉得LLM在成为软件架构师之前就会到达天花板。
LeCun:它不会到天花板。但它在越来越多的应用场景中部署起来会变得越来越困难,因为每个场景都要收集大量训练数据。
而且你没法让这些系统完全可靠,没有幻觉,没有危险行为。
为什么与Hinton和Bengio分道扬镳
主持人:你和另外两位图灵奖得主共享这份荣誉。但他们似乎对LLM的潜力,或者说潜在威胁和安全风险,看法完全不同。你们是什么时候开始分歧的?
LeCun:2023年。
主持人:什么驱动了这个分歧?
LeCun:不是我改了主意,是他们改了主意。
Hinton之前根本不这样,他从来没有特别关注过LLM。
结果2023年GPT-4出来的时候,他突然顿悟了:
天哪,这些系统已经非常接近人类水平的智能了,它们可能有主观体验。
我知道他的想法大概是这样的——
人类皮层大约有160亿个神经元。
如果你想做某种类似反向传播的事情,大脑不是直接做反向传播的,但如果它做某种梯度估计来优化某种目标函数,你大概需要一个几个神经元组成的电路来复现一个虚拟神经元的功能。
所以假设你需要10个真实神经元来复现一个反向传播神经元的功能,那你的皮层就只相当于16亿个神经元。
然后他推理得出:
天哪,GPT-4已经很接近这个数了!也许它会变得跟人一样聪明。
我完全不认同这个说法。
我感觉他就是想摆烂了,然后到处去做关于AI的希望和危险的演讲。
好了,我可以退休了,我可以宣布胜利了。
我一辈子都在寻找皮层的学习算法,也许我没有发现它到底是什么,但反向传播似乎是一个不...
Loading...

没有找到文章