AI顶流激辩罗生门:预训练与大模型未来 | AI新闻

type
status
date
slug
summary
tags
category
icon
password
网址
人工智能(AI)的浪潮正以前所未有的速度席卷全球,AGI(通用人工智能)的梦想似乎也日渐清晰。然而,在这股热潮之下,关于技术路径选择的“罗生门”事件频发,共识与非共识的激烈碰撞成为行业常态。近期,三位顶流AI技术人——Sand.AI创始人曹越、阿里通义千问技术负责人林俊旸以及香港大学助理教授孔令鹏,在一场罕见的同台对话中,深入探讨了当前AI行业,特别是大模型(LLM)领域最大的“罗生门”:预训练是否还是王道?这场讨论不仅揭示了技术前沿的深度思考,也为我们理解AI的未来走向提供了宝贵视角。想要获取更多此类深度AI资讯和行业AI新闻,欢迎访问AI门户网站 https://aigc.bar。

预训练:从“王道”到“罗生门”的行业反思

曾几何时,模型预训练被奉为AI领域的“第一性原理”,是通往更强大模型的必经之路。2023年,这一观念仍是行业强共识。然而,风向在悄然转变。从OpenAI前首席科学家Ilya公开表示“预训练已走到尽头”,到聚焦强化学习的DeepSeek R1异军突起,似乎都在宣告预训练的黄金时代已过。
这场关于预训练的“罗生门”,核心在于其价值的重新评估。阿里通义千问的林俊旸在讨论中透露,尽管外界有声音认为千问在模型架构上“保守”,但他们对预训练的态度并非一成不变。他强调:“我们还有好多数据没放进(千问),放一次提升一次。”这表明,至少在数据层面,预训练的潜力尚未完全挖掘。这场争论也促使我们思考,在追求AGI的漫漫征途中,预训练究竟扮演着基石、过渡,还是仅仅是众多可选路径之一的角色?这需要我们持续关注最新的AI日报和研究进展。

Transformer的“神话”:坚守、魔改与创新边界

自Transformer架构问世以来,它便奠定了现代大模型(如chatGPT、claude等)的基石。林俊旸坦言,阿里在研发千问大模型的过程中,曾多次尝试“魔改”Transformer架构,但最终发现其依然是“最优解”。这种对核心架构的坚守,反映了Transformer的强大生命力。
然而,创新并未停滞。曹越和孔令鹏的实践则代表了另一种思路——拥抱“非共识”的跨界创新。曹越将语言模型中主流的自回归(Auto Regressive)路线创造性地应用于视频模型训练,实现了生成视频长度的无限扩展。孔令鹏则反其道而行之,将多模态领域主流的Diffusion Model架构应用于语言模型研发,其参与的Dream 7B模型以仅7B的参数量,在多项任务上超越了参数量远大于它的模型。这些探索启示我们,在成熟架构之上,如何巧妙地引入先验知识(Prior),平衡模型偏差(Model Bias)与数据偏差(Data Bias),是拓展AI创新边界的关键。

MOE与Diffusion:AI架构“非共识”赛道的潜力股

在寻找“非共识”的道路上,MoE(Mixture of Experts,混合专家模型)和Diffusion(扩散模型)架构展现出巨大潜力。
林俊旸提到,阿里早在2021年的M6模型时期就开始探索MoE,并认为这是一条值得持续投入的路径,因为它有望实现模型效果与效率的平衡,甚至无限上下文。DeepSeek在MoE稀疏比(激活专家与总专家数量之比)上的大胆尝试也给行业带来了惊喜。尽管MoE在训练稳定性、长序列任务表现上仍面临挑战,但其潜力不容小觑,尤其是在AI变现压力日益增大的今天。
另一方面,孔令鹏团队的Dream 7B则证明了Diffusion模型在语言任务上的可行性,特别是在数学、代码及推理等任务上表现优异。这打破了传统认知,为LLM的架构选择开辟了新思路。当然,Diffusion LLM在通用能力上仍有提升空间。这些“非共识”架构的探索,无疑为未来AI发展注入了更多可能性。

“非共识”的代价与回报:AI创新的高风险牌局

从“信仰强共识”到“寻找非共识”,是当前AI行业的一个显著转变。曹越和孔令鹏的成功,正是拥抱非共识并取得突破的生动案例。然而,正如林俊旸所言,阿里通义千问并非外界所见的“保守”,而是“做了一大堆实验后失败了”,这道出了探索非共识背后高昂的试错成本。
“现在每一次下赌注,成本变得越来越高。”这句话精准地描绘了AI研发的现状。无论是大厂还是初创企业,在选择技术路径时都面临着巨大的不确定性和投入压力。如何设计有效的提示词(Prompt)来充分发挥模型潜力,如何平衡模型结构对预训练和强化学习的友好度,都是摆在研发者面前的难题。这场高风险的牌局,考验着每一个参与者的智慧与勇气。

结论:在“罗生门”中寻找AI的未来

三位顶流技术人的对话,为我们揭示了AI行业在技术路径选择上的复杂性与动态性。所谓的“罗生门”,并非简单的非黑即白,而是多元探索与持续迭代的过程。预训练的价值被重新审视,Transformer的边界在不断拓展,而MOE、Diffusion等新兴架构则带来了新的希望。
对于AI从业者和爱好者而言,这个时代充满了挑战,也充满了机遇。重要的不是固守某一种“共识”,而是保持开放的心态,积极拥抱变化,勇于探索“非共识”中蕴藏的创新火花。关注行业动态,理解不同技术路线的优劣与潜力,才能更好地把握AI发展的脉搏。
想了解更多关于AI、LLM、大模型、AGI的前沿动态和深度分析,以及如何利用AI进行变现的实用技巧,请持续关注AI门户 https://aigc.bar,我们将为您带来最新、最全面的AI资讯与AI新闻。
Loading...

没有找到文章