百度王雁鹏:国产AI芯片突围万卡集群与MoE训练的核心逻辑 - AI新闻
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能技术飞速发展的今天,算力作为支撑AGI(通用人工智能)发展的基石,其重要性不言而喻。当国产AI芯片接连发布、估值高涨之际,行业内始终悬着一个尖锐的问题:这些芯片真的能撑起下一代万卡集群与万亿参数模型的训练吗?
虽然市场对英伟达替代方案有着迫切的期待,但在实际落地过程中,单纯的“算力数值”堆砌已不再是衡量芯片实力的唯一标准。百度智能云AI计算首席科学家王雁鹏在量子位MEET2026智能未来大会上提出的观点,为我们提供了一个全新的评估维度:评判国产芯片,必须看模型覆盖能力与集群规模能力。本文将结合最新的行业动态,深入解读这一核心逻辑,探讨国产AI芯片在大规模训练场景下的突围之路。
想要获取更多关于AI芯片、大模型及AGI的前沿资讯,欢迎访问 AINEWS 获取最新的AI日报与深度分析。
从单卡算力到系统级协同的思维转变
过去,我们往往过度关注芯片的单点峰值性能(TFLOPS),但这在实际生产环境中往往是个误区。王雁鹏指出,国产芯片的替代是一个渐进式的过程。在推理场景下,如百度昆仑芯已在搜索线上系统实现全量应用,但在大规模训练场景中,挑战才刚刚开始。
现在的Scaling Law(缩放定律)已经换了一个维度。不仅仅是模型参数的Scale,更是任务训练规模的Scale。这种变化带来了整个系统层面的复杂性:映射到硬件上,就是不同的尺寸、各种形状、不同的切分策略和并行策略。因此,能否稳定支撑从百亿到万亿参数、从稠密模型到MoE(混合专家)架构、从单模态到多模态的完整模型谱系训练,才是检验芯片成色的试金石。
挑战一:万卡集群的极致稳定性
大规模训练往往依赖于上万张显卡的同步系统。这是一个典型的“短板效应”场景:任何一张卡的故障或中断,都可能导致整个训练任务的重启。
如果100张卡的有效训练时间是99%,看似很高,但当这个概率线性扩展到一万张卡时,整个集群的可用性可能趋近于零。GPU本身就是高功耗、高晶体管密度的器件,故障率远高于CPU。为了解决这一问题,必须建立两套核心机制:
- 事前精细化监控:不能依赖芯片自身的报错。系统必须假设芯片随时可能变慢、精度异常或数据不一致,需要通过系统级手段提前定位“静默错误”,防止训练长期无法复现。
- 故障后的快速恢复:构建透明的Checkpoint(检查点)和快速恢复机制,确保无论故障率如何,都能避免大规模重算,将算力损失降到最低。
挑战二:打破通信瓶颈,实现线性扩展
拥有万卡集群并不等于拥有万卡算力。如果无法实现线性扩展,一万张卡的效能可能还不如两千张卡。
从百卡到千卡,再到万卡,网络通信的复杂度呈指数级上升。在千卡阶段,网络已不再对等,需要做亲和性调度。而在万卡阶段,面对PP(流水线并行)、TP(张量并行)、EP(专家并行)等多策略带来的流量竞争,必须进行芯片与网络的联合设计。
王雁鹏提出的核心逻辑是“XPU驱动的any to any通信”。即以XPU为核心,绕过CPU的干扰,直接驱动网络。针对不同流量设置不同优先级,从而在大规模扩展中实现最优的任务调度。
挑战三:MoE架构下的“小芯片搭大集群”
当前,MoE(混合专家模型)是延续Scaling Law的重要方向。它能在扩大参数规模的同时,不显著增加激活参数规模。然而,MoE对系统架构提出了新的挑战:模型参数更大、输入序列更长,导致通信占比显著提升。
这是否意味着国产芯片在MoE时代由于单卡性能差距而掉队?王雁鹏给出的答案是否定的。他认为,即便是参数激增的MoE模型,“小芯片搭大集群”的路径依然可行。
关键在于极致的通信优化与显存协同。通过系统级设计,让计算与通信Overlap(重叠),可以有效掩盖单卡性能的不足。对于多模态模型带来的异构数据计算问题,则需要通过动态的并行策略调度,让系统根据Workload自动寻找最优解,避免因同构拆分导致的MFU(模型算力利用率)低下。
结语:软硬结合是必经之路
回顾Google TPU的成功,很大程度上得益于其Gemini模型的强力证明——模型绑定硬件,硬件才能真正被生态接受。国产芯片要真正用起来,也必须走“软硬结合”的道路。
无论是百度的文心一言还是其他国产大模型,只有在国产芯片上跑出领先的效果,才能证明硬件的价值。正如王雁鹏所言,国产芯片的未来在于能否覆盖主流大模型体系,并经受住万卡规模的实战考验。
对于关注人工智能、LLM(大语言模型)以及AI变现的从业者来说,理解底层算力逻辑的变化至关重要。更多关于AI新闻、提示词(Prompt)技巧以及AGI发展的深度内容,请持续关注 AINEWS,我们将为您带来全球视野下的AI行业洞察。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)