GLM-5技术报告深度解读：a16z盛赞的“最强开源模型”究竟强在哪？

type

status

date

slug

summary

引言：开源模型的新里程碑

近期，全球知名投资机构 a16z 发布的一张行业图表引发了广泛关注。在 Artificial Analysis Intelligence Index 的时间线上，智谱 AI 的 GLM-5 被标注在与闭源顶流 Claude Opus 4.6 近乎持平的位置。a16z 更是直接给出评价：虽然闭源模型依然领先，但开源模型与其之间的差距已大幅缩小，而 GLM-5 正是目前“最好的开源模型”。

随着 40 页完整技术报告的释出，我们终于得以窥见这款国产大模型背后的技术细节。从 744B 的庞大参数规模，到创新的 DSA 稀疏注意力机制，再到完全异步的 Agent RL 训练框架，GLM-5 不仅仅是参数量的堆砌，更是对现有大模型架构的一次深度进化。本文将为您深入解读这份报告的核心干货，并探讨其对未来 AI资讯 和 AGI 发展的深远影响。

核心架构：744B 参数下的极致效率

GLM-5 延续了主流的 MoE（混合专家）架构，其总参数量高达 744B，但在推理时仅激活 40B 参数。相比上一代 GLM-4.5，总参数量几乎翻倍，预训练数据量也从 23T token 增加到了 28.5T token。这种“大而精”的设计，使其在 LMArena（原 Chatbot Arena）的文本和代码竞技场中均位列开源第一。

在架构层面，GLM-5 引入了三大关键改动： 1. MLA + Muon Split：借鉴了 DeepSeek-V3 的多潜变量注意力（MLA）并进行了改进。团队研发了 Muon Split 技术，通过对每个注意力头单独进行正交化处理，解决了传统优化器在 MLA 上的性能瓶颈，确保了训练过程的稳定性。 2. 参数共享的 MTP（多 token 预测）：不同于常规的推测解码，GLM-5 在训练时使用 3 个共享参数的 MTP 层。这种设计在不增加推理内存开销的前提下，显著提升了 token 猜中率，平均接受长度达到了 2.76，超越了同类模型。 3. DSA 稀疏注意力：这是 GLM-5 最具突破性的创新。通过引入轻量级“索引器”进行动态 token 选择，GLM-5 仅需 20B token 的适配训练，就达到了其他模型需要近 1T token 才能训练出的效果，将长序列计算成本直接砍半。

后训练流程：从逻辑推理到 Agent 进化

GLM-5 的强大不仅在于基座，更在于其严密的后训练流水线。该流程涵盖了 SFT、Reasoning RL、Agentic RL 以及 General RL 等多个阶段。

特别值得关注的是其 Agentic RL（智能体强化学习） 框架。针对 Agent 任务执行时间长、环境差异大的痛点，智谱团队开发了一套完全异步的训练系统。通过推理端与训练端的物理分离，实现了 1000+ 并发任务的持续生成。为了保证训练不崩溃，团队引入了 TITO（Token-in-Token-out） 技术，确保了 token 级别的精确对应，避免了重分词带来的偏差。

此外，GLM-5 还设计了三种思考模式：交错思考、保留思考和轮级思考。这种灵活的思考机制让模型在处理简单对话时保持低延迟，而在处理复杂编程或多步搜索任务时展现出极高的逻辑严密性。

实战环境：万级可验证场景的磨砺

为了提升模型的实战能力，GLM-5 在超过 10,000 个 可验证的执行环境中进行了训练。这些环境覆盖了 Python、Java、Go 等 9 种主流编程语言，以及复杂的终端操作和搜索任务。

在处理搜索 Agent 任务时，GLM-5 展现了卓越的上下文管理能力。通过 Keep-recent-k 和 Discard-all 结合的分层策略，模型能够在执行多步搜索时有效折叠旧信息，保留核心证据。在 BrowseComp 基准测试中，GLM-5 取得了 75.9 的高分，不仅领跑开源界，甚至超越了许多顶级闭源模型。

国产芯片适配与未来展望

作为国产大模型的佼佼者，GLM-5 从设计之初就深度适配了包括华为昇腾、摩尔线程、海光在内的七大国产芯片平台。通过 W4A8 混合精度量化 和 融合算子 优化，即便是在国产算力平台上，也能流畅运行 750B 规模的超大模型。

GLM-5 的发布标志着开源模型正式进入了“千亿参数、万亿能力”的新阶段。它证明了通过架构创新和高效的强化学习，开源模型完全有能力在智能水平上比肩全球最顶尖的闭源产品。

对于关注 AI新闻 和 大模型 发展的开发者与企业来说，GLM-5 提供了一个极具竞争力的选择。如果您想了解更多关于 人工智能、提示词工程 或 AI变现 的前沿资讯，欢迎访问 https://aigc.bar，获取最新的 AI日报 与深度行业分析。

结论

GLM-5 技术报告的公开，不仅是智谱 AI 技术实力的展示，更是对全球 AI 社区的一次重要贡献。从 DSA 稀疏注意力到异步 Agent RL，这些技术细节为后续的 LLM 研究指明了方向。随着开源生态的不断壮大，我们有理由相信，AGI 的未来将更加开放与多元。