DeepSeek Model 1代码曝光:继R1后的下一代旗舰V4解析
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能飞速发展的今天,距离DeepSeek(深度求索)正式发布DeepSeek-R1模型已经过去了一整年。回顾2025年1月20日,R1的问世开启了开源LLM的新时代,并在Hugging Face上成为了获赞最多的模型之一,被誉为“DeepSeek时刻”。
然而,技术迭代的脚步从未停歇。就在R1发布一周年之际,敏锐的开发者和AI资讯观察者们发现,DeepSeek的新动向已在GitHub上悄然现身。在其FlashMLA代码库的最新更新中,一个代号为“Model 1”的神秘模型频繁出现,引发了社区的广泛猜测。这不仅仅是一次简单的代码提交,更可能预示着DeepSeek下一代旗舰模型——传闻中的DeepSeek-V4即将登场。本文将基于泄露的代码细节,深入解读Model 1的技术特性及其对未来大模型格局的影响。
核心架构演进:回归512维度的标准化
在深入分析FlashMLA库的代码变更(Diff)后,我们发现了一个显著的架构调整。在
csrc/api/common.h的宏定义中,Model 1的头部维度(head_dim)配置发生了关键变化。相比于DeepSeek-V3.2(V32)沿用的576维配置(基于128维RoPE + 448维Latent的非对称MLA设计),Model 1明确切换回了512维的标准配置。这一改动并非倒退,而是一种深思熟虑的“标准化”回归。
这种维度的调整很可能是为了更好地与硬件算力对齐,特别是为了优化Latent压缩比例,从而在保持模型性能的同时,最大化计算效率。对于关注AGI底层架构的研究者来说,这意味着DeepSeek正在重新审视模型的基础单元设计,力求在通用性与专用性之间找到更完美的平衡。
全面适配Blackwell架构:面向未来的算力优化
Model 1的代码库中透露出的另一个重磅信息,是其对NVIDIA下一代Blackwell(SM100)架构的全面支持。这表明DeepSeek的新模型是为未来的顶级算力平台量身定制的。
代码中新增了
FMHACutlassSM100FwdRun接口,直接指向Blackwell架构的核心指令集优化。同时,README文档中也明确提到,在B200 GPU上运行需要CUDA 12.9版本。从性能数据来看,这种优化效果惊人。在尚未完全优化的Sparse MLA算子测试中,B200上的性能已达到350 TFlops;而在H800(SM90a)上,Dense MLA的计算吞吐量更是高达660 TFlops。这种对前沿硬件的极致压榨,正是顶级人工智能公司技术实力的体现,也预示着Model 1将拥有无与伦比的推理速度。
引入Token-level Sparse MLA:稀疏化推理的突破
Model 1相比于V3系列,最显著的算子演进在于引入了“Token-level Sparse MLA”。代码测试脚本中同时出现了针对稀疏(Sparse)和稠密(Dense)解码的测试文件,揭示了混合精度的处理策略。
具体而言,Sparse算子在存储KV Cache时使用FP8格式,但在进行矩阵乘法计算时则切换回bfloat16以保证精度。这种设计思路非常清晰:在处理极长上下文的场景下,通过“稀疏化推理”大幅降低显存压力并提升速度。
新机制:VVPA与Engram的神秘面纱
除了算子层面的优化,Model 1还引入了两个引人注目的新特性:VVPA(数值向量位置感知)和Engram机制。
- VVPA (Value Vector Position Awareness):这被认为是解决传统MLA架构在长文本处理中位置信息衰减问题的关键技术。通过增强位置感知,模型在处理长篇幅内容时的逻辑连贯性和记忆能力将得到显著提升。
- Engram机制:虽然具体细节尚不完全明朗,但社区普遍认为这是DeepSeek在分布式存储或KV压缩上的新突破。它将配合Model 1的高吞吐需求,为大规模并发访问提供支持。
这些新机制的加入,佐证了Model 1不仅仅是一个版本补丁,而是一个采用了全新架构参数的独立分支。
结论:DeepSeek-V4已在路上?
综合代码库中的种种迹象——独立的DISPATCHMODELTYPE逻辑、与V3.2并列的地位、以及针对下一代硬件的深度优化,我们有理由相信,Model 1正是DeepSeek下一代旗舰模型(DeepSeek-V4)的内部代号或首个工程版本。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)