DeepSeek的十万亿美元棋盘:梁文锋如何重塑AI硬件生态与AGI未来

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

DeepSeek的宏大愿景:超越API,布局万亿美元AI硬件生态

近期,DeepSeek在资本市场和技术层面动作频频,引发了广泛关注。一方面,它正推进高达700亿元人民币的巨额融资,投前估值飙升至450亿美元;另一方面,又宣布V4-Pro API永久降价75%,将促销价“焊死”为常态。这种一边融资一边让利的操作,让外界对其盈利模式和长远目标产生了诸多疑问:DeepSeek究竟打算如何赚钱,并且是赚取巨额利润?
正如x博主@bookwormengr在其深度分析《DeepSeek's 10 trillion USD grand strategy》中所揭示的,DeepSeek的野心远不止于销售API套餐或构建简单的语音助手。梁文锋及其团队正在下一盘价值10万亿美元的宏大棋局,其核心目标是参与并塑造一个规模达万亿美元级别的AI硬件生态,并在其中冲击万亿美元级的企业估值。这盘棋,梁文锋并非“疯子”,而是一位深谋远虑的“棋手”。

技术革新:DeepSeek的“英雄之旅”与反共识之路

DeepSeek的成长历程,堪称一场“英雄之旅”。在主流AI模型竞相堆砌Dense模型、追求参数量的“内卷”竞赛中,DeepSeek选择了一条更艰难但潜力巨大的道路——啃下最难训练的MoE(混合专家模型),以更少的计算量实现更高的智能水平。
在强化学习领域,当他人还在使用PPO等算法时,DeepSeek从第一性原理出发,发明了更高效且成本更低的GRPO算法。在RLHF(基于人类反馈的强化学习)的讨论尚在进行时,他们已成功运行RLVR(基于可验证奖励的强化学习),显著提升了模型的推理能力。
MLA(多头注意力)、DSA(解耦稀疏注意力)、mHC(流形约束超连接)、CSA和HCA等一系列技术创新,并非简单的学术炫技,而是围绕一个核心问题展开:如何在有限的硬件资源下,最大化AI算力?这些技术进步共同指向DeepSeek的“宿命”——它并非仅仅为了卖API套餐而存在,而是致力于解决AI算力瓶颈的根本性问题。

KV Cache的数学之谜:成本革命的起点

要理解DeepSeek的宏大战略,不妨从一个具体的数学问题入手:KV Cache(Key-Value Cache)的优化。使用kvcache.ai的在线计算器,当输入100万token上下文、8bit KV精度和16bit索引精度时,DeepSeek V4模型仅需5.48GB HBM显存。而对比之下,其他同级别的顶级开源模型则可能需要高达60GB HBM。
这意味着,尽管DeepSeek V4拥有1.6万亿的庞大参数量,其KV Cache占用却仅为其他模型的零头。这一巨大的效率提升,使得DeepSeek能够提供令人咋舌的低价缓存服务:V4-Pro的缓存命中价仅为0.025元/百万Token,远低于Claude Sonnet 4.6同类价格的3%,且支持数小时的持续缓存。永久降价后,缓存未命中价格为3元/百万Token,输出价格为6元/百万Token,均为原价的四分之一。
梁文锋两年前提出的“不贴钱,也不赚取暴利”的定价哲学,在此时显得尤为真诚。当KV Cache的成本被压缩到极致,其低廉的运营成本自然能转化为市场优势。但更深层的问题是:这份巨大的“红利”将流向何方?

万亿美元棋盘:AI硬件生态的重构

答案就藏在DeepSeek所推动的三层硬件优化之中:SSD、LPDDR和GPU/ASIC的减压。

第一层:SSD与NAND闪存的价值释放

通过将KV Cache压缩到极小,DeepSeek能够高效地将其“卸载”(offload)到SSD上,并在需要时快速加载回HBM。DeepSeek在Dual Path论文中提出的优化技术,更是直接提升了从SSD加载KV Cache的速度,显著降低了对昂贵HBM的依赖。这意味着,DeepSeek的每一项KV Cache压缩技术,都在为SSD和NAND闪存市场创造一个前所未有的庞大新需求。

第二层:LPDDR内存的潜力挖掘

SGLang团队的研究表明,LPDDR内存完全可以充当“权重暂存区”。模型权重首先存储在LPDDR中,需要时再流式传输到HBM,从而极大地缓解HBM的容量压力。DeepSeek的MoE架构天然适配此方案,其多专家、可4bit量化的权重特性,使得流式加载尤为高效。在国产内存技术快速追赶的背景下,这一优化为本土AI硬件生态带来了巨大机遇。

第三层:GPU/ASIC的“换道超车”

Engram模块的出现,允许使用LPDDR中的哈希查找表来替代Transformer中的前向传播计算。本质上,这是用每比特成本极低的“内存读取”操作,替换了每比特成本高昂的“GPU运算”。这对中国AI芯片产业意义重大。鉴于EUV光刻机等因素限制,国产GPU在原始算力(FLOPs)上可能落后,但通过用更多廉价内存替代少量昂贵算力,便实现了“换道超车”的可能性。
此外,DeepSeek投资的跨硬件内核编译框架TileLang,使得一套计算代码能够同时运行在多种硬件平台上,有效绕过了“CUDA护城河”。这为国内芯片厂商在生态层面实现突破提供了关键助力。
总结来看,DeepSeek的每一项技术创新,都在指向一个共同目标:降低对顶级硬件的绝对依赖,让中国现有的存储、芯片、网络等硬件生态变得更加可用,甚至“好用”。@bookwormengr的估算显示,全球AI相关股票市值已远超10万亿美元。若DeepSeek能助力中国构建一个同等量级的AI硬件生态,其自身在此生态中获得万亿美元级别的估值,将是合乎逻辑的战略成果。

不赚“快钱”的深层逻辑:战略投资与AGI终极使命

DeepSeek并非“不会赚钱”,而是“暂时不屑于赚取短期、低价值的快钱”。其战略思路与OpenAI“用承诺换股权”的模式有异曲同工之妙,只不过DeepSeek面对的不是个别芯片厂商,而是整个国产AI硬件产业链。
梁文锋出身量化基金,是“Jim Simons的忠实粉丝”,深谙资本运作的精妙。在融资消息传出前,他已通过股权调整牢牢掌握公司控制权。宁德时代、京东、网易,以及国家大基金的投资,都表明这些战略投资者看到的,不是一个简单的API服务商,而是一个可能重塑全球AI硬件格局的战略支点。
然而,如果认为DeepSeek的终极目标仅仅是成为“中国AI硬件生态的发动机”,那就低估了梁文锋的野心。正如彭博社报道所示,DeepSeek的核心目标是推动技术边界,追求AGI(通用人工智能)。硬件生态的优化,只是实现AGI这一终极目标的手段。
通过降低硬件成本和提升算力效率,DeepSeek能够以更低的成本启动更大规模的训练,特别是强化学习(RL)的后训练和递归自我改进(RSI)。大规模RL需要生成海量的推理轨迹,计算成本极其高昂。而RSI更是大胆地让AI自主设计、执行、分析和改进自身,这是一个试错密度极高的过程,对算力的需求近乎“无底洞”。
只有当DeepSeek通过重构硬件生态将算力成本打下来,AGI的训练才变得“烧得起”。从MoE到MLA,从DSA到CSA,从Engram到TileLang,从KV Cache压缩到LPDDR流式加载——所有这些创新,最终都汇聚于一个终点:让AGI的实现从遥不可及的梦想,变为触手可及的现实。
梁文锋与DeepSeek的星辰大海,并非海面上的短暂浪花,而是驱动整个AI行业发展的深层洋流。
Loading...

没有找到文章