DeepSeek | 标签

首页

资讯

往期整理

OpenAI揭秘：DeepSeek引发警觉，大模型决胜点在于Infra修Bug速度

OpenAI,翁家翌,ChatGPT,DeepSeek,AI Infra,ChatGPT官方,GPT官网,ChatGPT国内使用,ChatGPT镜像站,大模型训练

DeepSeek Model 1代码曝光：继R1后的下一代旗舰V4解析

DeepSeek R1发布一周年之际，FlashMLA代码库泄露Model 1细节。本文深入解析其512维架构回归、Blackwell算力适配及Sparse MLA技术，探讨这是否是传说中的DeepSeek-V4。关注最新AI资讯与大模型动态。

DeepSeek R1一周年：不融资不卷功能，凭什么颠覆硅谷AI格局？

DeepSeek, R1, 幻方量化, AI军备竞赛, Engram技术, V4模型, 硅谷AI, 大模型, AGI, LLM

DeepSeek mHC复现：8张H100揭秘万倍信号爆炸与架构救赎

DeepSeek mHC, Taylor Kolasinski, 信号爆炸, 残差连接, Transformer架构, 大模型训练, AI新闻, LLM, AGI, 深度学习, 1.7B参数, Sinkhorn算法

DeepSeek新论文深度解析：与字节Seed团队的学术接力赛

深入解读DeepSeek最新发布的mHC与Conditional Memory论文，揭示其与字节跳动Seed团队在残差连接及大模型记忆机制上的学术接力与技术演进。关注AI资讯，了解LLM大模型前沿动态。

35天生死线：AI模型为何陷入速朽与零忠诚困局？

揭秘AI行业残酷现状，顶级大模型平均领跑仅35天。深入分析用户留存率低、榜单注水及DeepSeek等价格屠夫对OpenAI等巨头的冲击，关注最新AI资讯与大模型发展趋势。

DeepSeek Engram解读：给AI装上无限记忆字典，推理能力暴涨

DeepSeek最新论文Engram提出新型稀疏架构，通过给大模型外挂“字典”实现无限记忆。本文深入解读Engram如何利用N-gram机制释放计算潜力，提升AI推理能力，并突破显存限制，探索通往AGI的新路径。

DeepSeek梁文锋新作Engram：查算分离重塑LLM稀疏性

DeepSeek发布新论文提出Engram模块，通过查算分离机制引入大模型稀疏性新维度。本文深入解读Engram如何结合MoE架构，实现知识记忆与逻辑推理的解耦，以及其对DeepSeek V4的潜在影响。

AI炒股实录：国产大模型逆袭，是印钞机还是收割机？

深入解析AI大模型在金融投资领域的最新战况，探讨DeepSeek与通义千问在Trading Arena中的表现。本文分析AI究竟是普通人的印钞机还是收割机，揭秘金融Agent的机遇与挑战，关注AI资讯与大模型发展，LLM在金融领域的落地。

a16z创始人重磅解读：中国AI超新星崛起，Kimi推理比肩GPT-5

a16z创始人Marc Andreessen最新访谈深度解析中美AI竞赛，直言DeepSeek是真正的超新星，中国Kimi K2推理能力已达GPT-5水平。本文探讨大模型未来、AI成本通缩及行业投资逻辑，带你洞察AGI时代的新机遇。

英伟达GDPO详解：超越GRPO，多奖励强化学习新范式

英伟达提出GDPO算法,挑战DeepSeek使用的GRPO,解决多奖励优化中的信号压缩问题,提升大模型训练稳定性,AI新闻,LLM技术深度解析,强化学习新进展,AGI,大模型,人工智能

DeepSeek V4深度前瞻：四大突破挑战全球AI编程王座，Claude危？

DeepSeek V4爆料将在春节前后发布，核心聚焦编程能力，意图超越Claude。本文深入解读V4的四大技术杀招、底层算法突破（mHC）及对全球大模型格局的影响。AI资讯,大模型,LLM,DeepSeek,Claude,人工智能,AI新闻

DeepSeek R1论文重磅更新：86页干货揭秘纯RL训练与开源新标杆 - AI资讯

DeepSeek R1论文从22页扩充至86页，详尽披露数据配方与训练细节。本文深入解析纯强化学习带来的智能涌现、模型蒸馏技术及与OpenAI o1的对比，带你了解大模型领域的真正的Open精神，关注AI资讯与LLM发展。

老黄CES演讲：DeepSeek与Kimi成下一代芯片标杆，AI资讯前沿解读

深入分析英伟达CES 2026演讲，探讨DeepSeek、Kimi、Qwen等中国大模型如何成为Rubin架构性能标杆，解析MoE架构趋势、推理成本下降10倍的技术逻辑，AI资讯，AI新闻，LLM，大模型，AGI，人工智能。

DeepSeek-OCR视觉压缩解析：VTCBench揭秘长文本理解新范式

DeepSeek-OCR,视觉文本压缩,VTCBench,长文本处理,AI新闻,大模型,中科院,视觉语言模型,VLM,信息检索,关联推理,人工智能,AI资讯,LLM,AGI

DeepSeek新年首发mHC论文：流形约束如何开启大模型架构新纪元

DeepSeek,mHC论文,流形约束超连接,深度学习架构,ResNet,梯度消失,信号爆炸,大模型稳定性,DeepSeek-V4,AI资讯,人工智能,AGI,LLM,大模型训练

DeepSeek重塑ResNet残差连接：梁文峰带队，深度学习十年迎来重大升级

DeepSeek,梁文峰,残差连接,ResNet,mHC,双随机矩阵,深度学习架构,AI模型优化,Transformer,大模型训练稳定性,AINEWS,AI资讯,AGI

2025年AI造富神话：22岁亿万富翁诞生，揭秘AI时代新财富逻辑

2025年AI造富速度刷新人类认知，50多位创始人跻身亿万富翁俱乐部。本文深入解读DeepSeek、Mercor及Anthropic背后的财富逻辑，探讨AI基础设施与应用层的变现潜力，为您提供最前沿的AI资讯与AGI时代洞察。

击败谷歌！上交大ML-Master 2.0登顶OpenAI榜单，DeepSeek立大功

上海交大SciMaster团队推出的ML-Master 2.0，基于国产开源大模型DeepSeek，在OpenAI MLE-bench权威测试中超越Google与Meta。本文深入解读这一AI4AI里程碑，探讨自主智能体如何通过长程思维与认知积累重塑科学研究，AI新闻, 大模型, 深度学习, 智能体, AI科研

清华开源TurboDiffusion：单卡200倍加速，AI视频生成迈入秒级实时时代 - AI资讯

清华大学联合生数科技重磅开源TurboDiffusion框架，通过四大核心技术实现AI视频生成单卡200倍加速，将视频制作从分钟级硬生生拉入秒级时代。关注AI新闻、AGI、大模型及人工智能前沿资讯，尽在AI门户。

←上页下页→