眸深智能获小米宇树合作，复旦教授打造具身智能OpenAI

type

status

date

slug

summary

引言：具身智能时代的“OpenAI”时刻

在人工智能飞速发展的今天，我们正见证从“数字AI”向“物理AI”的跨越。传统的机器人往往受限于预设程序或泛化能力较弱的VLA（视觉-语言-动作）模型，一旦环境稍有变动便“手足无措”。然而，一家名为“眸深智能”的上海创企正试图打破这一僵局。由复旦大学教授与前英特尔首席科学家联手创立，眸深智能立志成为具身智能领域的OpenAI，通过生成式技术路线为机器人打造具备“举一反三”能力的通用大脑。

在AI资讯领域，具身智能被视为通向通用人工智能（AGI）的最后一块拼图。本文将深入解析眸深智能的技术逻辑、商业布局及其在AI生态中的独特价值。

复旦“铁三角”：学术、工程与商业的深度融合

眸深智能的崛起并非偶然，其背后的创始团队构成了极其稳固的“铁三角”结构。首席科学家陈涛教授不仅是复旦大学的学术领军人物，更曾担任华为海思AI图像算法引擎负责人，拥有深厚的学术底蕴与产业经验。CEO穆泽林则是经验丰富的连续创业者，深谙AI商业化落地之道。而工程与架构则由前英特尔中国研究院首席科学家张益民坐镇，确保了模型能够从实验室走向复杂的物理世界。

这种“模型算法+商业化+工程架构”的组合，使得眸深智能在初创阶段就具备了极高的技术门槛。公司依托复旦大学校企联合研究中心，形成了“小型公司+大研究院”的独特组织形式，既能保持创业公司的灵活性，又能持续获取最前沿的科研成果。

拒绝内卷：MotionGPT与生成式动作大模型的范式革命

在主流技术路线纷纷涌向VLA模型时，眸深智能选择了更具挑战性但也更具潜力的生成式路线。其自主研发的MotionGPT（动作生成大模型）是全球首个此类模型。

动作基元技术：MotionGPT首创了“动作基元”概念，将复杂的物理动作拆解为上千个基础元素。这意味着机器人不再是死记硬背某项任务，而是像人类一样，根据自然语言指令动态组合动作。

三段式训练架构：为了解决具身智能最头疼的“数据荒”，眸深采用了“互联网视频（90%）+仿真数据微调+极少量真机强化学习”的策略。这种方法极大地降低了训练成本，让机器人能从海量的人类视频中学习物理规律。

端侧部署优化：通过自研的MADTP++动态令牌剪枝算法，眸深成功将百亿参数大模型压缩至原来的1/8，推理速度提升10-20倍。这使得昂贵的大模型能够在机器人有限的端侧算力上流畅运行。

这些技术突破在人工智能领域具有里程碑意义，为机器人的大规模商用奠定了基础。

商业版图：定位具身智能时代的“Windows”

眸深智能的愿景非常明确：不做硬件本体，而是要做机器人领域的通用“大脑”平台。正如PC时代的Windows，眸深希望其原生大脑能赋能千行百业的机器人硬件。

目前，该公司已获得宇树科技、小米集团、禾川科技等行业巨头的合作订单。在商业落地策略上，眸深展现出了极强的“克制”与“精准”： 1. 聚焦高价值赛道：重点布局工业物流搬运与家庭健康养老。 2. 锁定头部客户：只与千亿级产业龙头或万台级潜力的项目合作。 3. 软硬结合的模组化产品：通过提供“大脑模组”和端侧系统，降低下游本体厂商的开发难度。

这种清晰的生态定位，使其在成立不到一年的时间里就实现了数千万元的订单收入，成为LLM落地物理世界的典型案例。

结论：重塑机器人学习的第一性原理

具身智能的本质不应只是预测下一个动作指令，而是要实现视觉、意图与行为的深度融合。眸深智能通过“世界动作模型（World Motion Model）”赋予了机器人理解物理规律的能力，使其能够边干边学，在交互中不断进化。

随着明年全球首个人类思维方式世界模型（HL3DWM）的发布，我们有理由相信，具身智能将摆脱“实验室玩具”的标签，真正走进千家万户。对于关注OpenAI及全球AI趋势的读者来说，眸深智能的探索无疑为我们提供了一个观察AGI进化的绝佳窗口。未来，机器人将不再是冷冰冰的机器，而是拥有“原生大脑”的智能伴侣。