眸深智能获小米宇树合作,复旦教授打造具身智能OpenAI

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:具身智能时代的“OpenAI”时刻

在人工智能飞速发展的今天,我们正见证从“数字AI”向“物理AI”的跨越。传统的机器人往往受限于预设程序或泛化能力较弱的VLA(视觉-语言-动作)模型,一旦环境稍有变动便“手足无措”。然而,一家名为“眸深智能”的上海创企正试图打破这一僵局。由复旦大学教授与前英特尔首席科学家联手创立,眸深智能立志成为具身智能领域的OpenAI,通过生成式技术路线为机器人打造具备“举一反三”能力的通用大脑。
AI资讯领域,具身智能被视为通向通用人工智能(AGI)的最后一块拼图。本文将深入解析眸深智能的技术逻辑、商业布局及其在AI生态中的独特价值。

复旦“铁三角”:学术、工程与商业的深度融合

眸深智能的崛起并非偶然,其背后的创始团队构成了极其稳固的“铁三角”结构。首席科学家陈涛教授不仅是复旦大学的学术领军人物,更曾担任华为海思AI图像算法引擎负责人,拥有深厚的学术底蕴与产业经验。CEO穆泽林则是经验丰富的连续创业者,深谙AI商业化落地之道。而工程与架构则由前英特尔中国研究院首席科学家张益民坐镇,确保了模型能够从实验室走向复杂的物理世界。
这种“模型算法+商业化+工程架构”的组合,使得眸深智能在初创阶段就具备了极高的技术门槛。公司依托复旦大学校企联合研究中心,形成了“小型公司+大研究院”的独特组织形式,既能保持创业公司的灵活性,又能持续获取最前沿的科研成果。

拒绝内卷:MotionGPT与生成式动作大模型的范式革命

在主流技术路线纷纷涌向VLA模型时,眸深智能选择了更具挑战性但也更具潜力的生成式路线。其自主研发的MotionGPT(动作生成大模型)是全球首个此类模型。
  • 动作基元技术:MotionGPT首创了“动作基元”概念,将复杂的物理动作拆解为上千个基础元素。这意味着机器人不再是死记硬背某项任务,而是像人类一样,根据自然语言指令动态组合动作。
  • 三段式训练架构:为了解决具身智能最头疼的“数据荒”,眸深采用了“互联网视频(90%)+仿真数据微调+极少量真机强化学习”的策略。这种方法极大地降低了训练成本,让机器人能从海量的人类视频中学习物理规律。
  • 端侧部署优化:通过自研的MADTP++动态令牌剪枝算法,眸深成功将百亿参数大模型压缩至原来的1/8,推理速度提升10-20倍。这使得昂贵的大模型能够在机器人有限的端侧算力上流畅运行。
这些技术突破在人工智能领域具有里程碑意义,为机器人的大规模商用奠定了基础。

商业版图:定位具身智能时代的“Windows”

眸深智能的愿景非常明确:不做硬件本体,而是要做机器人领域的通用“大脑”平台。正如PC时代的Windows,眸深希望其原生大脑能赋能千行百业的机器人硬件。
目前,该公司已获得宇树科技、小米集团、禾川科技等行业巨头的合作订单。在商业落地策略上,眸深展现出了极强的“克制”与“精准”: 1. 聚焦高价值赛道:重点布局工业物流搬运与家庭健康养老。 2. 锁定头部客户:只与千亿级产业龙头或万台级潜力的项目合作。 3. 软硬结合的模组化产品:通过提供“大脑模组”和端侧系统,降低下游本体厂商的开发难度。
这种清晰的生态定位,使其在成立不到一年的时间里就实现了数千万元的订单收入,成为LLM落地物理世界的典型案例。

结论:重塑机器人学习的第一性原理

具身智能的本质不应只是预测下一个动作指令,而是要实现视觉、意图与行为的深度融合。眸深智能通过“世界动作模型(World Motion Model)”赋予了机器人理解物理规律的能力,使其能够边干边学,在交互中不断进化。
随着明年全球首个人类思维方式世界模型(HL3DWM)的发布,我们有理由相信,具身智能将摆脱“实验室玩具”的标签,真正走进千家万户。对于关注OpenAI及全球AI趋势的读者来说,眸深智能的探索无疑为我们提供了一个观察AGI进化的绝佳窗口。未来,机器人将不再是冷冰冰的机器,而是拥有“原生大脑”的智能伴侣。
Loading...

没有找到文章