打造中国版Skild AI:复旦教授赋予机器人自主进化通用大脑
type
status
date
slug
summary
tags
category
icon
password
网址

在2025年的科技浪潮中,我们见证了无数机器人在演示视频中大显身手:叠衣服、分拣包裹、甚至烹饪。然而,当我们将目光投向现实生活和复杂的工业生产环节时,却发现具身智能(Embodied AI)的落地依然困难重重。核心痛点在于机器人的“泛化能力”不足——它们往往只能在特定环境下“背诵”动作,而无法真正“理解”物理世界的规律。
近期,一家名为眸深智能的初创公司引起了业界的广泛关注。由复旦大学教授陈涛领衔,该公司致力于打造“中国的Skild AI”,试图通过自研的“世界动作模型”(World Motion Model),为每一个机器人装上一颗可自主进化的通用大脑。本文将深入解读这一技术路径,探讨其如何打破现有大模型技术的局限,引领人工智能进入新的物理交互时代。更多前沿AI资讯与AGI发展动态,请持续关注 AINEWS。
突破VLA局限:寻找具身智能的“第三条路”
目前的具身智能领域,主流技术路线是以谷歌RT系列为代表的VLA(Vision-Language-Action)模型。VLA模型通过海量数据让机器人学习“场景-动作”的对应关系。然而,这种方式本质上是一种“死记硬背”。
以物流搬运为例,VLA模型可能通过学习几千次搬运特定纸箱的视频,学会了搬运那个特定的箱子。但如果箱子的形状、材质改变,或者周围的光线、环境布局发生微小变化,机器人往往就会束手无策。这是因为VLA模型并没有真正理解“搬运”这个任务背后的物理逻辑和空间关系。此外,不同构型的机器人之间数据难以复用,也极大地推高了训练成本。
眸深智能提出的“世界动作模型”,则是在VLA和纯粹的世界模型(World Model)之外,开辟了第三条道路。它不追求对整个世界进行泛泛的仿真建模,而是专注于“动作”与“物理规律”的结合。这使得机器人不仅能“看见”环境,还能理解自己在环境中的位置、任务的逻辑以及动作的后果,从而实现真正的举一反三。
核心技术:3D MotionGPT与通用的物理理解
眸深智能的技术底座源于陈涛教授在2D到3D视觉理解领域的深厚积累。其核心成果3D MotionGPT,让计算机能够像ChatGPT处理语言一样处理动作。
传统的机器人控制需要复杂的编程,而3D MotionGPT允许通过自然语言指令生成包含空间信息(XYZ坐标)的动作序列。这意味着,用户只需说一句“把桌子上的红色杯子递给我”,机器人就能在脑海中生成一个类似“火柴人”的3D运动轨迹,并将其映射到真实的机械臂上执行。
这种技术路径的优势在于:
* 泛化性强:模型学习的是动作的原理(如抓取、推拉的力学规律),而非死记硬背特定的图像像素。
* 跨本体复用:作为通用的“大脑”,这套模型不绑定特定机型,可以部署在不同构型的机器人身上。
* 多模态交互:支持语音、视频、点云等多种输入方式,增强了机器人对环境的感知精度。
数据革新:利用开源视频训练“直觉”
在大模型训练中,高质量数据往往是最大的瓶颈。传统的机器人训练依赖昂贵的动捕数据或特定场景的真机采集数据。眸深智能在数据配方上进行了大胆创新,采用了“80%开源视频 + 10%动捕数据 + 10%真机数据”的混合模式。
通过从互联网海量的开源视频中提取人体关键点序列,并进行结构化处理,模型可以在大量通用运动数据上习得基础的“运动规律”——这就像是人类的“直觉”。随后,只需利用少量的真机数据进行微调(Fine-tuning),就能让机器人适应具体的任务。这种方法将真机数据的需求量降低到了传统方案的十分之一,极大地降低了落地门槛。
端侧部署:让大模型“瘦身”进场
具身智能要真正进场干活,还必须解决算力与延迟的矛盾。工厂和仓库的环境不允许机器人依赖不稳定的云端网络进行决策,毫秒级的延迟都可能导致严重的事故。因此,将LLM(大型语言模型)能力部署在端侧芯片上至关重要。
眸深智能研发了MADTP动态令牌剪枝算法,专门用于百亿参数模型的端侧轻量化。
1. 模型压缩:将庞大的模型体积压缩至端侧芯片可承载的范围。
2. 动态调用:在推理阶段,根据任务的难易程度动态分配算力。对于简单的搬运任务,使用较少的参数;对于复杂的精细操作,则调用更多资源。
测试数据显示,该方案在国产芯片(如昇腾、地平线)上实现了推理速度3.3倍的提升,关键响应延迟降至10毫秒级,真正做到了“软硬结合”。
商业化落地与未来展望
从实验室走向市场,眸深智能已经展现出强劲的商业化能力。依托复旦大学的科研背景和团队的产业经验,公司已在工业搬运、物流分拣以及康养护理等领域获得了头部投资人和产业客户的认可,完成了超3000万元的订单签署。
在人工智能通往AGI(通用人工智能)的道路上,具身智能是最后一块拼图。眸深智能通过“世界动作模型”赋予机器人理解物理世界的能力,不仅解决了当前VLA路线的泛化难题,也为未来机器人走进千家万户提供了可行的技术路径。
随着2026年标准化“机器人大脑”模组的计划推出,我们有理由相信,具备自主进化能力的机器人将在更多场景中成为人类的得力助手。想要获取更多关于大模型、AI资讯及行业深度分析,请访问专业的AI门户网站 AINEWS。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)