罗福莉小米首秀:开源MiMo-Embodied大模型,打破智驾与具身智能壁垒
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能快速发展的今天,人才的流动往往预示着技术风向的转变。备受瞩目的95后AI才女罗福莉,在正式官宣入职小米并出任MiMo团队负责人仅仅不到10天后,便交出了一份令人惊艳的答卷。这份成果不仅展示了小米在AI领域的雄心,更标志着行业在解决“具身智能”与“自动驾驶”跨领域融合难题上迈出了关键一步。
本文将深入解读罗福莉团队发布的全球首个跨具身(X-Embodied)基座模型——MiMo-Embodied。我们将分析其背后的技术架构、创新的训练策略以及这一成果对于未来大模型和AGI发展的深远意义。如果您关注最新的AI资讯和技术动态,请访问 AIGC.BAR 获取更多深度内容。
强强联手:小米AI实验室与智驾团队的跨界融合
这项研究的成功,首先得益于一支堪称“梦之队”的研发阵容。论文由MiMo团队(主打空间智能)与小米智驾团队联合出品。罗福莉作为MiMo团队负责人担任核心作者,而项目负责人则是今年入职小米的智能驾驶首席科学家陈龙。
罗福莉此前在达摩院和幻方量化(DeepSeek母公司)积累了深厚的大模型研发经验,曾深度参与DeepSeek-V2等标杆模型的开发。而陈龙曾任职于英国AI独角兽Wayve,主导端到端自动驾驶模型的研发。这种“大语言模型逻辑推理”与“自动驾驶感知决策”的背景碰撞,直接促成了MiMo-Embodied独特的跨界基因。
他们的合作旨在解决一个长期存在的行业痛点:领域鸿沟(Domain Gap)。长期以来,具身智能侧重于室内精细操作,而自动驾驶专注于户外复杂交通,两者的数据和模型往往是割裂的。小米此次的成果,正是为了打破这一壁垒,实现能力的双向迁移。
MiMo-Embodied:全球首个跨具身全能基座模型
MiMo-Embodied的核心定位是“统一多模态基础模型”。它不是简单地将两个模型拼凑在一起,而是基于MiMo-VL架构,从底层逻辑上打通了通用视觉、具身任务及驾驶场景。
在架构设计上,该模型主要由三部分组成:
1. Vision Transformer (ViT):用于编码单图、多图及视频等多种视觉输入,提取复杂的环境模式。
2. Projector (MLP):作为连接器,将视觉Token映射到与大语言模型对齐的潜在空间。
3. LLM核心:负责理解文本指令,并结合视觉信息进行推理,生成上下文相关的响应。
这种设计使得MiMo-Embodied不仅能“看懂”室内的机器人拿取任务,也能“理解”户外的交通规则和驾驶规划。在实测中,该模型在自动驾驶与具身智能共计29个Benchmark上全部霸榜,真正做到了“我全都要”。
技术解密:四阶段训练策略与数据构建
为了让一个模型同时精通两个截然不同的领域,MiMo团队提出了一套极具创新性的数据构建和渐进式四阶段训练策略。这是该研究最具技术含量的部分,也是未来AI新闻中值得关注的技术趋势。
高质量的数据集构建:
研究团队构建了涵盖三个维度的高质量数据集:
* 通用数据:基于MiMo-VL语料库,确保模型具备基础的感知和推理能力。
* 具身智能数据:整合了RoboAfford等数据集,专注于空间理解和任务规划。
* 自动驾驶数据:整合CODA-LM等数据,强化环境感知和驾驶决策。
渐进式四阶段训练策略:
1. 具身智能监督微调:建立核心的视觉语言理解与具身推理能力。
2. 自动驾驶监督微调:加入大量驾驶数据,重点训练多视角空间推理和视频时间一致性。
3. 思维链(CoT)微调:使用包含明确推理步骤的数据,增强模型处理复杂多步问题的能力,如风险评估。
4. 强化学习(RL)微调:引入GRPO算法,通过设计奖励信号,进一步优化模型的精确度和可靠性。
这种层层递进的策略,有效地将人工智能在不同场景下的能力进行了融合,避免了多任务学习中常见的干扰问题。
实测表现:29项基准测试霸榜背后的意义
在定量评估中,MiMo-Embodied展现了统治级的表现。无论是在具身智能的可供性预测、任务规划,还是在自动驾驶的感知、预测、规划方面,它都超越了现有的专用模型及通用模型。
特别值得一提的是其在现实世界任务中的定性评估:
* 具身导航:在家庭场景中,其对象定位能力优于GPT-4o和Qwen2.5-VL。
* 复杂驾驶:在交叉路口转弯、弯道掉头、变道超车等高难度场景下,模型展现出了极强的鲁棒性。
这表明,MiMo-Embodied不仅仅是一个实验室产物,它具备了极高的落地潜力。对于关注AI变现和实际应用的企业来说,这种通用性意味着更低的研发成本和更广泛的应用场景。
总结与展望
罗福莉在小米的首个成果MiMo-Embodied,不仅证明了她作为顶级AI人才的实力,也展示了小米在AGI和具身智能领域的深远布局。通过开源这一模型,小米为行业提供了一个强大的基座,有助于加速机器人与自动驾驶技术的融合发展。
未来,随着视觉-语言-动作(VLA)模型的进一步探索,我们有理由相信,像MiMo-Embodied这样能够理解物理世界并与之交互的大模型,将成为实现通用人工智能的关键路径。
想要了解更多关于AI、大模型以及ChatGPT等前沿科技的最新资讯,请持续关注 AIGC.BAR,这里有最全的AI日报和技术深度解析。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)