Pelican-VL:从马拉松冠军到思考者,中国具身AI的进化之路 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
继中国人形机器人在马拉松赛道上创造历史后,其背后的智能核心再次迎来革命性突破。近日,由北京人形机器人创新中心发布的全球最大开源具身智能多模态大模型——Pelican-VL 1.0,标志着机器人正从单纯的“执行者”向具备自主学习和思考能力的“学习体”演进。这一进展不仅是技术上的飞跃,更预示着具身智能(Embodied AI)迈入了全新的学习时代。想要获取更多前沿的AI资讯,欢迎访问我们的AI门户网站AIGC.bar
Pelican-VL的开源,为整个AI行业打通了从「看懂世界」到「动起来」的关键链路,让机器人拥有了更接近人类的认知与决策能力。这不仅仅是一个模型,更是一个驱动机器人不断进化的“智能引擎”。

Pelican-VL:不仅仅是“看图说话”的VLM

当前,通用大模型(LLM)在向具身智能迁移时,普遍面临空间理解、物理推理能力不足的挑战。正如李飞飞教授所强调的“空间智能”的重要性,Pelican-VL正是为此而生。它是一个覆盖7B到72B参数规模的多模态大模型,能够同时处理图像、视频和语言指令,并将其转化为实际的物理动作。
Pelican-VL的核心创新在于其独特的训练范式——「刻意练习」(DPPO)。该机制模仿人类在失败中学习的过程,通过不断的自我诊断与纠错,系统性地提升了模型在以下几个维度的能力:
  • 跨模态理解与推理:在复杂环境中,Pelican-VL能准确识别物体,并推断其功能与可供性(Affordance),例如判断一个杯子可以被拿起,一个门可以被推开。
  • 时空认知能力:模型能够理解动作的先后顺序和因果关系,为执行长程、复杂任务打下基础。
  • 物理世界推理:通过对大量真实世界数据的学习,模型对物体的材质、易碎度等物理属性具备了初步的预测能力。
这种自进化的学习闭环,让Pelican-VL在12个主流公开评测基准上超越了部分百亿级参数的开源模型,展现了其作为具身智能“大脑”的强大潜力。更多关于大模型人工智能的最新动态,尽在AIGC.bar

从“抓得住”到“抓得巧”:智能抓取的革命

具身智能与物理世界交互最基础也最关键的一环便是“抓取”。Pelican-VL驱动的智能抓取框架,成功复现并超越了传统的机器人操作模式,实现了一个「感知-运动」的智能闭环
这个闭环严格遵循了人类的感知与行动逻辑:
  1. 主动预测:在接触物体前,Pelican-VL仅通过视觉输入,就能预判物体的物理属性(如易碎度),并生成一个精准的初始抓取力。这如同人类的“第一印象”,大大提升了操作的效率和安全性。
  1. 触觉适应:在抓取过程中,机器人指尖的传感器会实时反馈压力和滑移数据。系统会像人类的神经反射一样,毫秒级地微调抓力,确保既能抓稳,又不会损坏柔软或易碎的物品。
  1. 记忆更新:每次成功的交互都会被记录下来,形成一个不断扩充的“经验库”。当再次遇到相似物体时,模型会调用这些记忆,做出更精准的决策。
通过这种方式,机器人抓取从简单的“执行命令”升级为具备预测、反应和学习能力的智能行为。这为机器人在非结构化环境中实现大规模、低成本的柔性操作提供了真正可行的方案。

VLA能力跃迁:让机器人理解并执行复杂任务

在典型的“视觉-语言-行动”(Vision-Language-Action, VLA)系统中,Pelican-VL扮演着至关重要的“认知前端”角色。它负责“看图听话”,将复杂的自然语言指令和视觉环境信息结合,分解成一系列可执行的子任务。
想象一下这个场景:你对家庭机器人说:“把鞋子放到鞋架上,把桌上的垃圾扔掉,再把衣服放进洗衣机。”
  • 首先,Pelican-VL会扫描整个房间,构建一个包含所有物体位置和状态的“数字地图”。
  • 接着,它会将你的指令分解为三个独立的任务序列:移动到鞋子处 -> 抓取 -> 移动到鞋架 -> 放置;然后重复此过程处理垃圾和衣服。
  • 最后,这些规划好的动作序列会通过函数调用(Function Calling)下发给机器人的运动控制系统执行。
这种将复杂任务自主分解和规划的能力,使得机器人能够胜任商超收银、家庭整理、实验室助理等长程、多步的复杂工作,真正成为人类的得力助手。对Prompt工程和AI应用感兴趣的朋友,可以在AIGC.bar找到丰富的资源和提示词

开源生态与未来展望:加速具身智能产业落地

Pelican-VL的全面开源,对整个机器人产业和AI研究领域具有深远意义。
  • 降低研发门槛:它提供了一套贯通“视觉理解-长程规划-物理操作”的通用训练范式,让开发者不必从零开始,可以站在巨人的肩膀上进行创新。
  • 加速产业落地:企业和研究机构可以在这个开源的“大脑”基础上进行定制化训练,快速开发适用于特定场景(如制造业、物流、零售)的机器人应用。
北京人形机器人创新中心正在推进的“千台机器人真实场景数据采集计划”,将为Pelican-VL的持续进化提供海量高质量数据。这些数据与模型的结合,将推动机器人在更多领域实现快速适配和优化,让AGI(通用人工智能)的愿景在具身智能领域率先照进现实。

结论

从跑完马拉松的“体能冠军”,到如今拥有Pelican-VL“智慧大脑”的思考者,中国人形机器人的进化速度令人瞩目。Pelican-VL的出现,不仅是一次技术上的里程碑,更是具身智能从理论走向现实、从实验室走向产业的关键一步。它让机器人学会了“反思”和“成长”,标志着一个由数据和学习驱动的机器人新时代已经到来。未来,随着更多AI新闻和技术突破的涌现,我们有理由相信,更智能、更好用的机器人将更快地走进千行百业和千家万户。
Loading...

没有找到文章