腾讯开源HyVLA-0.5:具身大模型摆脱遥操,前沿AI资讯解读

type
status
date
slug
summary
tags
category
icon
password
网址
在每天海量的AI资讯AI新闻中,具身智能(Embodied AI)无疑是通往AGI(通用人工智能)的最关键路径之一。近期,腾讯 Robotics X、福田实验室与混元团队联合发布了面向真实世界机器人操作任务的端到端具身智能模型——Hy-Embodied-0.5-VLA(简称HyVLA-0.5)。这一重磅发布不仅在人工智能领域引发了广泛关注,更标志着机器人行业在摆脱繁重遥操作、走向真实场景部署方面迈出了决定性的一步。
作为一家专业的AI门户AIGC前沿资讯 (aigc.bar) 致力于为您提供最深度的AI日报和行业解析。本文将深入解读HyVLA-0.5的核心技术突破,探讨其如何通过亚毫米级UMI数据采集与真机强化学习,重塑具身智能的未来图景,并为关注大模型应用与AI变现的开发者提供新的思路。

突破数据瓶颈:亚毫米级UMI与万小时具身数据集

无论是openaichatGPT,还是Anthropic的claude,任何强大的LLM(大型语言模型)都离不开海量高质量数据的喂养。对于具身智能而言,数据同样是模型能力的根基。过去,机器人操作数据的获取高度依赖极其繁琐的遥操作(Teleoperation),这不仅成本高昂,且难以规模化。
HyVLA-0.5 的首个重大突破在于其自研的亚毫米级高精度指套式 UMI(Universal Manipulation Interface)数据采集软硬件。这套系统不仅能记录第一视角的视觉信息,还能通过外部光学动捕系统获得极高精度的 6-DoF 轨迹标注。更重要的是,它集成了末端力觉传感能力,使得采集到的数据天然包含了物理交互信息。
基于此,腾讯团队构建了超过10000小时、覆盖70类任务的 Hy-UMI-10K 数据集。这不仅为模型学习精细操作和长程任务提供了规模化基础,更彻底改变了数据收集的范式。在监督训练阶段,模型无需任何遥操作数据即可在多本体真机任务中取得高部署成功率。这种从源头解决数据获取难题的思路,为整个AI行业的具身数据构建提供了极具参考价值的标杆。

架构创新:融合视觉语言理解与连续控制的大模型

在模型架构方面,HyVLA-0.5 展现了卓越的设计理念。它基于腾讯自研的 Hy-Embodied-0.5 具身视觉语言模型进行扩展,将强大的多模态理解能力直接连接到机器人的连续控制层。
类似于我们在使用文本大模型时通过优化Prompt提示词)来获得更好的输出,具身大模型需要将高级的语义指令转化为底层的物理动作。HyVLA-0.5 引入了基于流匹配的行动专家模块,通过双塔结构将视觉语言理解与动作生成解耦。为了适应真实机器人的时序感知需求,模型还设计了一个轻量化的紧凑记忆编码器,能够在不显著增加计算负担的情况下引入短时记忆。
此外,增量式动作块表示的采用,使得模型能够有效降低对特定机器人运动学结构的依赖。这意味着同一个大脑可以更轻松地适配不同形态的机器人,为跨本体迁移奠定了坚实的算法基础。

强化学习后训练:FlowPRO让失败转化为成功

在真实物理世界中,机器人不可避免地会遇到失败。如何让模型从失败中学习,是具身智能落地的核心痛点。HyVLA-0.5 首次将 Proximalized Preference Optimization(PRO)系统性地引入基于流匹配的 VLA 强化后训练中,推出了 FlowPRO 框架。
与传统依赖人工设计奖励函数的强化学习不同,FlowPRO 通过真实机器人执行中的干预与回滚机制,直接采集成对的“失败轨迹”和“成功纠正轨迹”。通过计算 RPRO loss,模型在连续动作生成中能够自动向成功的偏好动作靠近,并远离非偏好动作。
这种机制极大地提升了模型在真实复杂环境下的鲁棒性。实验表明,经过多轮 FlowPRO 后训练,模型在多个真实双臂任务上的成功率被推向了接近100%的天花板水平。这种将真实失败案例转化为快速策略提升的方法,代表了当前人工智能在强化学习领域的最新前沿。

从仿真到真机部署:跨本体迁移与高频闭环控制

从实验室的仿真环境走向真实的工厂或家庭,是具身智能的“最后一公里”。HyVLA-0.5 在 RoboTwin 2.0 仿真基准上取得了超过90%的SOTA成绩,但这仅仅是开始。
为了实现真正的跨本体部署,HyVLA-0.5 设计了跨机器人形态的平台映射机制,使同一套策略接口能够无缝服务于固定基座双臂机器人、类人形机器人等多种形态。在真机部署环节,团队实现了异步推理与执行框架,将高容量 VLA 的前向推理和机器人伺服执行解耦,配合延迟感知的三次贝塞尔轨迹拼接方法,实现了平滑、连续的高频闭环控制。
在 Track-B(纯UMI跨本体迁移)评测中,模型在不使用任何目标机器人遥操作数据的情况下,依然展现出了惊人的泛化能力。这证明了高质量的先验数据与强大的模型架构相结合,能够有效跨越不同硬件本体之间的巨大差异。

腾讯Robotics X的开源矩阵与具身智能开放生态

HyVLA-0.5 的发布并非孤立事件,它背后是腾讯 Robotics X 实验室构建具身智能开放生态的宏大愿景。从提供底层连接技术的 RoboFusion,到面向应用开发的 Tairos(钛螺丝)具身智能开放平台,再到 HY-Embodied 系列基础模型,腾讯正在为整个机器人行业打造一套完整的软件基础设施。
对于想要在机器人领域探索AI变现的开发者和厂商来说,这套开源矩阵极大地降低了入局门槛。本体厂商可以专注于硬件制造,应用开发商可以专注于场景落地,而复杂的感知、推理与决策大脑,则可以依托这些开源的大模型底座。
具身智能的未来,不会仅仅依赖于某一次令人惊艳的Demo展示,而是建立在开放模型的持续迭代、真实数据的不断积累以及行业共建的生态之上。随着这些底层基础设施的日益完善,AI机器人走入千家万户的速度将远超我们的想象。
想要获取更多关于大模型AGI以及人工智能领域的深度解析与最新动态,欢迎持续关注 AIGC前沿资讯 (aigc.bar)。我们将为您提供最前沿的AI资讯,助您在AI时代的浪潮中把握先机。
Loading...

没有找到文章