腾讯前研究员创业获亿元融资,3年内让“硅基保姆”走进你家
type
status
date
slug
summary
tags
category
icon
password
网址
“硅基保姆具象化了!” 当灵启万物创始人朱庆旭发布其人形机器人流畅完成家务的视频时,社交媒体上充满了这样的惊叹。这位前腾讯Robotics X的“95后”算法研究员,创业仅4个月便斩获三轮近亿元融资,并大胆预测:双足人形机器人将在3-5年内走进普通家庭。这一时间表远比业界普遍预期的5-10年更为激进。
朱庆旭的信心从何而来?这背后是对当前主流技术路线的深刻反思和一条全新的、颠覆性的技术路径。这不仅是一家初创公司的故事,更可能预示着具身智能领域,尤其是家庭服务机器人赛道即将迎来的范式转移。想要紧跟最新的AI资讯和行业动态,可以关注AI门户网站 https://aigc.bar,获取最前沿的人工智能信息。
遥操作的“原理性缺陷”:为何机器人动作迟缓?
当前,具身智能领域训练机器人的主流方法之一是遥操作(Teleoperation)。即由人类操作员远程控制机器人完成任务,并记录下整个过程的数据用于训练AI模型。然而,朱庆旭一针见血地指出,这条路径存在“原理性缺陷”。
他认为,遥操作本质上是调用了人类大脑的“慢系统”(System 2)。操作员需要时刻观察、思考、决策,再将指令传递给机器人,这个过程充满了非自然的停顿和卡顿。用这种“非本能”的、低效的数据去训练机器人,就像让一个学生模仿一位动作迟缓的老师,其学习效果的上限从一开始就被锁定了。这就是为什么我们看到的许多机器人演示视频都需要加速播放,因为它们的原始动作远未达到人类的流畅度。
此外,对于需要精细力反馈的任务,如拧瓶盖,遥操作更是捉襟见肘。操作员无法感知到机器人手部的触觉,导致动作效率和成功率大打折扣。这一观点也得到了波士顿动力等行业巨头的侧面印证,他们同样质疑遥操作采集的数据缺乏动态性和效率。
“小脑+大脑”架构:灵启万物的破局之道
面对遥操作的困境,灵启万物提出了一套创新的解决方案:“光学动捕+UMI”数据采集方案,并结合“小脑+大脑”的分层算法架构。
数据采集革命:“光学动捕+UMI”
为了获取高质量的训练数据,灵启万物放弃了遥操作,转而采用一种双管齐下的策略:
- 光学动捕(Motion Capture):在专业的动捕实验室内,由真人穿戴传感器设备,以最自然、流畅的方式完成各种基础动作(如走、跑、蹲、跳、抓取)。这套系统能够高精度地记录下人类“快系统”(System 1)驱动下的本能动作,确保了数据的高质量和高保真度。
- UMI(Universal Manipulation Interface):这是一种手持式夹爪设备。操作员可以直接用它与真实世界中的物体进行交互,从而大规模采集手与物体交互的精准数据。这解决了动捕无法真实接触物体的问题,保证了数据的可规模化。
通过将动捕采集的全身流畅动作与UMI采集的手部精细操作数据相结合,灵启万物构建了一个既高质量又可规模化的“人类动作库”。这批数据位于数据金字塔的中层——质量远高于普通视频数据,数量又远超稀疏的遥操作数据,为训练高效的机器人模型提供了坚实基础。
算法架构创新:“小脑”与“大脑”的分工
在算法层面,灵启万物借鉴了生物智能的结构,设计了分层架构:
- 小脑(元动作库):负责运动控制,专注于掌握所有人类的基础“元动作”。通过在仿真环境中利用动捕数据进行训练,这个“小脑”可以构建一个通用的、可跨场景调用的基础技能库。
- 大脑(任务规划与泛化):负责感知、理解和决策。它通过摄像头观察环境,理解用户的语言指令,然后智能地规划任务步骤,并精准调用“小脑”中的元动作来执行。
这个架构的优势在于解耦和高效。“小脑”一旦训练完成,其掌握的基础技能就是通用的,极大地提升了机器人在学习新任务时的效率。
从无人商店到家庭:人形机器人的落地路线图
朱庆旭为人形机器人的商业化描绘了一条清晰的路线图,这个过程将比许多人想象的要快得多。
第一步:1-2年内落地商用场景
首先,人形机器人将在1-2年内进入如无人快餐店、无人零售店等结构化场景。这些场景的特点是任务相对固定、环境可控。例如,在“无人肯德基”中,炸薯条、包装汉堡等动作是有限且可穷举的。
利用“动捕+UMI”方案,灵启万物可以在实验室内高效采集所有岗位所需的动作,训练机器人掌握这些技能。朱庆旭透露,以肯德基的场景为例,让机器人学会所有岗位的动作可能只需要2到3天。这种惊人的学习速度,正是其高效数据采集和算法架构优势的直接体现。
第二步:3-5年内进入家庭服务
在成功验证商业模式后,终极目标——家庭服务,将在3-5年内成为现实。朱庆旭坚信,双足人形是唯一能无缝融入人类家庭环境的形态。
人类世界是为人形结构设计的。家中的台阶、地毯、错层,以及需要登高取物、俯身捡拾等复杂动作,都是轮式或足式机器人难以应对的。人形机器人不仅能更好地适应这些环境和任务,还能最大化地复用海量的人类动作数据进行学习,这是其相对于非人形方案的根本优势。
进入家庭后,最终形态的机器人将出厂自带完成绝大多数家务的能力。对于全新的、个性化的任务,未来用户或许可以通过一套简易的示教设备,“手把手”地教会机器人,实现真正的个性化服务。
结论:技术判断力是真正的壁垒
当被问及核心壁垒时,朱庆旭的回答发人深省:“技术没有壁垒,只有领先。” 他认为,灵启万物真正的护城河,并非“动捕+UMI”这个具体的方案,而是团队在行业混沌期看清方向、并坚定执行的技术判断力与迭代能力。
在所有人都涌向遥操作时,他们敢于判断其存在缺陷并寻找新路;在业界普遍认为家庭场景遥不可及时,他们坚守终局并制定了可行的路线图。这种“在健身而非化妆”的务实精神,以及将不成熟想法一步步变为现实的强大执行力,正如当年OpenAI坚持GPT路线一样,才是穿越周期、最终胜出的关键。
灵启万物的崛起,为我们描绘了一幅激动人心的未来图景:一个由高效、智能的人形机器人提供服务的家庭生活。这不再是科幻电影的片段,而是一个正在加速到来的现实。想了解更多关于AGI、大模型和人工智能的最新动态,欢迎访问AI门户网站 https://aigc.bar,与未来同行。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)