数万次真机实测揭秘具身智能现状:RoboChallenge报告发布,千寻智能模型登顶且开源

【量子位 2026年1月31日讯】当大语言模型在数字世界不断突破时,具身智能如何在真实物理世界落地,终于有了权威答案。1月30日,全球首个具身智能大规模真机评测平台RoboChallenge发布首份年度报告,基于2025年Q4至2026年Q1期间数万次远程真机测试数据,首次以标准化、可复现的方式,揭开当前视觉-语言-动作(VLA)模型的真实能力水平。报告显示,基础任务成功率显著提升,但复杂多步骤任务仍处“攻坚期”,而中国海淀企业千寻智能的开源模型Spirit v1.5以50.33%的成功率成为首个突破50%门槛的模型,登顶综合榜单,标志着国产具身智能模型跻身全球第一梯队。

作为由原力灵机与Hugging Face联合发起的“真实考场”,RoboChallenge不仅填补了具身智能真机评测的行业空白,更通过开源数据集与跨机构协作,为技术迭代提供了关键标尺。

一、破解行业痛点:RoboChallenge打造具身智能“公正考场”

长期以来,具身智能评测面临“仿真与现实脱节、标准不统一、成本高企”三大难题,多数模型性能仅能在实验室环境验证,难以落地真实场景。RoboChallenge的出现,为行业提供了首个规模化、标准化的真机评测解决方案。

1. 20台真机集群构建“远程测试网络”

平台自2025年10月上线以来,已部署UR5、Franka Panda、ARX5、ALOHA四大主流机型的20台真机,覆盖单臂、双臂、固定基座与移动平台等多种形态,构建起稳定的远程物理测试网络。开发者无需拥有实体机器人,只需通过API接口远程调用真机,即可验证算法在真实物理环境中的表现——从抓取柔性毛巾到双臂协同贴胶带,所有操作均由真机实时执行,结果以视频与数据双形式记录,确保可复现、可追溯。

这种“远程真机”模式,彻底打破了硬件壁垒。例如,清华大学团队通过远程操控UR5机械臂,完成了“整理纸杯”任务的100次测试,无需投入百万级设备成本;而海外开发者通过调用ALOHA双臂平台,成功验证了多步骤装配算法的跨地域适配性。

2. 跨机构共建标准:30项任务+开源数据集

为推动评测规范化,RoboChallenge于2025年11月联合智源研究院、清华大学、智元机器人等8家机构成立组委会,共同制定评测体系。平台同步开源Table30数据集,包含“叠碗”“制作三明治”“寻找固定颜色物体”等9大类30项标准化桌面任务,覆盖柔性物体处理、长时序规划、精细操作等核心难点,为全球研究者提供统一的训练与评测基准。

“这些任务不是简单的‘机械重复’,而是模拟真实生活场景。”组委会成员、原力灵机技术负责人解释,例如“贴胶带”任务需机器人精准定位胶带位置、撕开胶纸并贴合纸箱,考验视觉识别、力控感知与动作协同能力;“插花”任务则要求保持花枝竖直插入花瓶,对运动精度与平衡控制提出极高要求。

二、报告核心发现:基础任务成熟,复杂任务仍是“硬骨头”

基于数万次真机测试数据,RoboChallenge报告清晰勾勒出当前具身智能的能力边界——基础操作能力已逐步成熟,但复杂场景的通用智能仍有巨大提升空间。

1. 基础任务成“入门考题”,成功率超60%

报告显示,“叠碗”“物体移入盒子”等单步骤、低复杂度任务,成为多数模型的“验证首选”,平均成功率超过60%。以Pi0.5模型为例,其“叠碗”任务成功率达72%,能稳定完成从抓取碗具到堆叠对齐的全流程,证明VLA模型在简单场景的视觉理解与动作执行能力已趋近成熟,类似具身智能的“Hello World”阶段已实现突破。

2. 复杂任务成功率趋近于零,暴露能力短板

与之形成鲜明对比的是,涉及多步骤决策、长期规划与精细操作的任务,如“整理纸杯(分类堆叠不同高度杯子)”“制作三明治(依次放面包、生菜、火腿)”,所有参测模型的成功率均低于15%,部分任务甚至接近零。数据显示,模型在“多步骤衔接”与“异常处理”上问题突出——例如在“制作三明治”任务中,70%的失败源于机器人无法判断“生菜放完后需接着放火腿”,或在面包滑落时无法及时调整抓取策略。

“这说明当前模型仍缺乏‘全局任务观’。”RoboChallenge技术团队分析,人类完成复杂任务时会提前规划步骤并灵活应对突发状况,而模型多依赖“单步指令-动作”的简单映射,难以处理长时序逻辑与环境变量。

3. 榜首模型成功率仅50%,通用能力待突破

尽管千寻智能Spirit v1.5以50.33%的综合成功率登顶,成为首个突破50%门槛的模型,但这一数据也揭示了行业现状:即便是最顶尖的具身智能模型,在30项标准化任务中仍有近一半无法完成。报告指出,模型的“泛化能力”与“精细操作”是主要短板——在跨机型测试中,某模型在Franka Panda上“抓取物体”成功率达80%,但切换至ARX5机型后成功率骤降至35%;而在“使用镊子夹取细小螺丝”等精细任务中,所有模型的平均成功率不足10%,远低于人类水平。

三、中国力量亮眼:千寻智能Spirit v1.5登顶且开源

在参与评测的众多模型中,中国海淀企业千寻智能的Spirit v1.5成为最大亮点——不仅以66.09分的综合得分斩获第一,更同步开源模型权重与代码,以透明化方式接受全球社区检验。

1. 三大核心优势:泛化、稳定、精准

Spirit v1.5采用VLA(视觉-语言-动作)统一建模框架,将感知、理解、执行整合为单一决策流程,避免多模块串联的信息损耗。其优势在评测中尤为突出:

  • 跨场景泛化:在“寻找固定颜色物体”任务中,即便绿色物体被压在堆叠物品最下方,模型仍能主动搜寻并精准拾取,错误率比Pi0.5低40%;

  • 长时序稳定:连续执行“取物-移物-摆放”3个步骤时,成功率保持在65%以上,无任务中断或动作偏差;

  • 精细操作精准:“贴胶带”任务中,双臂协同完成胶带定位、撕开、贴合全流程,位置偏差控制在2mm以内,远超行业平均水平。

2. 开源赋能生态:消费级显卡可部署

为推动技术普惠,千寻智能将Spirit v1.5的预训练权重、完整训练代码与部署文档全面开源。开发者仅需RTX 4090级别的消费级显卡,即可完成从训练到推理的全流程,无需依赖超算资源。这种“透明化”举措,不仅验证了榜单成绩的真实性,更降低了具身智能研究的门槛——截至报告发布,已有超过500个团队下载模型,其中30%为高校实验室与中小企业。

“开源不是终点,而是协作的起点。”千寻智能技术负责人表示,希望通过共享技术,吸引全球研究者共同优化模型,解决复杂任务泛化性不足等行业难题。

四、未来展望:从“桌面任务”迈向“真实场景”

随着报告发布,RoboChallenge宣布将启动新一轮升级,进一步拓展评测边界,推动具身智能从“桌面测试”走向“产业落地”。

1. 场景与机型双扩展

平台计划新增“家庭清洁”“工业装配”等更贴近真实需求的场景任务,同时引入服务机器人、移动机械臂等新机型,覆盖居家、工厂、医院等多元环境。例如,“家庭清洁”任务将要求机器人避开障碍物清扫地面,“工业装配”任务需完成零件拧紧与质检,进一步考验模型的环境适应能力。

2. 分布式评测提升效率

为应对指数级增长的测试需求,RoboChallenge将探索分布式真机评测机制,联合全球合作伙伴增设真机节点,实现“就近调用、实时反馈”,将单次测试响应时间从当前的5分钟缩短至1分钟以内,支持更多中小团队参与。

3. 聚焦“失败数据”迭代

报告特别强调,平台沉淀的数万条“失败数据”(如抓取滑落、步骤错乱)将成为核心资源。组委会计划建立“错题集”共享库,标注失败原因与优化建议,帮助开发者针对性改进算法——例如,针对“物体遮挡导致识别失败”的问题,提供多视角视觉融合的解决方案参考。

结语:具身智能进入“真机验证”时代

RoboChallenge首份年度报告的发布,不仅为具身智能划定了当前的能力边界,更标志着行业从“仿真竞赛”迈向“真实落地”的关键转折。从千寻智能的开源突破,到跨机构协作的标准共建,中国在具身智能领域正展现出“技术创新+生态开放”的双重优势。

未来,随着真机评测的普及与数据集的积累,具身智能有望加速突破“最后一公里”障碍——当机器人能像人类一样灵活应对家庭清洁、工业装配等复杂场景,具身智能的“GPT-3.5时刻”或将真正到来。而RoboChallenge搭建的“公正考场”,将持续为这一进程提供关键的推动力量。

要不要我帮你整理一份RoboChallenge核心任务与模型性能对照表,详细拆解30项任务的难度要点、各顶尖模型的成功率差异,以及千寻智能Spirit v1.5的优化方向?

© 版权声明

相关文章