机器人学会_从失败中成长_!π_0.6模型刷新具身智能天花板,复杂任务成功率超90%

2025 年 11 月 21 日,Physical Intelligence 团队推出新一代具身 VLA(视觉 – 语言 – 动作)大模型 π*0.6,凭借创新的 RECAP 训练方法,让机器人具备从自身错误中学习的能力,在连续制作浓缩咖啡、折叠衣物、组装纸箱等复杂现实任务中,成功率均突破 90%,吞吐量较前代模型翻倍,重新定义了具身智能的实用化标准。

与传统依赖人类示范的模仿学习不同,π*0.6 的核心突破在于 RECAP 训练框架 —— 一种融合 “指导、辅导、练习” 的三阶学习模式。该框架通过价值函数评估动作质量,将强化学习问题转化为大模型擅长的监督学习任务,让机器人既能吸收人类示范的基础经验,又能通过专家纠错和自主实践持续优化策略。具体而言,模型先通过离线 RL 阶段学习多源异构数据(含失败案例),再经人类示范微调适配具体任务,最后在在线阶段通过专家远程纠错和自主经验积累实现自我进化,彻底解决了传统机器人 “只会做对、不会改错” 的核心痛点。

在技术实现上,RECAP 框架展现出精巧的设计思路。针对具身场景中数据异构、动作生成模型难以直接应用策略梯度的问题,研究团队引入 “优势条件化” 策略:价值函数先对动作效果打分,将优势值二值化后作为额外输入,引导模型优先模仿高质量动作。同时,通过分布式价值函数预测离散价值分布,精准识别任务中的关键步骤与错误来源,让机器人在折叠衣物时能修正拉扯褶皱的失误,在制作咖啡时可调整压粉力度,即便出现轻微偏差也能快速恢复。

实测数据显示,π0.6 在三大高难度任务中表现亮眼:连续 13 小时制作浓缩咖啡、2 小时折叠多样化衣物均无需人工重置,工厂纸箱组装的各子任务成功率保持一致高水平。相较于仅经监督微调的模型,RECAP 方法使复杂衣物折叠、咖啡制作的吞吐量提升超 1 倍,失败率降低约 50%。模型架构上,π0.6 升级至 Gemma3(4B)骨干网络,Action Expert 参数量达 860M,通过流匹配与离散动作 token 生成,实现更精细的动作控制。

π*0.6 的发布不仅验证了 “从失败经验中学习” 的具身智能新路径,更解决了真实场景中优质示范数据稀缺的行业难题。它证明机器人可从海量 “不完美经验” 中提炼有效学习信号,为工业生产、家庭服务等领域的实用化机器人开发提供了可扩展方案。未来,随着该技术在更多复杂场景的落地,具身智能机器人有望真正具备自主适应、持续进化的核心能力,加速从实验室走向规模化应用。

© 版权声明

相关文章