具身智能迎重大突破 极佳视界新模型攻克长时程任务难题

AI 资讯7小时前发布 dennis
0

叠衣服、冲咖啡、折纸盒这些需要多步骤精细操作的日常小事,曾是具身智能领域难以突破的长时程任务瓶颈,而如今这一技术壁垒被成功打破。极佳视界推出GigaBrain-0.5M* VLA大模型,作为曾斩获RoboChallenge全球第一的GigaBrain-0.1的进化版本,该模型实现了复杂长时程任务近100%的成功率,数小时连续零失误执行,一举刷新具身智能领域的技术纪录。

此次全新亮相的GigaBrain-0.5M* VLA大模型,核心突破在于两大创新设计。其一为世界模型条件驱动,将世界模型对未来状态与价值的预测结果作为条件输入,大幅提升了模型在长时程任务中的鲁棒性,让机器人在连续操作中更具稳定性。其二是创新引入人在回路持续学习机制,系统通过人工筛选校正的模型推演轨迹开展迭代训练,结合真实环境的交互反馈持续优化决策策略,最终形成“行动—反思—进化”的闭环式持续学习,实现了模型的自主迭代升级。在与主流方法RECAP的对比测试中,该模型将任务成功率直接提升30%,重构了具身智能的技术范式。

为实现这一突破,极佳视界团队首创基于世界模型的强化学习范式,设计了四阶段闭环训练流程,让模型的学习与进化更具系统性。首先依托大规模机器人操作数据完成世界模型预训练,实现对未来状态和价值的精准预测;随后以该预测结果为依据微调策略网络,为动作决策提供科学指引;再将优化后的策略部署到真实物理环境,通过人在环干预机制采集模型推演轨迹数据;最后利用筛选后的有效数据,联合优化世界模型与决策策略,完成模型的持续学习与进化。这一流程让模型的能力提升形成了可循环的正向闭环。

在实际测试中,GigaBrain-0.5M* VLA大模型展现出远超行业基线的性能表现。面对折纸盒、咖啡制备、衣物折叠等包含多阶段操作、精细感知与持续决策的高难度长时程任务,模型均实现接近100%的成功率,且能稳定复现成功执行轨迹。其基于世界模型的价值预测方案,在执行效率和预测精度上也优于传统VLM方案,凭借对未来状态的显式建模和单步降噪机制,为价值函数提供了关键的时序上下文支撑。以叠衣服任务为例,模型的价值预测曲线能与物理操作进程高度契合,操作调整时合理波动、顺利推进时稳步上升、遇干扰时及时下降,精准反映任务状态,为决策提供了可靠的“认知先验”。

海量且高质量的训练数据,成为模型性能的坚实支撑。GigaBrain-0.5M*的基座模型GigaBrain-0.5,基于总计10931小时的多样化机器人操作数据完成预训练。其中61%的6653小时数据由自研具身世界模型GigaWorld高保真合成,覆盖纹理迁移、视角变换、人手到机械臂映射等丰富场景;剩余39%的4278小时数据则来自真实机器人采集,保障了模型在物理世界的可执行性。合成数据有效突破了真实采集的长尾瓶颈,增强了模型在分布外场景的适应性,而真实数据则让模型的策略更贴合实际应用,二者结合大幅拓展了模型的任务覆盖广度与泛化能力。

此次技术突破的背后,是极佳视界对具身智能产业发展的体系化布局。团队围绕自研的世界模型平台GigaWorld、通用具身大脑GigaBrain、原生本体Maker,打造出“基模-本体-场景”深度融合的自我进化闭环生态。这一体系化布局让企业不仅能在实验室中斩获技术冠军,更将模型的进化效率提升了10-100倍,为具身智能技术从实验室走向实际应用奠定了坚实基础。

从攻克长时程任务瓶颈,到构建自主进化的技术生态,极佳视界的此次突破让具身智能向实际应用迈出了关键一步。未来,随着该技术的持续迭代与落地,通用机器人有望逐步走进千行百业与千家万户,在生活服务、工业生产、智能服务等多个领域释放价值,推动具身智能产业迈入规模化应用的全新阶段。

© 版权声明

相关文章