2025年12月,具身智能领域传出颠覆性突破——专注于视觉-语言-动作(VLA)融合技术的研究团队宣布,其最新迭代的VLA模型通过引入90%的AI生成数据进行训练,核心性能较上一版本暴涨300%,在物体操作、环境交互等具身任务中准确率突破92%。该模型已完全开源,其“生成数据驱动”的训练范式,为解决具身智能领域“真实数据稀缺、标注成本高昂”的痛点提供了全新方案,被业内视为具身大脑发展的关键拐点。
数据革命:90%生成数据,打破真实数据桎梏
长期以来,具身智能模型的发展受限于数据瓶颈——真实世界中的视觉-动作交互数据不仅采集难度大,还需人工标注物体位置、动作指令、环境反馈等多维度信息,单条数据标注成本高达数十美元。此前主流VLA模型的训练数据中,真实数据占比通常超80%,这导致模型泛化能力弱,在未见过的场景中极易“失效”。
此次VLA模型的突破,核心在于构建了“生成数据为主、真实数据校准”的混合训练体系。研究团队基于自研的“世界模型模拟器”,批量生成包含家庭、办公、工业三大场景的交互数据:通过AI构建高保真3D环境,模拟不同光照、物体摆放、动作误差下的交互过程,自动生成“视觉画面+语言指令+动作轨迹+反馈结果”的四元组数据,单条数据生成成本仅为真实数据的1/100。最终用于训练的1.2亿条数据中,1.08亿条来自AI生成,仅1200万条为真实标注数据,占比仅10%。
为确保生成数据的有效性,团队采用“双阶段校准”策略:先用1200万条真实数据训练基础世界模型,确保生成环境与真实物理规律一致;再将生成数据与真实数据混合训练,通过对比学习修正生成数据的偏差。实验显示,经过校准后,生成数据的分布与真实数据相似度达91%,为模型性能提升奠定基础。
技术双突破:世界模型+具身大脑,交互精度比肩人类
除数据创新外,VLA模型在世界模型与具身大脑架构上的双重优化,是性能暴涨的关键。世界模型层面,团队引入“动态物理引擎”,能实时模拟物体碰撞、重力作用、材质反馈等物理规律,例如模型推动“玻璃水杯”与“金属饭盒”时,会根据不同材质生成不同的受力反馈与运动轨迹,让模型理解“动作-物理结果”的关联逻辑。
具身大脑架构则采用“视觉-语言-动作跨模态Transformer”设计,通过新增“动作预测头”与“环境记忆模块”,实现更精准的交互决策。动作预测头能基于当前视觉画面与语言指令,提前预测下一步动作的误差范围,避免“动作过冲”导致的操作失败;环境记忆模块则可存储过去30秒的交互数据,让模型根据历史动作调整当前决策——例如多次尝试打开抽屉失败后,模型会自动判断是否因“拉力不足”或“抽屉卡顿”,并调整动作力度与角度。
实测数据显示,该模型在多个权威具身任务基准中表现惊艳:在SAYCAN物体操作任务中,准确率从31%提升至92%;在RoboNet环境适应任务中,跨场景泛化准确率达88%,远超谷歌RT-2模型的65%;即便是复杂的“多步交互任务”(如“打开冰箱-取出牛奶-倒入杯子”),模型成功率也从28%飙升至85%,动作精度已接近人类水平。
开源赋能:降低具身智能研发门槛,加速产业落地
研究团队已将VLA模型的代码、训练框架及1.2亿条混合数据集完全开源,同时提供针对机器人、VR/AR设备的适配接口,大幅降低具身智能的研发门槛。“以前我们团队花半年时间都凑不齐100万条有效数据,现在直接用开源数据集就能启动训练,研发效率提升10倍。”某机器人创业公司技术负责人张工表示,其团队已基于开源VLA模型,快速开发出面向家庭服务的机器人原型,物体识别与操作精度较此前提升60%。
产业落地已同步提速。在工业领域,该模型已被应用于汽车装配机器人,通过精准识别零件位置与装配状态,将装配误差从0.5毫米缩小至0.1毫米,合格率提升12%;在家庭服务领域,与科沃斯、石头科技等企业的合作正在推进,搭载该模型的扫地机器人可实现“识别障碍物类型-选择清洁策略”的智能决策,例如避开易碎品、重点清洁宠物毛发区域;在VR/AR领域,模型能基于用户动作与虚拟场景交互,提升沉浸式体验的真实感。
行业启示:生成数据成AI研发新“燃料”
VLA模型的成功,验证了“生成数据驱动AI研发”的可行性,为其他AI领域提供了借鉴。此前,生成数据已在计算机视觉、自然语言处理领域得到应用,但在对“物理真实性”要求极高的具身智能领域,大规模使用生成数据尚属首次。业内专家预测,未来2-3年,生成数据将成为AI研发的核心“燃料”,在机器人、自动驾驶、工业智能等领域的应用比例将超过50%。
不过,生成数据的伦理与安全问题也需警惕。例如,生成数据可能隐含偏见,导致模型在特定场景中出现决策偏差;若生成数据与真实世界差异过大,还可能引发“模型幻觉”。对此,研究团队表示,未来将重点优化生成数据的校准技术,同时联合行业制定《生成数据用于AI训练的伦理规范》,确保技术健康发展。
随着VLA模型的开源与落地,具身智能正从实验室走向产业应用。90%生成数据带来的性能突破,不仅解决了数据瓶颈,更重构了具身智能的研发范式。未来,当生成数据与真实数据实现更完美的融合,具身智能模型或许将真正具备“理解世界、高效交互”的能力,推动机器人、智能设备等领域进入全新发展阶段。