【量子位 2026年1月31日讯】具身智能领域再迎颠覆性突破。蚂蚁集团旗下灵波科技正式开源具身世界模型LingBot-VA,全球首创自回归视频-动作建模框架,首次实现“世界模型直接控制机器人动作”——模型在生成“下一步世界状态”画面的同时,同步推演并输出精准动作序列,让机器人像人类一样“边思考推演、边执行动作”。在真机与仿真评测中,该模型均刷新行业纪录,30-50条演示数据即可适配高难度任务,为具身智能落地产业场景提供关键技术支撑。
作为蚂蚁灵波“开源周”的压轴成果,LingBot-VA与此前开源的LingBot-Depth(空间感知)、LingBot-VLA(智能基座)、LingBot-World(模拟环境)形成完整技术链,从“看清环境”“理解任务”“模拟推演”到“执行动作”,彻底打通具身智能感知-决策-执行全链路,推动行业从“实验室演示”迈向“产业级实用”。
一、核心突破:世界模型与动作控制深度融合,机器人学会“边想边做”
传统具身智能系统中,世界模型与动作控制是“两张皮”——世界模型仅负责推演未来场景,需额外的控制模型将推演结果转化为动作,不仅延迟高,还易出现“推演与执行脱节”。而LingBot-VA通过架构创新,实现二者的原生融合。
1. 自回归视频-动作框架:同步生成画面与动作
LingBot-VA采用Mixture-of-Transformers(MoT)跨模态架构,将大规模视频生成模型与机器人控制模块深度绑定。在任务执行时,模型会基于当前环境观测(如摄像头画面、传感器数据),同步完成两件事:
-
生成未来状态画面:预测“执行动作后,世界会变成什么样”,例如叠衣服时,会生成“衣物折叠后平整摆放”的画面;
-
输出对应动作序列:直接给出实现该画面的机器人关节角度、力度控制等具体指令,无需中间转换环节。
这种“画面-动作”同步生成的模式,让机器人摆脱“先推演完再行动”的滞后性,实现类似人类“做一步想一步”的实时决策,尤其适配长时序、动态变化的任务。
2. 闭环推演机制:实时修正,不偏离物理现实
为避免模型“空想”脱离实际,LingBot-VA设计了独特的闭环反馈机制:每一步动作生成后,都会实时接入机器人的传感器数据(如力控反馈、视觉捕捉),验证“实际执行结果是否与推演画面一致”。若出现偏差(如抓取物体偏移),模型会立即调整下一轮推演与动作,确保整个过程始终贴合物理规律。
在“插入试管”这类高精度任务中,该机制表现尤为突出:当试管插入角度出现0.5°偏差时,模型可通过视觉反馈瞬间修正动作,成功率较无闭环的传统模型提升35%。
二、性能碾压:少数据适配高难任务,仿真真机双破纪录
无论是需要精细控制的真机任务,还是复杂的仿真场景,LingBot-VA都展现出远超行业基准的实力,且具备“少样本快速适配”的产业级优势。
1. 真机评测:30-50条数据适配,成功率平均提升20%
在涵盖三大类六项高难度真机任务中,LingBot-VA仅需少量演示数据即可完成适配,且性能显著超越业界强基线Pi0.5:
-
长时序任务:制作早餐(煎蛋、烤面包、组装三明治)、拾取散落螺丝,需连续执行10+步骤,成功率达82%,较Pi0.5提升18%;
-
高精度任务:插入试管(误差需≤0.1mm)、拆快递(精准划开胶带不损坏内部物品),成功率达91%,较Pi0.5提升22%;
-
柔性物体操控:叠衣物、叠裤子(需感知面料柔软度,避免褶皱),成功率达78%,较Pi0.5提升25%。
这种“少数据适配”能力,大幅降低了机器人落地产业的成本——无需为每个任务采集上千条训练数据,中小企业也能快速部署。
2. 仿真评测:双臂协同、长时序任务破纪录
在两大权威仿真基准测试中,LingBot-VA刷新行业纪录,展现出强大的泛化与持续学习能力:
-
RoboTwin 2.0(双臂协同):首次将高难度双臂协同任务(如双人配合组装家具、传递易碎品)的成功率提升至90%以上,此前行业最高纪录为78%;
-
LIBERO(长时序终身学习):在需持续学习100+不同任务的基准中,平均成功率达98.5%,且任务切换时无性能衰减,解决了传统模型“学新忘旧”的问题。
三、工程化优化:突破端侧瓶颈,兼顾大模型能力与低延迟
大规模世界模型通常面临“算力需求高、推理延迟大”的问题,难以在机器人端侧部署。LingBot-VA通过三项关键优化,实现“大模型能力+低延迟控制”的平衡。
1. 异步推理管线:动作预测与电机执行并行
模型将“动作预测”与“电机执行”拆分为两条并行链路:当机器人执行当前动作时,模型已同步预测下一步动作,无需等待当前动作完成再启动推理,将整体延迟从200ms降至50ms以内,满足实时控制需求。
2. 记忆缓存机制:减少重复计算
引入基于任务场景的记忆缓存,模型会记住历史交互中的关键信息(如物体位置、材质特性),后续推理时无需重复分析,推理步骤减少40%。例如在“叠多条裤子”任务中,模型记住第一条裤子的面料硬度后,后续叠放时可直接复用该参数,效率显著提升。
3. 噪声历史增强:适配真实环境干扰
针对工业场景中的振动、光照变化等干扰,模型通过“噪声历史增强”策略,在训练时融入含噪声的传感器数据,使其在真实环境中仍能稳定推理。实验显示,在车间振动环境下,LingBot-VA的动作精度衰减仅5%,而传统模型衰减达20%。
四、生态价值:全链路开源,推动具身智能产业化
LingBot-VA的开源,并非单一模型的发布,而是蚂蚁灵波构建完整具身智能生态的关键一步。结合此前开源的三大组件,形成覆盖“感知-决策-模拟-执行”的全技术栈:
-
LingBot-Depth:提供高精度空间感知,让机器人“看清”环境细节;
-
LingBot-VLA:作为智能基座,理解自然语言指令与任务逻辑;
-
LingBot-World:构建高保真模拟环境,供模型低成本试错;
-
LingBot-VA:打通“模拟推演”到“真机执行”的最后一公里。
目前,LingBot-VA的模型权重、推理代码已全面开源至Hugging Face(https://huggingface.co/collections/robbyant/lingbot-va)、ModelScope等平台,开发者可直接下载适配自有机器人;同时,蚂蚁灵波通过InclusionAI社区提供技术支持,助力中小企业与科研团队快速落地。
在工业制造场景中,已有企业基于该技术栈实现“跨机器人协同”——一条产线中的AGV机器人、机械臂可共享同一套智能系统,无需单独开发,部署成本降低60%;在服务机器人领域,家政机器人通过LingBot-VA可快速学会“整理房间”“照顾老人”等复杂任务,适配家庭场景多样性。
结语:具身智能进入“全链路实用”时代
LingBot-VA的突破,不仅在于技术层面实现“世界模型控动作”,更在于通过开源生态降低了具身智能的落地门槛。从“需要海量数据训练”到“30条数据适配”,从“实验室专属”到“产业可用”,蚂蚁灵波的全技术栈开源,正在推动具身智能从“概念热点”变为真正能解决产业痛点的生产力工具。
随着更多开发者加入生态,未来有望在工业、农业、服务等领域看到更多“边推演边行动”的智能机器人,而LingBot-VA搭建的技术框架,也将成为具身智能产业化的重要基准。
要不要我帮你整理一份LingBot-VA全链路部署指南,详细拆解模型下载、真机适配、任务微调的操作步骤,以及工业、服务场景的落地案例?