80ms丝滑响应!小米Xiaomi-Robotics-0开源 具身智能迈入工业落地新阶段

AI 资讯11小时前发布 dennis
0

【量子位 2026年2月12日讯】当具身机器人行业还在纠结”表演级动作”与”实用化落地”的平衡时,小米重磅抛出首代VLA(Vision-Language-Action)大模型Xiaomi-Robotics-0。这款仅4.7B参数的模型,以80ms推理延迟、30Hz实时控制频率的硬核表现,在LIBERO、CALVIN等六大主流基准测试中全面刷新SOTA纪录,更难得的是,它在消费级RTX 4090显卡上即可流畅运行,且已完全开源,为具身智能的工业化落地提供了低成本、高可用的技术方案。

三大技术创新:破解”卡顿+傻干”行业痛点

Xiaomi-Robotics-0的核心突破,在于针对性解决了具身机器人”动作卡顿”与”懂活不会干”的两大行业顽疾,通过架构、预训练、后训练三大技术创新,实现”理解+执行”的双重飞跃。

双脑协同架构:DiT小脑让动作丝滑连贯

小米创新性采用”大脑+小脑”的双脑协同设计,基于MoT(Mixture-of-Transformers)架构重构动作生成逻辑。其中,VLM(视觉语言模型)担任”大脑”,负责环境理解、指令解析与全局决策;16层DiT(Diffusion Transformer)担任”小脑”,专门负责连续动作块生成。

不同于传统离散token编码导致的动作断裂问题,DiT配合流匹配技术可直接生成连续动作向量,让机器人动作更平滑灵巧。同时,通过流匹配训练机制,推理阶段采样步数从传统扩散模型的数十至数百步压缩至五步,再加上DiT与VLM复用KV Cache减少重复计算,最终实现80ms的超低推理延迟,30Hz的实时控制频率让机器人响应速度媲美人类反应。

两阶段预训练:会干活也不丢”思考力”

针对具身模型常见的”学动作丢理解”痛点,Xiaomi-Robotics-0设计了独特的两阶段预训练策略。第一阶段通过Choice Policy与跨平台轨迹数据,让VLM在理解图像与指令的同时,建立”视觉-动作”映射,同步混合视觉语言数据避免通识能力退化;第二阶段冻结VLM核心参数,单独训练DiT进行精细化动作生成,确保模型既懂复杂指令,又能精准执行连续动作。

这一设计让模型在保持强大动作控制能力的同时,视觉理解能力毫不逊色。在MMBench、ScienceQA等9项VLM基准测试中,Xiaomi-Robotics-0多数指标超越同类模型,证明其实现了”脑手协同”的均衡发展。

Λ形掩码机制:告别动作惯性精准修正

为解决传统异步执行的”动作跑偏”问题,模型引入Λ-shape attention(Lambda形掩码机制),如同给机器人装上”带后视镜的瞄准镜”:动作块中紧邻历史动作的部分回看先前轨迹,保证衔接流畅;远离历史动作的部分则聚焦当前视觉反馈,实时修正环境变化带来的偏差。

这种机制让机器人在执行长程任务时,既能保持动作连续性,又能灵活应对环境变化,实现”连贯且可修正”的理想状态。在CALVIN长程操作基准中,Xiaomi-Robotics-0连续完成任务的平均长度领先同类模型,充分验证了其在复杂场景中的稳定性。

仿真+真机双料SOTA 工业场景落地就绪

Xiaomi-Robotics-0的性能已通过仿真与真实场景的双重验证。在LIBERO、CALVIN、SimplerEnv等六大仿真环境中,它全面超越π0、OpenVLA等30余个头部模型,其中Libero-Object任务成功率达到100%,平均成绩98.7%位列榜首;在CALVIN基准的ABCD→D长程任务中,连续完成率最高达100%,展现出极强的长时任务处理能力。

真实场景测试更凸显其工业价值:在”叠毛巾”任务中,模型连续30分钟处理6种不同软体毛巾,保持高成功率与吞吐率;”拆卸乐高”任务中,在MA与LA-10场景实现100%成功率,吞吐量领先行业约25%,毫米级的操作精度完全满足工业装配需求。

开源生态赋能 锚定工业务实路线

小米此次不仅发布模型,更同步开源了触觉驱动精细抓取微调模型TacRefineNet,两者构成”眼-脑-手”协同体系:Xiaomi-Robotics-0负责全局决策与连续控制,TacRefineNet依托11×9压阻式触觉阵列实现末端毫米级微调,无需视觉与三维模型即可Zero-shot部署于真实产线,精准切中非结构化工业场景的作业痛点。

作为”务实进厂派”的核心布局,小米将模型完全开源,在GitHub、Hugging Face等平台开放架构细节、算法方案与模型权重。这一举措打破了”具身大模型高门槛”的行业认知,让中小开发者无需重复训练昂贵基座模型,可直接基于开源成果开发垂直场景应用,加速具身智能的产业落地进程。

业内专家指出,Xiaomi-Robotics-0的发布标志着具身智能从”技术表演”向”工业生产力”的关键转变。其低延迟、高精度、易部署的特性,以及开源开放的生态策略,不仅为行业提供了可复用的技术范本,更彰显了科技大厂在重资产、长周期赛道中的产业担当。随着更多开发者参与生态共建,具身机器人规模化应用于工厂分拣、精密装配等场景的未来已近在眼前。

© 版权声明

相关文章