基准测试登顶 2025 年 11 月 26 日,小米汽车陈龙团队正式开源全球首个打通自动驾驶与具身智能的跨领域基座模型 MiMo-Embodied,这一突破解决了长期困扰行业的 “室内操作与户外驾驶知识迁移” 难题。该模型基于 MiMo-VL 架构,在自动驾驶与具身智能共计 29 项 Benchmark 测试中均超越专用模型与通用模型,实现跨领域性能领跑,同时通过开源向全球开发者开放能力,为跨场景 AI 应用落地提供关键技术支撑。
打破行业痛点:从 “单领域专精” 到 “跨场景统一”
此前,多模态模型在具身智能与自动驾驶领域长期处于 “割裂” 状态:具身模型专注室内操作(如机器人抓取、家居导航),自动驾驶模型聚焦户外道路场景(如环境感知、路径规划),两者因场景差异大、数据体系不同,难以实现能力迁移。同时,行业缺乏全面的跨领域评估体系,无法衡量模型的综合表现。
MiMo-Embodied 的核心创新在于构建 “统一基座”:通过整合通用视觉、具身任务、自动驾驶三大维度数据,采用四阶段渐进式训练策略,让模型同时掌握室内操作与户外驾驶的核心能力。例如,它既能回答 “前方蓝色卡车出现时车辆应规划何种轨迹”(自动驾驶场景),也能判断 “机器人下一步应如何用蒸汽熨斗熨烫衣物”(具身场景),真正实现 “一车一机器人,模型全搞定”。
三大核心架构 + 四阶段训练:构建跨领域能力基石
MiMo-Embodied 的跨领域能力源于精心设计的技术体系,从架构到训练形成完整闭环:
1. 架构设计:视觉 – 文本深度融合
模型基于 “Vision Transformer(ViT)+ MLP 投影器 + 大语言模型(LLM)” 三层架构:
-
ViT 视觉编码器:处理单图、多图、视频等多种视觉输入,提取复杂空间模式与时序关系,为跨场景感知奠定基础;
-
MLP 投影器:将视觉 Token 映射到与 LLM 对齐的潜在空间,解决视觉与文本模态的 “语义鸿沟”;
-
LLM 推理核心:理解文本指令并结合视觉信息生成决策,支持多轮推理与复杂任务规划,是跨领域能力的 “大脑中枢”。
2. 数据集构建:覆盖三大维度,总量达 1.8B Token
为实现跨领域迁移,团队构建了涵盖通用、具身、自动驾驶的高质量数据集:
-
通用数据:基于 MiMo-VL 语料库,包含图像、视频、长文本,确保模型具备基础感知与推理能力;
-
具身智能数据:整合 PixMo-Points、RoboAfford 等数据集,覆盖物体可供性预测(如 “杯子能否被抓取”)、任务规划(如 “清洁桌面的步骤”)、空间理解(如 “物体相对位置判断”);
-
自动驾驶数据:纳入 CODA-LM、DriveLM 等数据集,涵盖环境感知(如 “识别斑马线前的车辆”)、状态预测(如 “预判前车行为”)、路径规划(如 “交叉路口转弯决策”)。
3. 四阶段训练:渐进式提升跨领域能力
团队采用 “从基础到高阶” 的四阶段训练策略,确保模型稳步掌握复杂能力:
| 阶段 | 训练目标 | 核心数据 | 关键优化 |
|---|---|---|---|
| 1 | 建立具身基础能力 | 通用数据 + 具身数据 | 监督微调,强化视觉 – 语言理解与具身推理 |
| 2 | 融入自动驾驶能力 | 阶段 1 数据 + 自动驾驶数据 | 重点训练多视角空间推理、交通场景分析 |
| 3 | 增强复杂推理能力 | 阶段 2 数据 + 思维链(CoT)数据 | 学习多步推理逻辑,如风险评估、行为解释 |
| 4 | 优化精度与可靠性 | 阶段 3 数据 + 强化学习(RL)数据 | 采用 GRPO 算法,基于正确性设计奖励信号(如选择题匹配、IoU 计算) |
29 项 Benchmark 登顶:性能全面超越专用模型
实验验证显示,MiMo-Embodied 在具身智能与自动驾驶领域均实现 “最先进(SOTA)” 性能:
1. 具身智能领域:空间与规划能力突出
在可供性预测、任务规划、空间理解三大核心场景,模型表现碾压开源与闭源竞品:
-
可供性预测:RoboRefIt 测试得 63.6 分,超越 RoboBrain-2.0 的 63.59 分;RoboAfford-Eval 测试得 69.81 分,大幅领先 Qwen2.5-VL 的 16.10 分;
-
任务规划:Cosmos 测试得 56.8 分,优于 GPT-4o 的 53.30 分;
-
空间理解:RoboSpatial 测试得 48.0 分,远超 InternVL3.5 的 16.80 分,展现精准的物体位置判断与空间关系解析能力。
2. 自动驾驶领域:感知 – 预测 – 规划全栈领先
在 12 项自动驾驶基准测试中,模型在复杂场景处理上优势显著:
-
环境感知:Drama 测试得 76.14 分,超越专用模型 RoboTron-Drive 的 0 分;IDKB 测试得 43.42 分,是 Qwen2.5-VL(13.44 分)的 3 倍多;
-
状态预测:nuScenes-QA 测试得 56.71 分,领先 Gemini2.5-Pro 的 16.12 分;
-
路径规划:LingoQA 测试得 52.18 分,远超 GPT-4o 的 12.38 分,能在交叉路口转弯、变道超车等复杂场景中生成安全高效的决策。
3. 真实场景验证:从实验室到落地的跨越
定性测试显示,MiMo-Embodied 在现实任务中表现出色:
-
具身操作:能精准标注 “粉色勺子手柄位置”“橙子间的空闲区域”,空间定位精度超越 GPT-4o 与 Qwen2.5-VL;
-
自动驾驶:在交叉路口左转、跟车行驶、变道超车等场景中,能整合道路上下文与导航意图,生成连贯决策,如 “识别左侧等待车辆后平稳左转”“保持安全距离跟车”。
开源生态加持:推动跨领域 AI 普惠
为加速行业发展,小米已在 GitHub(https://github.com/XiaomiMiMo/MiMo-Embodied)与 Hugging Face(https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B)开放 MiMo-Embodied-7B 模型,包含指令版与推理版,开发者可基于其进行机器人控制、自动驾驶系统开发、智能家居交互等场景的二次创新。
项目负责人、小米智能驾驶首席科学家陈龙表示,MiMo-Embodied 的开源旨在打破领域壁垒,未来还将探索 “视觉 – 语言 – 动作(VLA)” 模型,让 AI 通过自然语言理解实现更复杂的物理世界交互。而一作郝孝帅博士(曾任职于智源研究院、亚马逊)也强调,跨领域能力是 AI 走向通用的关键,此次开源希望汇聚全球开发者力量,共同推进具身智能与自动驾驶的融合创新。
从技术突破到开源共享,MiMo-Embodied 不仅为小米在跨领域 AI 竞争中奠定优势,更以开放姿态推动整个行业的技术迭代。随着更多开发者参与优化,未来我们或许能看到 “一个模型控制机器人打扫房间、同时辅助车辆安全驾驶” 的场景,让通用 AI 离现实更近一步。