入职10天即出硬核成果!95后AI才女罗福莉领衔,小米开源全球首个跨具身智驾大模型

AI 资讯4小时前发布 dennis
0

2025 年 11 月 22 日消息,95 后 AI 领域领军人才罗福莉正式加盟小米仅 10 天,便带领 MiMo 团队(聚焦空间智能)交出重磅成果 —— 发布全球首个打通自动驾驶与具身智能两大领域的跨具身基座模型 MiMo-Embodied,并宣布全面开源。该模型在 29 个相关基准测试中全部霸榜,成功打破室内操作与户外驾驶的领域壁垒,为智能终端与自动驾驶的技术融合开辟新路径。

作为小米智驾团队首席科学家陈龙担任项目负责人的核心研究,MiMo-Embodied 的核心突破在于实现了跨领域能力的统一。此前,具身智能模型多专注于机器人室内操作,自动驾驶模型则聚焦户外道路场景,两者存在显著技术鸿沟,难以实现知识迁移。而小米此次推出的模型,通过融合通用视觉、具身任务及驾驶场景的高质量数据集,采用四阶段渐进式训练策略,成功打通两大领域,既能完成机器人拿取、导航等操作任务,也能实现车辆环境感知、路径规划等自动驾驶核心功能。

在技术架构上,MiMo-Embodied 基于 MiMo-VL 架构打造,由视觉编码模块、投影器和大语言模型三部分组成:通过 Vision Transformer 编码图像、视频等多类型视觉输入,借助 MLP 投影器实现视觉 Token 与文本语义的对齐,最终通过大语言模型完成复杂推理与响应生成。训练过程中,团队创新性地采用 “具身智能监督微调→自动驾驶监督微调→思维链推理微调→强化学习微调” 的四阶段策略,逐步提升模型的跨领域适配能力与推理精度。

实测数据显示,该模型在具身智能的可供性预测、任务规划、空间理解三大核心领域表现突出,RoboRefIt 任务得分 82.3、RoboAfford-Eval 任务得分 69.8,均超越 Qwen2.5-VL、GPT-4o 等主流模型;在自动驾驶领域的环境感知、状态预测、驾驶规划等任务中同样表现亮眼,nuScenes-QA 任务得分 56.7、DriveAction 任务得分 80.99,显著优于专用自动驾驶模型。无论是 “识别小米汽车大灯位置” 这类精细视觉任务,还是 “前方有蓝色卡车时的轨迹规划” 这类驾驶决策任务,模型均能给出精准响应。

值得关注的是,该研究的核心领衔者罗福莉是业界知名的 95 后 AI 才女,本科毕业于北京师范大学,硕士就读于北京大学,曾先后任职于阿里巴巴达摩院、DeepSeek,主导过多语言预训练模型 VECO、DeepSeek-V2 等标杆项目的研发。此次与小米智驾首席科学家陈龙(前 Wayve、Lyft 资深研究员)的强强联合,成为模型快速落地的关键。目前,MiMo-Embodied 已在 GitHub、Huggingface 等平台开放源码,开发者可直接获取并进行二次开发。

业内人士分析,MiMo-Embodied 的开源不仅填补了跨具身智能领域的技术空白,更将为智能家居、自动驾驶、服务机器人等多场景的技术融合提供底层支撑。随着小米在空间智能领域的持续深耕,跨领域 AI 模型的落地应用或将加速推动消费电子与智能汽车产业的协同创新。

© 版权声明

相关文章