机器人告别“转身就忘” 阿里达摩院开源RynnBrain具身大脑

AI 资讯5小时前发布 dennis
0

【量子位 2026年2月10日讯】家务机器人执行任务时“智商掉线”?拿药途中忘记目标、转身就找不到物品的尴尬即将成为历史!阿里达摩院正式开源业界首个具备时空记忆的具身大脑基础模型RynnBrain,全系列涵盖2B至30B七种参数规模,以3B激活参数实现超越72B模型的性能表现,彻底解决具身机器人“脑子学会了,手跟不上”的核心痛点,为家用、工业等场景的智能机器人落地扫清关键障碍。

直击行业痛点 破解具身智能“健忘症”

当前具身智能机器人普遍面临“数字大脑”与“物理世界”脱节的困境:现有大模型多为“缸中之脑”,仅能理解二维图片和文本,缺乏对三维物理空间的感知与连续记忆能力。执行“把药片拿给奶奶”这类任务时,机器人可能在转身瞬间就“忘记”药瓶位置,甚至误抓无关物品,核心症结在于无法建立空间坐标系、记住物体轨迹及判断目标存续状态。

为填补这一认知断层,达摩院团队打造的RynnBrain模型,创新性地赋予机器人“时空记忆”与“物理空间推理”能力。它不仅能实时识别眼前场景,还能构建涵盖空间、位置、事件、轨迹的多维度记忆表征,即便任务被打断或转身移动,也能精准回溯断点、找回目标物体,让机器人在物理世界中具备“全局时空回溯能力”。

小参数量大能量 3B激活参数实现性能越级

RynnBrain的核心优势在于“小而美”的效率美学。作为首个MoE架构的具身基础模型,其旗舰版本RynnBrain-30B-A3B仅需3B推理激活参数,在20项具身Benchmark中全面超越英伟达Cosmos-reason2、谷歌Gemini Robotics ER 1.5等顶尖模型,斩获16项SOTA,性能甚至超过72B规模的Pelican-VL(当前最大规模具身基础模型)。

这一突破对机器人落地意义重大:更小的激活参数意味着更快的响应速度、更低的硬件功耗与成本,让高性能具身智能有望普及至端侧设备。模型训练效率同样亮眼,依托达摩院自研的RynnScale架构,对Dense与MoE模型进行深度优化,同等计算资源下训练速度提升200%,加速模型迭代与场景适配。

在数据层面,RynnBrain基于Qwen3-VL训练,融合超过2000万对高质量语料:复用Video-Llama 3通用多模态数据,补充物体认知、空间认知等具身专属数据,更创新生成100万对“自我为中心”的OCR问答数据,适配机器人视角的透视效果与动态画面,使其能看懂药瓶标签、门牌数字等实用信息。

三维核心能力 打通物理世界认知链路

RynnBrain通过三大耦合能力,构建起完整的具身认知体系:

  • 时空记忆能力:突破传统模型“帧级处理、看完就忘”的局限,能在完整历史记忆中定位物体、预测轨迹。例如机器人在厨房洗菜后转身取肉,仍能精准记住水槽位置与菜品摆放,任务中断后可无缝续接。

  • 物理空间推理:采用“文本与空间定位交错”策略,推理时同步输出区域坐标、物体边界框、障碍物点集等空间信息,如“走向[桌子](视频帧坐标)→ 抓取[苹果](边界框)→ 避开[水杯](点集)”,推理结果受物理世界约束,大幅降低幻觉风险。

  • 高可拓展性:作为强大的基础基座,微调后可快速适配多元任务。在导航任务中,基于SOTA模型StreamVLN数据微调后,导航成功率直接提升2%-3%;仅用数百条数据微调的操作规划模型,在域内域外任务中全面超越Gemini 3 Pro。

输入输出端同样灵活:支持任意分辨率图片、多图及视频输入,适配高清摄像头与模糊监控等不同场景;可输出区域、轨迹、夹爪位姿、文本等多模态结果,直接向机械臂下达“坐标(x,y,z)+30度抓取”的精准指令,打通“认知-规划-执行”的全链路。

全量开源赋能 降低行业三大门槛

达摩院此次采取全方面开源策略,不仅释放RynnBrain全系列模型,还配套开放完整推理训练代码与全新评测基准RynnBrain-Bench。该基准包含22项细粒度指标,覆盖物体认知、空间认知、物体定位、具身点预测四大维度,为行业提供统一的能力评估标尺。

这一系列举措将系统性降低具身智能行业的三大核心门槛:

  1. 研发门槛:无需重复训练基础物理常识模型,开发者可直接基于RynnBrain二次开发,聚焦硬件优化与垂直场景落地;

  2. 系统门槛:统一导航、规划、操作模块的物理世界认知,实现信息无损流转,提升系统整体效率;

  3. 协作门槛:通过标准化基准与开源生态,让不同团队在同一参照系下竞争迭代,加速行业技术共识。

分层架构引领 赌局背后的生态野心

RynnBrain的推出,标志着达摩院“大小脑分层架构”落地:以RynnBrain为“大脑”,负责长程规划、场景理解与时空记忆;执行层“小脑”专注电机控制与动作执行,理论上更利于泛化,工程上便于模块化迭代。这一路线与通用VLM演化、动作策略切入两大主流路径形成差异化,首次为分层架构提供可落地的大脑层实现。

达摩院的开源动作,暗藏着对具身智能生态的长远布局——赌通用物理世界认知是机器人实用化的必经之路,赌行业未来是百花齐放而非一家独大。随着RynnBrain生态的激活,开发者可聚焦家政服务、工业巡检、文旅导览等垂直场景创新,推动具身机器人从实验室走向千家万户。

目前,RynnBrain已在GitHub、抱抱脸平台开放下载,项目主页同步上线(GitHub:https://github.com/alibaba-damo-academy/RynnBrain)。这款“会记事儿、懂空间”的具身大脑,正推开机器人通往真实物理世界的大门,未来能否催生更多实用化智能机器人产品,值得行业持续关注。

© 版权声明

相关文章