国产具身智能模型WALL-OSS惊艳全球:开源_裸考_真机测评拿第二,RTX 4090就能跑

【量子位 2026年1月9日讯】具身智能领域再传国产捷报!自变量机器人研发的端到端具身智能基座模型WALL-OSS,在全球首个真机评测平台RoboChallenge中斩获综合排名全球第二,不仅超越美国Physical Intelligence公司的明星模型pi0,更在叠洗碗巾、挂口杯、按按钮等6项单任务中拿下第一。更值得关注的是,这款性能顶尖的模型完全开源——从预训练权重、训练代码到部署文档全透明,开发者用RTX 4090消费级显卡就能完成从训练到推理的全流程,彻底打破具身智能领域”闭源黑箱”与”高门槛”壁垒。

此次测评结果不仅标志着中国具身智能技术跻身全球第一梯队,更以开源生态为行业注入新活力。目前,WALL-OSS已吸引全球5000余名开发者加入社区,深圳机器人谷、合肥”城市级机器人试验场”等产业平台也已引入该模型,加速推动机器人从实验室走向真实应用场景。

一、真机测评”裸考”突围:30项任务验证真实能力

与大语言模型的”纸面测评”不同,具身智能模型的实力需要在真实物理世界中检验。RoboChallenge评测由Dexmal原力灵机联合Hugging Face发起,采用”统一真机、公开场景、透明过程”的模式,堪称具身智能领域的”世界杯”:

1. 30项任务覆盖真实场景难题

评测首发的Table 30任务集,涵盖叠抹布、开抽屉、浇盆栽、杂物分类等30项日常操作,远超行业常见的3-5项测试任务。这些任务从”VLA方案难点、机器人类型、场景环境、物体属性”四大维度设计,精准还原真实世界的复杂性——比如”叠抹布”需要机器人处理柔软易形变物体,”连续按三个按钮”考验动作记忆与精度,”移物入盒”则要求空间推理与路径规划能力。

在最难的”叠抹布”任务中,WALL-OSS以41分(成功率10%)领先pi0(0%成功率),成为当前唯一能完成抹布抓取与对折操作的模型;”连续按按钮”任务中,其动作精度与完成效率显著领先,展现出对长序列任务的把控能力。

2. 全流程透明可追溯

为确保公平性,评测采用”真机远程执行”模式:平台集成UR5、Franka Panda等主流机器人,参赛方仅需提供算法接口,由平台统一调度真机完成任务。所有操作过程均以多视角视频、机械臂关节角度曲线、夹爪状态记录等形式公开,开发者可通过时间轴精准定位每一步动作细节,甚至能回溯”机器人为何没抓住杯子”的技术原因。这种”裸考”模式,彻底杜绝了闭源模型可能存在的”测试特化”问题,让WALL-OSS的成绩更具含金量。

二、技术突破:破解具身智能”认知-动作”割裂难题

WALL-OSS能在真机测评中脱颖而出,核心在于突破了行业两大技术瓶颈——”灾难性遗忘”与”模态解耦”,构建起”认知-推理-动作”的完整闭环:

1. 架构创新:共享注意力+专家分流

不同于传统模型”视觉模块+语言模块+动作模块”简单拼接的方案,WALL-OSS采用”共享注意力机制+专家FFN”的统一架构:

  • 跨模态深度融合:语言、视觉、动作信息被嵌入同一表示空间,通过共享注意力实现实时交互,比如模型看到”杯子”时,会同时激活”圆柱形物体””可抓取””需放置在桌面”等视觉、语义与动作关联信息;

  • 任务精准分流:借助专家FFN(前馈网络),模型能根据任务需求调用对应”专家模块”——处理”按按钮”时激活高精度动作控制专家,分析”杂物分类”时启动空间推理专家,避免能力资源浪费。

这种设计让模型既保留视觉语言模型(VLM)的认知能力,又具备高精度动作生成能力,解决了”会动却不懂任务”或”懂任务却动不准”的行业痛点。

2. 阶段式训练:先离散后连续,避免能力塌缩

为防止模型在学习动作时丢失原有认知能力,WALL-OSS设计”启发-整合”两阶段训练策略:

  • 启发阶段:通过具身VQA(视觉问答)、指令跟随任务强化空间推理,同时用FAST tokenization技术训练离散动作(如”抓取””放下”),让模型先建立”看到杯子→知道要抓”的基础认知;

  • 整合阶段:先冻结VLM模块,仅训练动作生成相关的Flow Matching头,精修”如何精准抓住杯子”的连续动作细节;最后解冻全模型联合优化,实现”认知-动作”无缝衔接。

实验证明,这种训练方式能让模型在动作精度提升30%的同时,语言理解准确率保持98%以上,成功突破多步骤长序列任务瓶颈。

3. 思维链内化:机器人也会”分步思考”

WALL-OSS创新性地将”思维链(Chain-of-Thought)”融入具身决策,比如面对”开抽屉→放开瓶器”任务时,模型会自主拆解为:

  1. 识别抽屉位置与把手(视觉感知);

  2. 判断需用夹爪抓住把手并向外拉(动作规划);

  3. 确认抽屉打开角度足够(环境反馈);

  4. 抓取开瓶器并放入抽屉(动作执行)。

这种分层推理机制,让模型在面对未知场景时能动态调整策略,比如抽屉卡顿无法完全打开时,会尝试调整夹爪力度或角度,而非机械重复原有动作。

三、开源普惠:降低行业创新门槛,5000开发者共建生态

自变量机器人不仅将WALL-OSS打造成技术领先的模型,更以”全链路开源”姿态推动行业协同发展:

1. 彻底开源:从代码到文档全开放

开发者可通过GitHub、Hugging Face等平台免费获取:

  • 完整预训练模型权重(支持16位/8位精度);

  • 训练代码(含数据处理、模型微调脚本);

  • 数据集接口(对接RoboChallenge公开任务数据及自定义数据集);

  • 部署文档(含RTX 4090、阿里云GPU等不同硬件环境的配置教程)。

不同于部分开源模型”只开放权重,不提供训练代码”的做法,WALL-OSS实现”从0到1″完全可复现——高校团队用消费级显卡,2周内就能复现模型核心性能,大幅降低中小团队的研发成本。

2. 产业落地:从深圳到合肥,加速机器人规模化应用

目前,WALL-OSS已在多个产业场景落地:

  • 深圳机器人谷:作为核心基座模型,支撑越疆科技等企业的工业机器人完成”零部件分拣””装配检测”等任务,将工业场景任务成功率从65%提升至82%;

  • 合肥城市级试验场:与合肥高新区合作,在养老护理、酒店服务场景部署基于WALL-OSS的机器人,比如养老机器人能根据老人动作指令,完成”递水杯””整理衣物”等精细操作;

  • 工业质检:某汽车零部件厂商用WALL-OSS改造质检机器人,实现”识别螺丝松动→标记位置→生成报告”全自动化,检测效率提升4倍。

四、行业意义:开源生态推动具身智能从”小众实验”到”基础设施”

WALL-OSS的开源与测评成绩,为具身智能行业带来三重启示:

1. 打破资源垄断,激活创新活力

长期以来,具身智能领域存在”资源鸿沟”——高校与中小团队有算法想法却缺机器人、算力,大企业有资源却难以开放底层能力。WALL-OSS的开源,让开发者无需重复造轮子,可直接在高质量基座模型上优化细分场景算法,比如针对”农业采摘”优化柔软物体抓取策略,针对”家庭清洁”提升障碍物躲避能力,加速行业创新迭代。

2. 建立真机评测标准,告别”仿真造假”

此前行业多依赖仿真环境测试模型性能,导致”仿真表现优异,真机一塌糊涂”的乱象。RoboChallenge真机评测与WALL-OSS的参与,推动行业建立”真实场景验证”的标准,未来模型性能将以”能否在真实机器人上完成任务”为核心衡量指标,倒逼技术向实用化方向发展。

3. 国产技术跻身全球前列,掌握生态话语权

作为首个进入全球具身智能模型前三的国产开源模型,WALL-OSS不仅证明中国在该领域的技术实力,更通过开源生态吸引全球开发者——目前社区已有来自20个国家的5000余名开发者,累计贡献代码超200万行,推动模型在”多机器人协同””动态环境适应”等方向持续进化。这种以开源为核心的生态建设,将帮助中国在具身智能标准制定中掌握更多话语权。

结语:具身智能进入”开源普惠”新时代

从RoboChallenge的全球第二,到RTX 4090可运行的开源方案,WALL-OSS的发展轨迹,勾勒出国产具身智能从”技术突破”到”生态共建”的清晰路径。当机器人模型不再是少数企业的”黑箱资产”,而是全球开发者可复用、可改进的公共基础设施时,具身智能才能真正走进工厂、家庭、公共服务等真实场景,成为像电力、互联网一样的社会基础能力。

对于开发者而言,现在下载WALL-OSS代码,或许就能开启下一个机器人创新的”灵感时刻”;对于行业而言,这个开源模型的出现,可能是具身智能从”小众技术”迈向”大规模应用”的关键转折点——一个由中国技术引领、全球协同共建的具身智能新时代,已悄然拉开序幕。

© 版权声明

相关文章