国产具身模型登顶全球!千寻Spirit v1.5打破Pi0.5垄断,开源技术路线改写行业格局

AI 资讯6小时前发布 dennis
0

【量子位 2026年1月15日讯】具身智能领域迎来“中国时刻”。1月12日,来自千寻智能的具身智能基础模型Spirit v1.5,以总分66.09、任务成功率50.33%的成绩,在全球权威真机评测平台RoboChallenge登顶,不仅终结了美国Physical Intelligence公司Pi0.5模型的长期领跑局面,更成为该平台自2025年10月上线以来,首个成功率突破50%的具身模型。值得关注的是,千寻智能同步开源了模型权重、推理代码及使用样例,为全球研究者提供可复现、可迭代的技术底座,标志着中国具身智能技术正式跻身全球第一梯队。

一、登顶背后:30项真机任务碾压式领先,关键场景突破Pi0.5壁垒

RoboChallenge被誉为具身智能领域的“ImageNet”,其Table30任务集涵盖30项高频真实场景操作,从柔性物体处理到双臂协同,从长时序任务到跨机型适配,全面考验模型的泛化能力与稳定性。Spirit v1.5在多项核心任务中展现出“代际优势”,尤其在Pi0.5此前垄断的优势领域实现突破:

1. 复杂操作任务:成功率翻倍,稳定性碾压

在“水果入篮”任务中,Spirit v1.5以80%的成功率远超Pi0.5的40%,演示画面中,模型能精准识别香蕉、苹果等异形物体,避开遮挡物平稳放入篮中,动作连贯性媲美人类;“寻找绿盒”任务中,它从堆叠的彩色方块中锁定绿色目标的成功率达90%,比Pi0.5高出10个百分点,且未出现一次“误抓非目标物体”的情况。

更具突破性的是“贴胶带”这类高难度闭环触觉任务——由于需要双机械臂精细配合(夹爪间隙仅毫米级),Pi0.5成功率仅10%,且频繁出现“空贴”(未抓取到胶带却执行粘贴动作)。而Spirit v1.5凭借实时力控感知,能清晰判断“是否抓稳胶带”,成功率提升至20%,虽未达理想水平,但已实现对Pi0.5的翻倍超越,展现出更强的物理交互理解能力。

2. 长时序任务:零卡顿执行,逻辑推理能力凸显

在“插花”“叠碗”等需要多步骤衔接的任务中,Spirit v1.5的稳定性优势尤为明显。例如插花任务中,两款模型虽均实现50%成功率,但Pi0.5会出现“突然卡死”导致任务中断的极端情况,而Spirit v1.5能通过动态调整机械臂关节角度,确保花茎始终竖直插入花瓶,无一次中途失败。

“叠碗”任务更成为其“满分秀场”——Spirit v1.5以100%成功率拿下该任务满分,模型能自主判断碗的摆放顺序,从底部大碗到顶部小碗,动作衔接无停顿,甚至能修正前一步的轻微偏差,这种“纠错能力”是Pi0.5等此前模型不具备的。

3. 跨机型适配:从工业机械臂到双臂平台无缝切换

RoboChallenge支持UR5e、Franka、ALOHA双臂机器人等4类主流机型,考验模型的硬件泛化能力。Spirit v1.5在单臂机械臂UR5e上执行“开抽屉”任务时,成功率达80%;切换至ALOHA双臂平台执行“薯条倒碗”任务,成功率仍保持75%,未出现因硬件差异导致的“动作失准”。相比之下,Pi0.5在跨机型测试中成功率平均下降15%,凸显出Spirit v1.5在“视觉-动作-硬件”适配层面的底层优势。

二、技术破局:放弃“干净数据”,用多样化采集改写训练逻辑

Spirit v1.5的突破,并非依赖参数堆量或单一任务调优,而是颠覆了传统具身模型的训练范式——放弃高度脚本化的“干净数据”,转向开放式、弱控制的数据采集策略,这一创新被认为是其泛化能力领先的核心原因。

1. 数据策略革命:从“标准化演示”到“真实世界多样性”

此前,行业主流模型(包括Pi0.5)依赖“干净数据”训练——数采员需严格遵循预设流程执行任务(如固定角度抓取、统一摆放位置),数据虽易标注、训练收敛快,但动作模式单一,与真实世界的“非标准情境”脱节。千寻智能反其道而行之,在数据采集阶段仅设定“任务目标”,不限制操作流程:

  • 例如采集“化妆”任务时,数采员可自由选择“先涂口红再画眼影”或“先打底再上腮红”,过程中自然包含“调整假人头角度”“更换化妆刷”等子动作;

  • 采集“整理桌面”时,允许出现“误碰水杯后扶正”“纸张散落再归位”等真实场景中常见的“非最优操作”。

这种开放式采集使数据覆盖更多“原子技能”(如抓取、插入、协作),且以真实时序串联,模型在预训练阶段就能“见识”到现实世界的复杂性,而非局限于实验室的标准化场景。

2. 工程验证:相同数据规模下,迁移效率提升40%

千寻智能的消融实验显示,在预训练数据量完全一致的前提下,基于多样化数据训练的Spirit v1.5,在新任务微调时效率显著更高:达到与“干净数据训练模型”相同的性能,所需迭代次数减少40%,且随着数据规模扩大,验证误差持续下降,未出现“早期饱和”现象。

“这证明对具身模型而言,任务多样性比单一任务的演示次数更重要。”千寻智能首席科学家高阳解释,“模型真正需要学习的不是‘某件事的固定做法’,而是‘面对不同情况如何调整策略’,多样化数据恰好提供了这种通用能力的训练素材。”

三、开源价值:打破技术垄断,推动全球具身智能协同发展

在登顶的同时,千寻智能将Spirit v1.5的核心资源全面开源(代码托管于GitHub,模型权重发布于Hugging Face),这一动作在行业引发强烈反响——此前Pi0.5虽开放部分接口,但未公开核心训练逻辑与权重,导致研究者难以复现其成绩,更无法在此基础上迭代创新。

1. 降低行业门槛:从“零开始”到“站在巨人肩膀”

开源资源包含三部分核心内容:

  • 预训练权重:基于千万级真实场景数据训练的VLA(Vision-Language-Action)统一模型权重,可直接用于桌面操作、家庭服务等场景的微调;

  • 推理代码:适配RoboChallenge支持的UR5e、Franka等主流机型的API调用代码,开发者无需自行编写硬件适配逻辑;

  • 任务样例:30项Table30任务的完整执行日志与可视化演示,标注关键动作节点与参数设置,帮助新手快速理解模型决策逻辑。

“过去我们复现Pi0.5的实验,仅环境配置就需要2周,且成功率始终差10个百分点。”某高校机器人实验室研究员表示,“Spirit v1.5的开源资源非常完整,我们用3天就完成部署,在‘叠碗’任务上复现了98%的成功率,这为后续研究节省了大量时间。”

2. 构建协同生态:中国技术底座赋能全球创新

截至2026年1月15日,Spirit v1.5的GitHub仓库星标已突破5000,来自MIT、斯坦福、清华等高校的研究者已提交首批改进代码,其中斯坦福团队基于该模型开发的“动态避障模块”,将“移动物体”任务的成功率进一步提升5个百分点。

高阳在开源声明中强调:“具身智能的终极目标是让机器人理解并适应真实世界,这需要全球研究者共同突破。我们开源Spirit v1.5,就是希望打破技术壁垒,让更多人参与到‘通用具身智能’的探索中,而非让少数团队垄断发展路径。”

四、千寻智能:从“中国版Figure”到全球技术引领者

Spirit v1.5的登顶并非偶然,背后是千寻智能在“具身智能+人形机器人”领域的全栈布局。这家成立于2024年1月的企业,虽仅两岁,却已成长为国内少数具备AI+机器人全栈能力的玩家,被业界称为“中国版Figure”:

1. 团队与资本:明星阵容+巨头背书,两年融资超20亿

创始人韩峰涛是机器人行业连续创业者,曾任珞石机器人联合创始人兼CTO,主导交付过超2万台工业机器人;联合创始人高阳是“伯克利归国四子”之一,师从具身智能权威学者Pieter Abbeel,其提出的ViLa算法被美国Figure机器人采用。资本层面,千寻智能2025年累计融资超15亿元,京东、宁德时代、顺为资本等巨头持续加码,为技术研发提供充足资金支持。

2. 商业化落地:从实验室到产线,人形机器人规模化应用

在模型突破的同时,千寻智能的人形机器人“小墨(Moz1)”已在宁德时代电池产线规模化落地,负责高压测试插头插拔等高危环节。数据显示,“小墨”的插接成功率稳定在99%以上,单日作业效率是人工的3倍,且能应对多型号电池的柔性生产需求,成为全球首条人形机器人规模化运营产线的核心设备。

这种“模型-机器人-场景”的闭环,反过来也为Spirit v1.5的迭代提供了真实数据支撑——产线中“插头位置偏差”“线束柔性变形”等场景数据,持续反哺模型优化,形成“落地-反馈-迭代”的正向循环。

五、行业影响:重构全球具身智能竞争格局,开源成技术突破关键

Spirit v1.5的登顶与开源,不仅是一家企业的技术里程碑,更可能改写全球具身智能的发展轨迹:

1. 打破欧美技术垄断,国产模型获国际认可

此前,RoboChallenge榜单前三位长期被美国、欧洲企业占据,Pi0.5更是凭借42.67%的成功率垄断榜首近半年。Spirit v1.5的突破,证明中国在具身智能基础模型领域已具备与全球顶尖团队同台竞技的实力,尤其在“真实场景泛化”“跨硬件适配”等核心维度实现领先。

2. 推动行业从“闭门研发”到“开放协作”

Pi0.5的长期领跑伴随“技术黑箱”问题——研究者无法复现其核心性能,导致行业陷入“重复造轮子”的低效竞争。Spirit v1.5的开源,为行业提供了首个“高成功率+全透明”的技术范本,有望推动具身智能研究从“单点突破”转向“协同创新”,加速技术落地节奏。

3. 为产业降本增效,加速具身智能商业化

对企业而言,基于开源的Spirit v1.5进行二次开发,可大幅降低模型研发成本。例如餐饮企业若需开发“自动分餐机器人”,无需从零训练模型,仅需用少量分餐场景数据微调,即可快速落地,研发周期可从6个月缩短至1-2个月。

结语:具身智能的“中国时刻”,才刚刚开始

从模型登顶到开源共享,从产线落地到生态构建,千寻智能Spirit v1.5的突破,标志着中国具身智能技术已从“跟跑”进入“并跑、领跑”阶段。正如RoboChallenge联合发起方Dexmal原力灵机的评价:“Spirit v1.5的成功,不仅在于成绩本身,更在于它为行业提供了一种可复制、可进化的技术路径——用真实世界的多样性数据,训练真正适应真实世界的模型。”

随着开源生态的持续完善,以及更多企业、高校加入技术迭代,中国具身智能有望在未来1-2年,在家庭服务、工业制造、医疗辅助等场景实现规模化落地。而Spirit v1.5的登顶,或许只是这场“物理世界AI革命”的开始。

© 版权声明

相关文章