【量子位 2025年12月22日讯】在MEET2026智能未来大会上,自变量机器人创始人兼CEO王潜抛出重磅观点:具身智能并非多模态模型的附属应用,而是与语言模型、多模态模型平行的“物理世界独立基础模型”。这一论断直指行业核心争议,也揭开了自变量在具身智能领域“另起炉灶”的技术布局——从模型架构、数据范式到硬件形态,系统性构建适配物理世界的智能底座,其自研的开源模型WALL-OSS与高自由度灵巧手已实现端到端控制,为行业提供了“物理智能”的新范本。
此次大会吸引近1500人线下参与,线上直播观众超350万。王潜的演讲不仅梳理了具身智能的技术痛点,更预判未来十年,物理世界基础模型或反向“吞噬”现有多模态模型生存空间,引发业界对AI技术路线的重新思考。
核心论点:物理世界需专属基础模型,与虚拟智能本质不同
王潜的核心观点源于对物理世界与虚拟世界差异的深刻洞察。他指出,当前行业将具身智能视为多模态模型“附加动作模块”的思路,存在结构性错位:
-
物理世界的随机性是核心挑战虚拟世界中,相同代码在一致内存状态下运行,结果可高度复现;但物理世界中,“以相同角度、力度推同一杯子,十次可能停在十个位置”,这种随机性涉及力、接触、时序等复杂变量,现有多模态模型的统计学习范式难以精准刻画。例如机器人抓取物体时,即便视觉识别精准,也可能因物体表面微小摩擦差异导致抓取失败,而语言和图像根本无法完整描述这类物理过程。
-
现有模态无法适配物理交互需求语言仅能描述10秒以上的长序列事件,难以精准拆解“炒菜时颠勺力度控制”“拧瓶盖角度调整”等精细操作;图像虽比语言精度更高,却无法捕捉力觉、触觉等关键信息——比如拧紧螺丝时的力矩反馈,遮挡场景下的物体形态判断,这些都是物理交互的核心,却超出了语言与视觉的表达边界。王潜直言:“用虚拟世界的建模范式解决物理问题,就像用语言描述交响乐,永远无法传递旋律的完整信息。”
技术破局:端到端架构+推理时学习,重构物理智能底座
针对行业痛点,自变量提出“完全另起炉灶”的解决方案,从模型、数据到硬件形成全链路创新:
-
端到端VLA模型,实现跨本体泛化自变量摒弃“多模态模型+动作生成器”的传统架构,研发端到端视觉-语言-动作(VLA)统一模型。实测显示,该模型可从夹爪控制无缝迁移至20个自由度的高自由度灵巧手,仅需少量样本就能掌握“发牌”“插插座”等精细任务,证明模型已学会物理规律与物体属性的通用逻辑。例如在“机器人荷官自主发牌”场景中,模型能自主判断牌堆位置、控制发牌力度,避免卡牌褶皱或散落,精度远超传统控制算法。
-
推理时学习突破数据瓶颈针对具身智能“数据规模化难”的行业痛点,自变量提出“三阶段Scaling Law”:除常规预训练、后训练外,新增“推理时学习”阶段——智能体在执行任务时,可通过思维链(CoT)、在线强化学习实时优化策略。例如机器人在陌生环境中抓取未知物体时,会先通过轻触试探物体重量与表面材质,再动态调整抓取方案,无需依赖海量预设数据,大幅降低对训练数据的依赖。
-
开源模型WALL-OSS降低行业门槛自变量还推出开源物理世界基础模型WALL-OSS,支持VLA模型控制机器人,具备长任务推理与Subtask区分能力。在测试中,该模型能准确识别重叠卡牌并计数,解决了传统VLMs“无法处理遮挡物体计数”的难题;面对“用字母块拼单词”任务,可自主规划字母摆放顺序,纠正因视觉遮挡导致的错误决策,为科研机构与开发者提供了物理智能的基础工具。
硬件理念:让AI定义硬件,而非反向适配
王潜强调,物理世界的智能底座离不开硬件支撑,自变量坚持“AI定义硬件”的研发逻辑,而非先造硬件再适配AI:
-
全自研硬件,适配物理交互需求目前自变量已推出两款轮式底盘人形机器人与高自由度灵巧手,硬件设计完全服务于AI交互需求。例如灵巧手采用仿人球形手腕,可在狭小空间内灵活转动,解决传统机器人“末端控制僵硬”问题;轮式底盘搭载多模态传感器融合系统,激光雷达与视觉摄像头实时联动,动态环境建模精度达厘米级,确保机器人在复杂地形中移动稳定。
-
软硬一体同步迭代,提升交互效率硬件与模型的协同优化,让自变量机器人在复杂任务中表现亮眼:在高度随机的“推杯子”测试中,机器人通过力觉传感器实时调整推力,成功率从传统方案的65%提升至92%;执行“引体向上+托举60kg人体”复合任务时,关节力矩控制精度达0.1N·m,兼顾力量与灵活性,展现出远超同行业的硬件控制能力。
行业预判:十年内物理模型或反超多模态,开启具身革命
对于行业未来,王潜提出大胆预判:若以十年为时间尺度,具身智能基础模型可能反向“吞噬”现有多模态模型的生存空间。他的核心逻辑在于:
-
物理智能是AGI的必由之路现有AGI讨论多聚焦于虚拟世界的语言、数学能力,但真正的通用智能必须能与物理世界交互——获取能源、制造硬件、收集数据,这些都需要具身智能作为基础。王潜以工业革命类比:“第一次工业革命靠机器制造机器实现指数级生产力提升,具身智能就是AI时代的‘机器制造机器’,能自主构建硬件与数据生态,为AGI提供物理世界的支撑。”
-
人类学习范式决定物理智能优势人类对世界的认知源于“主动交互+因果观察”——看到狗时,会通过观察其运动、触摸其毛发建立三维认知,而非依赖海量图片统计特征。自变量的模型正是模拟这种学习方式,通过Active Perception(主动感知)与Interactive Perception(交互感知)高效获取知识,未来可能比多模态模型更接近人类智能的本质。王潜认为:“当物理智能能自主学习并优化策略,其进化速度将远超依赖静态数据的多模态模型。”
结语:从技术探索到产业落地,物理智能开启新赛道
此次MEET2026大会上,自变量的技术实践与行业预判,不仅为具身智能的发展方向提供了清晰路径,更打破了“虚拟智能优先”的行业惯性。目前,自变量自研的机器人已开始向市场销售,其软硬一体方案已应用于物流分拣、家庭服务等场景,为行业提供“物理智能可落地”的参考范本。
正如王潜所说:“具身智能的终极价值,是让AI从虚拟世界的‘观察者’变成物理世界的‘参与者’。当智能体能自主解决吃饭、穿衣、制造等现实问题,通用人工智能才真正具备改变世界的能力。”随着更多企业加入物理智能赛道,具身智能或将成为继多模态之后,AI领域的下一个爆发点。