英伟达Jim Fan:AI预训练迎来“世界建模”时代,2026年成物理AI爆发关键年

AI 资讯8小时前发布 dennis
0

【量子位 2026年2月6日讯】AI领域的预训练范式正在经历历史性转折。近日,英伟达机器人主管Jim Fan在一篇深度长文中抛出重磅观点:继“下一个词预测”之后,“世界建模”将成为新一代AI预训练核心范式,2026年更将成为“大世界模型(Large World Models)”为机器人领域及多模态AI奠定基础的关键元年。这一判断不仅得到谷歌DeepMind世界模型团队负责人等业内大佬的认同,更直指当前AI从“语言驱动”向“物理交互”跨越的核心方向。

一、范式革命:从“预测文字”到“预测世界状态”,AI迈向物理理解新阶段

Jim Fan明确界定了“世界建模”的核心定义:在给定动作条件下,预测下一个合理的世界状态(或更长时间范围内的状态)。这与此前主流的“下一个词预测”预训练范式有着本质区别——前者聚焦物理世界的动态规律,后者则局限于语言符号的逻辑关联。

在Jim Fan看来,当前世界模型的价值被严重低估,市场炒作多集中在AI视频生成等内容领域,却忽视了其在物理AI层面的巨大潜力。“视频生成只是世界模型的一种浅层应用,本质上它是可学习的物理模拟器和渲染引擎。”他举例说明,当AI视频模型生成“倾倒可乐”的画面时,其背后实际是对“液体流动、物体碰撞、材质交互”等物理规律的建模,而这种能力正是机器人与物理世界交互的核心基础。

相比之下,当前主流的视觉-语言模型(VLMs)存在天然短板。这类模型虽能处理图像与文本的关联,却始终以语言为核心,视觉仅作为“二等公民”辅助理解。Jim Fan指出,VLM中大部分参数用于存储“可乐是红色液体”这类知识,而非“倾倒可乐会洒成水洼、弄脏桌布”的物理规律。即便在此基础上嫁接动作解码器形成的VLA(视觉-语言-动作)模型,也因“语言>视觉>动作”的优先级设计,难以满足机器人对物理世界的精准理解需求。

二、生物启示:猿类的“无语言高技能”,揭示物理智能的核心逻辑

为佐证“世界建模无需依赖语言”的观点,Jim Fan给出了极具说服力的生物学案例——猿类。他观察到,猿类的语言理解能力仅相当于BERT或GPT-1水平,却能完成驾驶高尔夫球车、用螺丝刀更换刹车片等复杂物理操作,其技能远超当前最先进的机器人。

“猿类没有强大的语言模型,但它们拥有对‘如果……会怎样’的稳健心理表征。”Jim Fan认为,这种无需语言中介、直接基于视觉感知构建的物理世界认知,正是AI世界模型需要模仿的核心能力。从大脑结构来看,人类约三分之一的皮层区域用于视觉处理,语言相关区域则相对紧凑,这也印证了“视觉是连接大脑、运动系统与物理世界最高带宽通道”的结论——而这一通道,恰恰是机器人实现“感知-运动闭环”的关键,且无需语言参与。

三、技术突破:多模态融合+视觉推理,解锁AI物理交互新能力

Jim Fan强调,真正的世界模型需要突破“仅靠RGB图像建模”的局限,将3D运动、本体感觉、触觉感知等多模态信息纳入预训练目标。“下一个世界状态不应只有画面,还得有物体的重量、触感、运动轨迹。”他预判,随着YouTube海量视频数据与智能眼镜实时视觉流的积累,AI将获得远超文本规模的物理世界训练数据,推动世界模型向更精准、更全面的方向进化。

更关键的是,世界模型将催生一种全新的推理形式——“视觉空间中的思维链”。与传统LLM依赖语言文本进行逻辑推理不同,这种推理直接通过模拟几何关系、物体接触、运动轨迹来解决物理问题。例如,当面对“如何堆叠不规则积木而不倒”的问题时,AI无需将问题转化为文字,而是通过在“大脑”中模拟积木的重心、接触面、摩擦力等物理因素,直接规划出最优堆叠方案。“语言只是思维的脚手架,而非基础。”Jim Fan直言,摆脱语言瓶颈是AI实现高效物理交互的关键。

四、行业呼应:巨头押注+资本入局,世界模型生态加速成型

Jim Fan的观点迅速在行业引发共鸣。谷歌DeepMind Genie 3联合负责人Jack Parker-Holder转发表示,世界模型是连接虚拟与物理领域的桥梁,其价值在于跨任务、跨领域的泛化能力——就像LLM既能编程又能解数学题,世界模型也可同时支撑视频生成与机器人具身操控。

与此同时,科技巨头与资本已开始行动。英伟达、谷歌等企业正在虚拟游戏、视频生成、物理机器人三大领域同步布局世界模型技术;一周前,李飞飞创办的World Labs以约50亿美元估值启动新一轮融资,规模最高达5亿美元;LeCun创办的AMI Labs也吸引了多家投资机构关注,传闻估值或达35亿美元。这些动向都印证了世界模型正从学术概念走向商业落地的趋势。

五、挑战待解:从“模拟”到“行动”,物理AI仍需跨越多重鸿沟

尽管前景广阔,Jim Fan也不回避世界模型面临的挑战。前英伟达机器人研究主管Arsalan Mousavian就提醒,从像素数据到物理规律的建模仍存在“陡峭鸿沟”,几何一致性、同一性保持、推理速度、动作采样四大问题亟待解决:例如确保机器人在预测中不会“从A变成B”(同一性保持),同时满足实时交互所需的低延迟(推理速度),这些都是当前技术难以兼顾的难点。

Jim Fan进一步提出疑问:即便世界模型能完美模拟未来状态,如何将模拟结果转化为机器人的具体动作?像素重建是否是最优训练目标?需要多少真实机器人数据才能实现泛化?“这些问题没有标准答案,也正是研究的魅力所在。”他引用OpenAI联合创始人Ilya的观点强调,AGI(通用人工智能)的发展路径尚未收敛,世界建模的探索正将AI研究带回“挑战第一性原理”的创新阶段。

对于机器人领域而言,Jim Fan的判断意味着一场关键变革即将到来。如果2026年真能成为“大世界模型元年”,那么AI机器人或将迎来类似GPT-3级别的突破,从“特定场景定制”走向“通用物理交互”。正如他所言:“当AI能像猿类一样理解物理世界,我们才算真正触碰到了具身智能的门槛。”

© 版权声明

相关文章