单图秒变可交互3D资产!PhysX-Anything打破技术壁垒,直接助力机器人训练

2025 年 11 月 23 日消息,南洋理工大学与上海人工智能实验室联合研发的 PhysX-Anything 框架正式亮相,这一突破性 AI 技术仅凭单张图像,就能快速创建具备物理属性、关节结构的高质量 3D 资产,且生成结果可直接导入主流仿真引擎,为具身智能与机器人训练领域提供了高效解决方案,填补了 3D 生成与实际应用之间的技术鸿沟。

在机器人训练、具身智能交互等场景中,对可直接用于仿真的 3D 资产需求日益迫切。但传统 3D 生成方法多侧重静态几何与外观呈现,普遍缺失密度、尺度、关节约束等关键物理信息,即便部分技术能生成可动对象,也需依赖现有模型检索或附加运动,难以从真实图像泛化出全新且物理一致的资产,无法直接适配仿真与控制任务。

PhysX-Anything 的核心突破在于构建了 “由粗到细” 的生成框架,实现从单图到仿真级 3D 资产的全流程转化。该框架以视觉语言模型(VLM)为基础,通过多轮对话依次解析图像的整体物理信息与部件几何细节,再经专用解码器输出 URDF、XML 等六种常用格式的 3D 资产。其创新的体素表征方式,在保留显式几何结构的同时,实现 193 倍的 token 压缩,无需额外特殊 token 即可平衡精度与效率,大幅降低训练与部署成本。

为提升生成精度,团队还设计了可控流转换器,以粗体素表示为引导信号,细化生成高保真几何结构,并通过结构化潜在扩散模型完成格式解码,最终将重建网格划分为部件级组件,确保运动学与几何结构的一致性。同时,框架采用 JSON 风格的物理信息描述,包含绝对尺度、材料属性、运动参数等关键内容,让 VLM 能更精准地理解与推理物体物理特性。

实测数据显示,PhysX-Anything 在 PhysX-Mobility 数据集上的几何精度、物理属性等指标均超越 URDFormer、PhysXGen 等主流方法,其中几何 F-score 达 77.50,物理参数相关评分 19.36,显著领先同类技术。在真实世界图像测试中,其几何与运动学参数的 VLM 评估得分均达 0.94,人类志愿者对其几何质量与物理合理性的评分也位居第一,验证了其强大的泛化能力。

更重要的是,该框架生成的 3D 资产真正实现 “开箱即用”。在 MuJoCo 模拟器中,水龙头开关、柜门启闭、眼镜折叠等日常物体的仿真资产,可直接用于机器人策略学习,展现出高度可信的物理行为与精准的几何结构,为机器人训练提供了丰富且低成本的场景资源。

据悉,研究团队还构建了覆盖 47 个常见类别的 PhysX-Mobility 数据集,为物理 3D 生成研究提供了更丰富的标注资源。目前,PhysX-Anything 的论文、项目主页及 GitHub 代码已正式公开,有望推动 3D 生成从 “视觉建模” 向 “物理建模” 转型,为机器人、具身智能等领域的创新发展注入新动能。

© 版权声明

相关文章