计算机视觉领域再迎重磅突破!11月20日,Meta旗下MSL实验室正式发布SAM 3D系列模型与新一代分割模型SAM 3,标志着其“分割一切”技术正式迈入3D时代。此次发布的SAM 3D Objects与SAM 3D Body两款模型,能从单张2D图像中直接生成精细3D模型,即便存在物体遮挡、视角复杂等问题也能精准复原;而SAM 3则通过文本、示例等灵活提示方式,打破传统分割模型的标签限制,让“分割红色条纹伞”“识别带纹猫咪”这类精细需求成为现实。Meta的这组技术组合,为3D建模、人机交互、内容创作等领域开辟了全新可能。
SAM 3D系列:单图生成3D,遮挡难题被攻克
以往3D建模需依赖多视角图像或专业设备,而Meta的SAM 3D系列彻底改变这一现状,仅凭单张自然图像就能完成高质量3D重建,且在复杂场景中表现突出。其中,SAM 3D Objects专注物体与场景重建,即使面对小物体、间接视角或部分遮挡,也能精准还原物体几何结构与空间布局。
性能数据印证其领先性:在3D形状重建F1值(0.2339)、 Chamfer距离(0.0408)等关键指标上,SAM 3D Objects大幅超越Trellis + MegaPose、Hunyuan3D等主流模型;在人类偏好测试中,其胜率更是其他领先模型的5倍以上——90.8%的用户更认可它重建的3D形状与纹理效果。例如,一张包含部分被遮挡花瓶的餐桌照片,SAM 3D Objects能准确推断出花瓶被遮挡部分的轮廓,生成完整且贴合真实形态的3D模型。
针对人体重建的SAM 3D Body同样表现亮眼。面对人物姿态不寻常、身体部分遮挡或多人同框等复杂情况,它仍能精准生成人体网格模型,在EMDB数据集MPJPE(61.7)、SA-1B数据集PCK(75.4)等指标上刷新SOTA。与传统模型相比,SAM 3D Body采用创新的Momentum Human Rig表示法,将骨骼姿态与身体形状参数解耦,避免“骨肉粘连”导致的失真;同时设计双路解码器,在共享图像编码器的基础上,分别优化全身姿态与手部细节,解决了全身建模中手部精度不足的痛点。
SAM 3:文本示例皆可提示,分割突破标签限制
如果说SAM 3D拓展了视觉技术的维度,那么SAM 3则让图像分割更懂“语义”。传统分割模型依赖固定文本标签集,能识别“人”“车”等通用概念,却难以应对“红色条纹伞”“带斑点的狗”这类细分需求。SAM 3通过“可提示概念分割”功能,彻底打破这一局限。
用户只需输入文本提示(如“条纹猫”“圆形细胞”),或在图像中选中某个物体作为示例,SAM 3就能自动找出并分割所有符合该概念的物体。例如,输入“蓝色台灯”,模型能从复杂室内场景中精准定位所有蓝色台灯;选中一只带纹猫咪,它可快速识别图中其他同类猫咪。这种灵活的提示方式,让分割从“被动匹配标签”变为“主动理解需求”。
性能上,SAM 3在多个基准测试中表现优异:LVIS数据集零样本分割准确率达47.0,较此前SOTA提升8.5个百分点;在Meta新创建的SA-Co基准测试(要求识别更大词汇量概念)中,其表现至少是基线方法的2倍。视频分割领域,SAM 3同样进步显著,在DAVIS17 val、LVOSv2 val等数据集J&F值上超越SAM 2.1L等模型,且能高效追踪跨帧物体身份,自动捕获新出现目标。
核心技术揭秘:创新架构支撑性能飞跃
SAM 3D与SAM 3的突破,源于Meta在模型架构上的深度创新。SAM 3D Objects采用两阶段生成模型构建几何与纹理:第一阶段通过12亿参数的流匹配Transformer,结合MoT架构预测物体粗糙体素形状与6D布局参数;第二阶段利用稀疏潜在流匹配架构,仅处理活跃体素以提升效率,细化几何细节并合成高保真纹理,最终通过VAE解码器输出网格或3D高斯溅射结果。为获取高质量训练数据,Meta还打造MITL数据引擎,让模型生成候选结果后由人类筛选最优项,低成本构建大规模图像-3D配对数据集。
SAM 3的架构设计则聚焦“精准识别与定位”。其核心基于共享的Perception Encoder视觉骨干网络,同时服务检测器与追踪器,确保特征提取一致性。检测器部分改进DETR架构,引入文本、图像示例提示Token,通过交叉注意力与图像特征融合;创新性加入Presence Head模块,用全局存在Token预测目标概念出现概率,与对象查询的局部匹配概率结合,有效避免开放词汇检测中的“幻觉问题”(无目标却强制预测)。视频处理上,SAM 3扩展SAM 2的记忆机制,通过掩码传播与匹配函数,实现跨帧目标追踪与新物体自动捕获。
应用场景广泛:从创作到工业皆可赋能
Meta的这组新技术,正为多个领域注入新活力。在内容创作领域,设计师只需上传一张产品草图或实物照片,SAM 3D就能快速生成3D模型,大幅缩短游戏道具、广告素材的制作周期;SAM 3则可辅助视频剪辑,通过文本指令快速分割特定物体(如“提取所有黄色花朵”),提升编辑效率。
工业与医疗场景同样受益:制造业中,SAM 3D可基于设备照片生成3D模型,辅助故障检测与维护;医疗领域,它能根据医学影像重建器官3D结构,为诊断与手术规划提供支持。人机交互方面,SAM 3D Body的精准人体建模可优化VR/AR设备的动作捕捉效果,SAM 3的语义分割能力则让语音控制更精准(如“打开桌上的蓝色水杯”)。
目前,Meta已开放SAM 3与SAM 3D系列的项目主页、GitHub仓库及论文地址,开发者可直接获取模型与技术细节。正如网友评价:“SAM 3D不是凭空臆造3D几何,而是像人类一样靠日常经验推断,这种基础模型具身化的思路,将让混合场景理解普及开来。”
Meta新模型核心信息速览:
-
SAM 3D系列:含Objects(物体场景重建)与Body(人体建模),单图生成3D,突破遮挡限制,关键指标刷新SOTA;
-
SAM 3:支持文本/示例提示,解决“细分概念分割”难题,LVIS零样本分割准确率47.0,视频追踪性能优于前代;
-
技术亮点:SAM 3D用两阶段生成模型+MITL数据引擎,SAM 3靠Presence Head防幻觉+共享骨干网络提效;
-
应用方向:3D建模、内容创作、工业检测、VR/AR交互、医疗辅助等;
-
资源开放:项目主页、GitHub仓库、论文已公开,开发者可直接获取。
结语:视觉技术迈入“3D+语义”双突破时代
Meta此次发布的SAM 3D与SAM 3,不仅是单项技术的升级,更标志着计算机视觉从“2D平面”向“3D空间”、从“通用识别”向“语义理解”的双重跨越。以往需专业设备或复杂操作才能实现的3D建模、精细分割,如今仅凭一张图、一句话就能完成,这不仅降低了技术使用门槛,更将激发无数创新应用。
随着这些技术的开源与普及,我们或许将看到:设计师用手机拍照就能生成产品3D原型,医生通过CT影像快速重建器官模型,VR玩家的动作捕捉精度再上新台阶。Meta用技术证明,视觉AI的潜力远未穷尽,当“分割一切”与“3D重建”结合,一个更智能、更便捷的视觉应用时代正在到来。