Meta重磅发布:SAM 3D与SAM 3,AI视觉从分割迈向3D重建新纪元
type
status
date
slug
summary
tags
category
icon
password
网址

引言:AI视觉领域的又一次飞跃
在人工智能飞速发展的今天,我们见证了从文本到图像、从图像到视频的生成式AI带来的颠覆性变革。然而,仅仅停留在2D平面的理解和生成,对于构建一个真正智能、与现实世界无缝交互的AI系统而言,显然是不足够的。Meta公司近日的重磅发布——SAM 3D和SAM 3模型,预示着AI视觉领域正在从“分割一切”迈向“3D重建一切”的新纪元。本文将深入解读这两个模型的创新之处,探讨它们如何将我们对AI视觉的认知提升到一个全新的维度。
SAM 3D:从像素到立体世界的桥梁
Meta推出的SAM 3D系列模型,旨在将2D图像的理解能力拓展到3D空间,这无疑是计算机视觉领域的一个里程碑。它包含两个核心模型:SAM 3D Objects和SAM 3D Body,分别专注于物体与场景重建以及人体形状与姿态估计。
SAM 3D Objects:单张照片解锁3D场景对象
SAM 3D Objects的出现,彻底改变了我们从单张自然图像中提取3D信息的方式。以往,高质量的3D重建往往受限于数据稀缺、场景受控等因素。然而,SAM 3D Objects通过其独特的创新路径,成功克服了这些挑战。
该模型的核心突破在于:
- 强大的数据标注引擎:Meta认识到3D真值数据构建的复杂性和高成本。他们采用了一种巧妙的“验证与排序”机制,让标注人员对模型生成的多个3D候选结果进行评分,从而大幅降低了数据标注的门槛和成本。这种方法结合了人工智慧与模型智能,构建了一个可扩展且高效的数据引擎,首次在真实世界图像上标注了近百万张图像,生成了约314万个3D网格。
- 多阶段3D训练流程:借鉴了大型语言模型(LLM)的训练范式,SAM 3D Objects将基于合成数据的学习作为预训练阶段,随后通过数据引擎提供的真实世界高质量数据进行后训练,以弥合模拟与现实之间的鸿沟。这种正向反馈闭环机制,使得模型在不断提升稳健性和输出质量的同时,也反哺数据引擎生成更优质的数据。
通过SAM 3D Objects,用户只需从一张普通照片中选择任意物体,即可快速生成带有姿态信息的细致3D模型,这为AR/VR、机器人、数字孪生等领域带来了无限可能。
SAM 3D Body:精准捕捉人体姿态与形体
人体3D重建一直是计算机视觉的难点,特别是面对复杂姿势、遮挡或多人的场景。SAM 3D Body的问世,为这一难题提供了强大而稳定的解决方案。
其主要特点包括:
- 稳健与精准:即使在极端姿势或部分遮挡的情况下,SAM 3D Body也能从单张图像中准确地估计人体三维姿态和形体。
- 可交互性:作为一个可提示模型,它支持通过分割掩码或2D关键点等交互式输入,让用户直接引导和控制模型的预测结果,从而大大提升了精度和可用性。
- 创新的MHR格式:该模型基于Meta全新的开源3D网格格式——Meta Momentum Human Rig (MHR),通过分离骨骼结构与软组织形体建模,提供了更强的可解释性与灵活性。
- 大规模训练数据:Meta构建了一个包含约800万张图像的高质量训练数据集,使得SAM 3D Body能够应对各种复杂情况,并在多个3D基准测试中超越现有模型。
SAM 3D Body的出现,对于虚拟试穿、运动分析、虚拟人物创建等应用场景具有革命性的意义。
SAM 3:迈向可提示概念分割的通用视觉模型
在SAM 3D系列之外,Meta还推出了SAM 3(Segment Anything Model 3),进一步巩固了其在通用视觉领域的领先地位。SAM 3的核心突破在于“可提示概念分割”,它能够根据文本提示、示例图像提示,甚至是更细致的描述,精准地识别并分割出图像或视频中的特定概念实例。
克服传统分割模型的局限
以往的分割模型在面对“人”这类常见类别时表现良好,但对于“那把红色条纹的雨伞”这样具体而细致的请求时,则显得力不从心。SAM 3通过引入可提示概念分割,克服了这一限制,使得模型能够理解并执行更复杂的分割任务。
强大的模型架构与性能
SAM 3的模型架构融合了Meta在AI领域的诸多前沿成果:
- Meta Perception Encoder:作为文本和图像编码器,它显著提升了图像识别和目标检测的性能。
- DETR检测模块:基于Transformer的目标检测模型,为SAM 3提供了强大的检测能力。
- Memory Bank与Memory Encoder:继承自SAM 2的这些组件,为SAM 3的跟踪模块奠定了基础。
为了评估SAM 3在大词汇量情况下的检测与分割能力,Meta还构建了SA-Co(Segment Anything with Concepts)基准,其涵盖了更广泛的概念词汇,挑战性远超以往。
在性能方面,SAM 3取得了跨越式提升,其在图像和视频上的概念分割性能将cgF1分数提升了两倍,超越了Gemini 2.5 Pro等基础模型以及GLEE等专业模型。更令人印象深刻的是,SAM 3在H200 GPU上,仅需30毫秒即可完成对单张包含超过100个检测目标的图像的推理,展现出近实时的处理能力。
结语:AIGCbar引领AI未来
Meta此次发布的SAM 3D和SAM 3模型,不仅展示了其在AI视觉领域的深厚积累和创新能力,也为整个行业设定了新的标杆。从2D分割到3D重建,从通用物体识别到可提示概念分割,这些技术进步将极大地推动AR/VR、机器人、内容创作、智能监控等领域的应用发展,加速人工智能与现实世界的融合。
作为AI新闻的先行者,AIGCbar将持续关注并报道这些前沿技术,为广大AI爱好者和从业者提供最新、最全面的AI资讯。我们相信,随着SAM 3D和SAM 3等模型的开源和普及,更多的开发者和研究者将能够利用这些强大的工具,共同探索人工智能的无限可能,开启一个全新的智能时代。请持续关注 AIGCbar,获取更多AI、AI资讯、AI新闻、AI门户、AGI、LLM、大模型、提示词、openai、chatGPT、人工智能、claude、AI日报、Prompt等最新动态。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)