Meta开源SAM Audio:音频分割领域的GPT时刻,多模态AI再进化 | AINEWS

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能生成内容(AIGC)的浪潮中,Meta 始终扮演着开源先锋的角色。继 Segment Anything Model (SAM) 在计算机视觉领域掀起“分割一切”的革命,以及 SAM 3D 将这一能力拓展至三维空间之后,Meta 再次抛出重磅炸弹——SAM Audio
这不仅仅是一个新的音频处理工具,更是音频 AI 领域的里程碑事件。Meta 正式开源了 SAM Audio 及其核心引擎 PE-AV(Perception Encoder Audiovisual),旨在实现对声音的“分割一切”。这一突破意味着,我们终于拥有了一个统一的多模态模型,能够像理解图像一样,通过文本、视觉甚至时间线索,精准地从复杂的混合音频中剥离出任意目标声音。本文将深入解读这一技术突破,探讨其背后的架构原理以及对 AI 行业的深远影响。

从视觉到听觉:SAM 家族的最后一块拼图

长期以来,音频分割和编辑一直是一个高度专业化且碎片化的领域。市面上的工具往往只能针对单一任务,例如仅能去除人声或仅能分离特定乐器。这种割裂的现状极大地限制了音频内容创作的效率与想象力。
SAM Audio 的出现打破了这一僵局。作为一个统一模型,它继承了 SAM 家族的核心理念:通用性与交互性。它不再局限于某种特定的声音类型,而是提供了一个通用的框架。Meta 将其形容为音频处理领域的“大脑”,而与之配套的 PE-AV 则扮演了“耳朵”的角色。
通过这种组合,SAM Audio 首次支持了多种符合人类直觉的交互方式: * 文本提示:用户只需输入“吉他声”、“狗叫声”或“背景交通噪音”,模型即可自动识别并提取。 * 视觉提示:这是最具颠覆性的功能之一。在一段视频中,用户只需点击画面中正在说话的人或正在演奏的乐器,模型就能利用视觉信息锁定并分离出对应的声音。 * 时间跨度提示(Span Prompting):这是 Meta 的首创技术,允许用户在时间轴上标记特定片段,从而在整段长音频中精准处理持续出现的噪音或特定声音。

技术核心:PE-AV 与流匹配扩散 Transformer

SAM Audio 之所以能实现如此强大的功能,离不开其底层的技术架构创新。
首先是 Perception Encoder Audiovisual (PE-AV)。这是 Meta 基于今年早些时候发布的 Perception Encoder 升级而来的视听感知编码器。它将先进的计算机视觉能力扩展到了音频领域,通过提取逐帧级别的视频特征并与音频表示进行对齐,实现了视听信息的深度融合。
简单来说,PE-AV 解决了“所见即所闻”的问题。它通过大规模多模态对比学习(基于超过 1 亿条视频训练),能够理解画面中的物体与声音之间的语义关联。这使得 SAM Audio 不仅能处理简单的声源分离,还能结合场景上下文,对画面外发生的声音事件进行推断。
其次,在生成架构上,SAM Audio 采用了一种基于流匹配扩散 Transformer 的生成式建模框架。该架构能够接收混合音频及多模态提示,将其编码为共享表示,并最终生成目标音轨与剩余音轨。配合 Meta 构建的包含真实与合成数据的大规模数据引擎,确保了模型在各种复杂声学环境下的鲁棒性。

全新的评测标准:SAM Audio-Bench 与 SAM Audio Judge

在 AI 领域,评估模型的性能往往比训练模型本身更具挑战性,尤其是在音频分离这种主观性较强的任务中。传统的评测指标往往依赖参考音轨,且难以捕捉人类听感的细微差别。
为了解决这一痛点,Meta 同步发布了两大工具:
  1. SAM Audio-Bench:这是首个针对真实环境(in-the-wild)的音频分离基准。它覆盖了语音、音乐、通用音效等所有主要音频领域,并支持文本、视觉及时间段等多种提示类型。这一基准的建立,意味着音频分离领域终于有了一把衡量进步的“公尺”。
  1. SAM Audio Judge:这是一个自动评测模型,旨在模拟人类的感知方式。它引入了无参考评估(reference-free evaluation)机制,即使在没有原始纯净音轨的情况下,也能从召回率、精确度、忠实度等 9 个感知维度对分离效果进行打分。
这两项工具的发布,不仅证明了 SAM Audio 的性能,更为整个音频 AI 社区提供了一套标准化的研发基础设施。

应用场景与未来展望

SAM Audio 的开源将极大地降低音频处理的门槛,并催生出大量创新应用。
对于内容创作者而言,音频清理与背景噪声移除将变得前所未有的简单。想象一下,在户外拍摄 Vlog 时,不再需要昂贵的降噪麦克风,只需在后期通过简单的文本提示“去除风声”或“去除车流声”,即可获得演播室级别的音质。
在音乐制作领域,从复杂的混音中分离单一乐器或人声将不再是专业混音师的专利。普通用户也可以轻松提取自己喜欢的吉他独奏进行学习,或者将老歌中的人声分离出来进行二次创作。
此外,Meta 已经宣布与助听器制造商 Starkey 合作,探索该技术在无障碍领域的应用。通过结合视觉眼镜与音频分割技术,未来的助听设备或许能让听障人士在嘈杂的聚会中,只听到他们注视的那个人说话的声音,极大地改善生活质量。
尽管 SAM Audio 目前仍存在一些局限性,例如暂不支持以音频本身作为提示(Audio-to-Audio),以及在分离高度相似声音(如交响乐中的同类乐器)时仍有挑战,但它无疑已经推开了新时代的大门。

结语

Meta 通过开源 SAM Audio,再次证明了多模态大模型在理解物理世界方面的巨大潜力。从分割图像到重建物体,再到如今的分割声音,AI 正在一步步构建起对现实世界的全方位感知能力。
对于关注 AI、大模型、LLM 以及 AGI 发展的开发者和爱好者来说,SAM Audio 的出现是一个强烈的信号:多模态交互将是未来 AI 应用的主流形态。想要获取更多关于 AI资讯、AI新闻 以及 人工智能 前沿动态,请持续关注 AINEWS。我们将为您带来最及时的 AI日报 和深度技术解读,助您在 AI变现 的道路上抢占先机。
Loading...

没有找到文章