Meta被控用2396部盗版影片训练AI,天价索赔揭开行业数据黑箱 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
你是否想过,驱动着科技巨头 Meta 人工智能模型的,除了公开的知识库和数据,还可能包含一些你意想不到的“特殊材料”?最近一则惊人的AI新闻揭示,这个问题的答案可能远比我们想象的更加离谱。
两家美国成人电影公司已正式将 Meta 告上法庭,指控其系统性地使用 BitTorrent (BT) 下载了高达 2396 部受版权保护的成人影片,用于训练旗下的 LLaMA 大模型、视频生成器 Meta Movie Gen 及其他未公开的 AI 模型。这起诉讼不仅可能让 Meta 面临高达 3.59 亿美元的巨额赔偿,更将整个 AI 行业一个秘而不宣的问题——训练数据的“原罪”——彻底暴露在聚光灯下。
惊天诉讼:Meta如何一步步踏入“数据门”?
这起案件的核心证据,源于 Meta 在另一起版权诉讼中的“自白”。此前,Meta 在应对作家集体诉讼时承认,曾利用搭建在虚拟私有云(VPC)上的服务器,通过匿名 IP 地址,从多个“影子图书馆”大规模下载盗版书籍用于训练 LLaMA。
正是这一行为,让版权追踪公司 Strike 3 顺藤摸瓜,发现了 Meta 的踪迹。他们通过详尽的技术手段,锁定了与 Meta 相关的 47 个 IP 地址,并发现:
- 系统性侵权:这些 IP 地址在长达数年的时间里,持续、高频地下载并“做种”(分发)其旗下的成人影片。其行为模式高度自动化,呈现出明显的“非人类”特征。
- 公司行为:部分侵权 IP 地址直接归属于 Meta 公司网络,确认了这不是员工的个人行为,而是公司层面的系统化操作。
- 行为延伸:更令人震惊的是,调查发现部分下载行为与一个绑定在 Meta 员工家中的宽带 IP 高度协同,暗示着一种“公司干不完,回家接着干”的荒诞场景。
这一系列证据链条,将 Meta 从一个单纯的数据“使用者”推向了主动、系统化、工具化侵权并分发盗版内容的“传播者”角色,这也是诉讼中最致命的一点。
为何偏偏是成人影片?AI训练的“黄金素材”
为什么 AI 模型会对成人影片“情有独钟”?原告在诉状中给出了一个技术性的解释,简单来说,这类影片对于训练生成式 AI,尤其是视频模型,是不可多得的“黄金素材”。
- 高质量数据:成人影片通常具备高画质、高分辨率、长镜头、连贯的动作和情节以及自然的真人表情与互动。
- 理想的训练场景:相比于镜头切换频繁的影视剧或内容缺乏一致性的短视频,成人影片的场景相对固定,人物互动有始有终,为 AI 理解和学习连续动作、情感表达和时空关系提供了绝佳范本。
- 独特的场景内容:这类影片包含了其他公开数据集中所没有的独特互动场景,极大地丰富了模型的“知识库”。
最关键的是,这些资源在 BT 网络上唾手可得。Meta 甚至利用了 BT “我为人人,人人为我”的机制,通过主动做种传播这些盗版影片,来换取更快的下载速度和更多的其他资源。这使其行为从“顺手牵羊”彻底演变成了“主动交易”。
“数据原罪”:AI巨头们不能说的秘密
Meta 的案例并非孤例,它只是冰山一角。在“没有数据就没有 AI”的铁律下,“先抓取,后和解”几乎成了行业潜规则。从 OpenAI 的 ChatGPT 到 Stability AI,再到 Google,几乎所有头部玩家都曾因训练数据来源问题而官司缠身。
训练一个顶级的大模型需要“百万小时”级别的视频数据或海量文本,如果完全依赖正版授权,成本将是天文数字。因此,游走在灰色地带,利用网络爬虫抓取一切可用的数据,进行“数据洗白”,就成了一条心照不宣的捷径。
这次,Meta 撞上的是版权诉讼领域的“硬骨头”——Strike 3。这家公司以发起版权诉讼和收取和解费为主要商业模式,拥有自研的侵权追踪系统,堪称“版权猎人”。一场“你有片我就用”的科技巨头与“你敢用我就告”的版权斗士之间的对决,就此展开。
AI的未来,建立在谁的数据之上?
我们很容易将此事当成一则“AI 看黄片”的科技笑话,但其背后揭示的,是关乎我们每个人的严肃问题:在 AI 技术狂飙突进的时代,我们的数据安全和权利边界在哪里?
今天被吞噬的是电影,明天就可能是你的个人照片、医疗记录、家庭监控录像,甚至是你的创作作品。这些数据在未经你许可的情况下,被“以研究为名”的算法在黑箱中消化,最终会变成什么,被用在何处,我们一无所知。
幸运的是,已经有公司开始行动。例如,Cloudflare 已更新政策,默认拦截所有未经许可的 AI 网络爬虫,明确表达了“要数据,先授权”的态度。
无论这场官司结果如何,它都为整个人工智能行业敲响了警钟。技术的进步不应以牺牲个人权利和践踏法律为代价。透明、合规、有道德的数据使用,才是通向可信赖 AGI 的唯一道路。
想要获取更多深度的 AI资讯 和行业前沿动态,洞察 AI变现 的机会,欢迎访问一站式 AI门户网站 AIGC.bar (https://www.aigc.bar),在这里你可以找到关于 ChatGPT, Claude 等模型的最新消息和实用 Prompt 技巧。
Loading...