Sora核心团队揭秘:不止是视频生成,更是社交革命与科研引擎
type
status
date
slug
summary
tags
category
icon
password
网址

上个月 OpenAI 在发布 Sora 2 的同时将其作为独立应用发布,产品一经上线便登顶苹果应用商店榜首的现象级产品。本篇内容是对 Sora 2 的三位核心负责人的访谈:研发负责人 Bill Peebles、产品负责人 Rohan Sahai 以及工程与产品负责人 Thomas Dimson,Dimson 还参与过 Instagram 产品的搭建。
Sora 的病毒性传播离不开它独有的 Cameos 功能(即用户可将自身形象融入 AI 生成视频),这使得 Sora 并不是单纯的视频生成产品,而更像是一个社交工具:
•Sora 产品设计始终将人类创造力置于核心位置,而非鼓励被动的内容消费围绕;
•Sora 的各种玩法创新以及信息流推荐算法将更多围绕社交关系链展开,团队认为这是 Sora 和其他短视频工具最不一样的地方;
•把 Sora 作为独立产品推出一方面是看到了之前一系列图片生成产品的爆火和病毒式传播,另一方面则是考虑到 ChatGPT 作为生产力工具的生态定位和用户体验;
•视频模型长期的目标是 “世界模拟器”(world simulator),它的下一个突破点是可以生成数小时长度的视频内容,并且可以基于“模拟”能力在科研领域创造价值;
•LLMs 和视频生成模型本质上都是在学习“世界模型”,是不过路径和方式并不相同。
01.
Sora 其实是一个社交产品
Jacob Effron:你们有预料到 Sora 的爆火吗?
Bill Peebles:我其实完全没想到它能在应用商店霸榜一个月,这个成绩远超预期。不过,我们的研发团队表现出色,产品本身也具备病毒式传播特质,这是成功的基础。
Jacob Effron:把 Sora 作为独立应用的想法是什么时候产生的?
Bill Peebles:项目初期并没有明确规划,开始想要将 Sora 独立出来是因为之前推出的 ImageGen 效果很超预期,这种体验让我们决定把 Sora 独立。
虽然将不同产品界面合并这件事并不难,但目前ChatGPT 还是保留了它的今天的“单人特点”,因为 ChatGPT 这种模式下用户在 ChatGPT 里的创作和交互不一定希望被公开,我们也不希望让用户因此产生顾虑。
Jacob Effron:Sora 从最初的想法到现在的成熟,经历了怎样的演变?你们是如何逐步开发出这些 prototype 的?
Thomas Dimson:我一直在思考“社交”在 AI 领域的意义,也做过很多原型探索。
ImageGen 发布前,我们曾在 ChatGPT 内部测试 social media stream 功能,想探索社交与 ChatGPT 的结合点。测试中出现了很多 Reddit trheads 类似的交互形态,比如有人上传图片后,其他人会陆续提出修改需求,让图片不断演变。这种动态变化让我意识到这是 GenAI 独有的创作方式,因为人工很难完成这类即兴的创意生成。
在这个过程中伴随随着 Sora 模型不断完善,我们觉得可以基于这类交互把 Spra 推向大规模应用,因为图像生成虽然效果同样很惊艳,但在部分场景下,尤其是社交场景中,视频的表现力要更震撼。
Bill Peebles:我们其实没有预料到 Cameos 会成为核心亮点。直到有一天,我们团队的工程师 Bobo 想玩一玩,便在 Slack 发起请求,收集成员含“嘿,Sora,我是 XX。嘿,Sora,让我活过来”话术的视频并上传后台,并进行人物标记功能。这一现象起初不显眼,直至几天后大家发现动态全是 Cameos 内容,我们才意识到该功能的强大吸引力。
Cameos 是 Sora 2 推出的“真人出镜”功能,它允许用户通过录制验证视频,将自己的面部、体型、声音特征提取并融合到 AI 生成的任意场景中,实现“真人演员+虚拟场景“的混合视频生成。
Jacob Effron:开发 consumer 应用最有趣的点在于用户总会用我们意想不到的方式去使用。Sora 有没有遇到过这样的情况?
Thomas Dimson:当然。举个例子,有个简单的小视频被翻拍了很多次 —— 内容是一个孩子拆圣诞礼物,结果拆出的是 Bill Peebles 的动作人偶,而且这个人偶和 Bill Peebles 本人几乎一模一样。仅凭几个数字,模型就能呈现出这个人偶,把观看者带入一个完全陌生的场景。
我每天刷动态时,总能看到类似的作品,有的是黏土动画形式,有的是电子游戏主题,虽然表现形式不同,但核心技术是一样的。
但我觉得现在大家的创意还远没把 Sora 的潜力挖透。比如是不是可以把 LucasArts adventure(注:1986年发行的一个经典冒险游戏)里的换成 你的信息或者别人的 Camoes,肯定会很有趣。所以未来更多更新的创意肯定会源源不断。
Rohan Sahai:Storyboard 功能可以生成长达 25 秒的片段,这才是质量标准真正实现飞跃的时刻。这个模型一次生成就能产出这么连贯的故事,哪怕在 Sora 1 上试上百次,也很难达到这种效果。这在 Sora 2 里算得上革命性突破,也充分体现了智能水平的提升。
Storyboard 是 Sora 2 推出的“将自然语言转化成视频”功能,它能自动将创作者的叙事内容或脚本转化为连贯的视觉场景,并且每个场景都具备逼真的景深、风格与基调。
Jacob Effron:Sora 刚发布时,Stratechery 的 Ben Thompson 写过一篇文章表示质疑 ,认为基于其他现有产品来看大多数用户只想消费内容、不愿创作,但后来他改变了态度。怎么看待这一变化?你觉得 Sora 创作热度能持续下去吗?
Rohan Sahai:我们从一开始设计这款应用时,就把创作功能当作核心,这是我们最初的核心假设。
现有的社交媒体平台确实不错,但用户在其中获得的乐趣通常来自内容消费而不是创作,连续不断的刷屏对用户来说也并不好事,所以我们其实很想解决今天算法推荐带来的问题。
最关键的突破还是 Cameos 功能。Cameos 真正给生成内容赋予了个性化温度,让内容有了人性化特质,这是单纯的文本转视频或简单模型提示做不到的。
另外,Thomas 在推荐系统上花了很多精力, 这些功能要是处理不好,很容易彻底失控,比如推荐系统可能会让 Sora 走向靠吸引眼球刺激用户刷屏。所以其实 Thomas 在这方面做了很多开创性工作,重新设计了 Sora 的推荐系统架构,让它真正服务于创意表达,而不是让整个产品变成消费导向的工具。
Thomas Dimson:没错,这里面有些机制其实有 “自我实现循环” 的特性,但只要用户参与到这个网络里,就可能触发这种优化目标。不过我觉得这是健康的:当你主动决定 “我要 remix 这段内容” 时,这种行为本身就很有创造力,能让用户进入深度创作状态,而不是单纯消费。所以 remix 背后的理念是:正因为创作变得这么简单,我们才能鼓励大家用非传统方式创作。
Bill Peebles:Ben Thompson 最初的反馈其实挺打击我的,但他后来转变态度也很合理,因为他一开始只是从 “消费者” 而非 “创作者” 的角度给出看法,并且早期的 Sora 用户面对还没成熟的信息流,体验确实比较平淡。
后来他转变态度时,提了个很关键的点:哪怕创作者和消费者的比例只改变 1%,影响也是巨大的,产品形态也会完全不同。我觉得这很好地总结了 Sora 的特别之处。
Thomas Dimson:其实我们在做一系列包括 Sora 在内的产品原型探索时就有一个对比发现,即“人类创作” 和 “机器人创作” 本质上有根本差异,而这种差异不容易察觉。
但可以试想一下:如果今天我们刷到的 Sora 动态剥离发布者身份,这些内容本身会变得索然无味。所以 Sora 流行的关键在于 “有人审视内容后决定发布”,这相当于盖了个 “认可印章”,所以也可以说是用户确实参与了创作过程,这点很好理解。
Jacob Effron:当产品专注于创作者时,就会遇到一个矛盾:创作者的水平差异非常大。比如,纯粹的消费者型创作者,他们只想轻松地 remix 内容;而专业级的创作者,他们技术水平极高。Sora 已经引入了基础的编辑功能,你们如何规划这个产品领域的长期发展呢?
Rohan Sahai:我觉得 Sora 最有价值的地方在于它真正实现了“创作民主化”,任何人都能参与创作,还能通过不断提升技能,成长为专业级创作者。
那些掌握 Sora 的高手做出的顶级作品,普通人完全可以直接混搭、重构,获取其中所有创作元素,同时还能一步步学习技巧,比如怎么精准引导 Sora 生成内容,怎么设计自己的 Cameos 角色。
我们要做的是持续给到专业级创作者更强大的工具,帮他们突破边界。我们正在推出更多专门针对这类创作者的特色功能,比如分镜功能就是个重要突破,我们最近还上线了基础剪辑工具。
随着时间推移,我希望每个用户都能提升自己的创作水平:既要全力支持顶尖创作者施展才华,更要让每个人都有机会逐步成长,最终成为这样的创作者。到那个时候 Sora 的信息流会变成一个特别惊人的创意池。
Bill Peebles:越来越多人有能力参与创作的终极状态本身就很值得期待,对于个人来说也可能还能成为深入探索创作的入口。
比如我自己的经历里,GarageBand(注:苹果音乐创作软件)就是这样的例子——它的触达门槛低到不可思议,最基础的操作就是拖拽循环音轨,哪怕你不会演奏乐器,也能开始理解“创作的要素是什么”。你先用它做出有趣的东西,深入后就会想:“哦,我真想买个 MIDI 键盘,学吉他,自己录音了”。
我们能做到这一点,核心就是大幅降低了创意入门门槛。
Jacob Effron:从产品动作来看,Sora 提到过要聚焦社区功能和产品创新。你们接下来打算如何做?
Thomas Dimson:其实一开始我们也不确定产品会往哪个方向演变,所以先给了它一个大家熟悉的形态——Sora 的界面看着和其他全屏短视频应用很像,但使用体验完全不同。
我们有个核心假设,现在也正在被验证:和朋友一起用,会有趣得多。
这个特性已经融入了产品设计,我们的推荐系统都在强化这一点。虽然目前这部分潜力还没完全挖透,但未来我们肯定会继续深化。比如随着时间推移,公共信息流会越来越重要,它可以成为用户的灵感来源。
当我们思考“这项技术如何给朋友互动带来新乐趣”时,那些没被想到的可能性特别让人兴奋。具体是什么现在不好说。
我们接下来还会逐步强化私信功能,因为它很可能创造出很多有意思的互动,甚至群组对话能带来的潜力也很大。
整个 OpenAI 团队在 Sora 正式上线前内部就形成了这种连结和活动,大家在产品里互动得特别开心,未来我也希望产品能支撑起这种模式。
查理芒格的 “Show me the incentive and I will show you the outcome.” 在大型推荐系统里尤其适用。
我在负责 Instagram 的时候,我们就明确过“优先展示好友动态”,避免信息流里全是无关内容。当时我负责的 explore 页面虽然是次要入口,但团队目标很明确。后来用户发帖量减少,这个功能才慢慢弱化。
但我们现在看 Instagram 或者 X 平台的信息流,都特别乱。我们大幅降低创作门槛后,反而可能加剧了这种“信息杂乱”的问题。但挺有讽刺意味的是,恰恰是 AI 生成视频,让用户和朋友的联结变得更紧密了。
Jacob Effron:Sora 推出后,名人和版权方都在快速了解、适应这项技术及其应用方式。能不能聊聊过去一个月里他们的变化?目前大多数人对 Sora 的认知大概在什么水平?
Rohan Sahai:Sora 上线后,我们和各个领域的人都聊过。一个月前,大多数人甚至不知道 “视频生成技术” 存在,更别说想到它会成为热门应用。但随着交流深入,我们能感受到他们对平台的热情,尤其是版权持有者 —— 对他们来说,Sora 蕴含着巨大价值。
最近我们刚推出 character Cameos 功能,可以想象一下:如果一个热门 IP,现在任何孩子都能用这些 IP 角色生成内容,其实对版权方来说意义特别大。
同时我们也很重视版权方的顾虑,确保他们能参与决定 “角色该以什么方式呈现”。他们希望设置一些限制,避免平台变成完全自由的创作空间,这一点我们能理解。
同时,我们还宣布 Sora 会引入货币化功能。未来我们计划给版权方提供新的内容变现途径,而且会优先支持那些从平台初期就投入资源的创作者。我相信这会带来很不一样的成果,接下来也会启动试点项目,帮版权方探索变现新方式,尤其是早期就参与的创作者 —— 现在加入的用户,我们相信他们能看到明显的成果。
Jacob Effron:有没有哪位特定的名人或版权方让你觉得“他们已经理解了”这项技术的潜力?
Bill Peebles:我可以举 Mark Cuban 的例子,他允许用户创建包含他形象的AI生成视频,但在形象设置中加上了自己的制药公司 Cost Plus Drugs,所以其他用户用 Mark 形象创建的视频本质上就成为一种免费广告,我觉得他是最早意识到这个功能潜力的人,从品牌广告的角度看,这项技术无疑是个大机会。
02.
Sora 的商业化探索
Jacob Effron:在 LLM 领域,用户的期望似乎已经被“宠坏”了,现在大家普遍觉得你们推出的产品成本应该能低上百倍。在视频领域,Sora 是否能在 6 到 12 个月内实现类似的成本突破?
Rohan Sahai:肯定会。2024 年 2 月,我们第一次向外界展示 Sora 1 时,生成一段 720p 短视频的计算成本大概要 50 美元,而 Sora 2 的 API 定价,和当时比几乎是九牛一毛。所以这次发布不仅是成本大幅下降,模型的智能水平也有了显著提升,而且这种趋势会一直延续下去。
当用户日均使用量达到 30 次后,适度收费显然是合理的。至少从目前网络上的反应来看,并没有出现强烈抵制,这可能会是 Sora 商业化中很自然的第一步。
Sora 负责人 Bill Peebles 在 X 上宣布 Sora 开始进行收费尝试
我们的商业化要顾及两个目标:既要覆盖推理成本,也要用收费机制激励版权方等各方参与进来。但核心是构建一个让所有参与者都能受益的生态系统。
比如,Sora 的 GPU 开销需要覆盖,同时我们也希望平台上的新创作者,这些人可能在 TikTok 或 Instagram 上没有任何粉丝基础,但是他们可以在 Sora 上实现变现,那些拥有丰富 IP 的版权方,也应该从中获得收益,毕竟这些角色本身就深受大众喜爱。
在构思变现方案的过程中,我们每天都在学习和调整。总体上我们希望是一个循序渐进的过程,目前看来先为生态里的创作者打通盈利通道是最重要的。
所以当下我们采用的 30 free gens/day 的付费方案未必是 Sora 最终的盈利模式,我们还在探索,并且整个过程保持开放、透明。为我们想要找到一个对包括 OpenAI、用户、创作者以及 IP 方等所有人都有利的状态,这一点对于平台长期发展也是很重要。
Jacob Effron:你们有探索过其他的定价模式吗?
Bill Peebles:短期内还没有,但我想回到前面提到的“如何彻底重构品牌营销模式”。
随着 GenAI 视频技术的出现广告商应该重新定义内容的呈现方式。比如现在用户刷 Instagram,广告视频内容都是固定的,但如果创作者愿意让视频里一些元素都用来展示特定品牌,还能把这些展示权拍卖给品牌方,这会是一个全新的创意领域。
Thomas Dimson:从我自己的亲身经历出发,这个平台最有趣、也最与众不同的地方在于 Cameos 以及它所具备的传播属性,并且我相信这个特性还会被持续放大。
作为首批早期用户,我也开放了自己的 Cameos,现在我大概有 17000 次“出镜”,如果把这些视频的观看量加起来,数字非常惊人。
这种影响力几乎是其他平台无法比拟的。因为其他平台需要用户亲自创作内容才能获得传播。
而我真心享受在 Sora 上的这种状态:喜欢记录日常点滴,时常更新 Cameos 指令,比如突然发现自己穿了件酷炫衬衫,就对着镜头即兴来段音乐表演。所以我觉得这种形式特别有趣,目前还没有完全相同的模式能类比这种体验。
现在已经涌现出很多新型媒介形式,有意思的是,它们正以不同方式拓展传播的边界,这不再只取决于你发布的内容本身,更在于如何通过新技术创造出更多的互动和连接。
Jacob Effron:Sora 特质之一也在于它的全球性,这是一个全球用户群体中爆火的产品,你们有注意到了不同地区的用户使用时出现的差异吗?
Thomas Dimson:我们最初是在美国和加拿大推出,之后扩展到韩国、日本,前几天我们刚在东南亚部分国家上线了产品。整个过程中发现不同地区的创作风格差异特别明显——尤其是在 Cameos 功能的运用上,每个地区都有自己的独特玩法,特别有启发。
我目前在 Sora 上的体验其实和我用 TikTok 很像,我是 TikTok 的重度用户,也特别喜欢这个平台。从上面我学到了不少东西,比如有人分析某种行为的心理机制,或者聊依恋理论这类内容,有时候会突然觉得“哎,这不就是在说我吗?”,然后赶紧去查资料。我觉得这种“通过内容学知识”的现象会越来越普遍,跨文化内容也是如此。
每次看到不同国家用户做的创意混剪,我都觉得特别有趣,每段作品都带着浓浓的本土风情。最让我着迷的是,去了解人们渴望看到什么场景,想把自己和朋友放在什么样的画面里。大家关注的点特别有意思,有些事在旁人看来微不足道,但你只要去留意“人们在乎什么、笑点在哪里”,就会发现无数有趣的“痴迷点”。今天我就碰到一位用户,她特别痴迷起重机,说“我就是喜欢想象自己站在起重机顶端的感觉”。
Jacob Effron:Sora 团队肯定要需要根据对产品的预期预留 GPU 容量,这个指标你们是如何测算的?
Rohan Sahai:这个指标没有精确标准,算力资源的瓶颈是全行业问题。视频类产品计算密集,推出 Sora 就需要公司在其他领域做出权衡。但 OpenAI 的优势在于全员责任感强,所以无论 ChatGPT 视觉功能还是 Sora,团队都会全力保障用户体验。
Jacob Effron:之前提到 Sora 未来可能和 ChatGPT 实现某种整合,你们怎么看待 OpenAI 正在研发的其他项目?这种整合大概会在什么时候启动?
Bill Peebles:ChatGPT 本质上是用户的助手,这是我们一开始就给它定的定位——那它为什么不能用有价值的视频来回应用户呢?而且不同产品之间的交互方式,本身就藏着无限可能。比如,你可以想象一下:在浏览器里操作时,旁边有个视频小助手——相当于你的智能管家——跟你说“我帮你订这趟航班吧”。市面上其实已经有过很多这类天马行空的创意了。
Thomas Dimson:这些功能是相互支撑、逐步构建的。推理模型在追求 AGI 的过程中,潜力确实巨大——不过我一开始没把内容审核系统当成它的核心应用场景,现在想来,这其实是个绝佳的应用方向。
ChatGPT 在整个生态里有它的独特性,某种程度上是“神圣不可侵犯”的。这不是说它不会随时间演变,或者我们不能给它加新功能,而是它本质上更偏向“实用驱动型”场景。娱乐场景和实用场景的融合往往不容易,所以不能简单把两者硬凑在一起。
Jacob Effron:Google 和 Meta 最近也都推出了视频生成工具,你如何看整个视频生成这个领域接...
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)