Sora2新能力曝光:能预测ChatGPT输出,AI边界再次模糊

type
status
date
slug
summary
tags
category
icon
password
网址
自OpenAI发布文生视频模型Sora以来,其生成的视频质量和对物理世界的模拟能力一直令人惊叹。然而,最近的一系列测试揭示了Sora2(或其最新内部版本)一些更令人难以置信的“隐藏能力”,这些能力表明,Sora可能远不止是一个视频生成器,它正在向一个更通用的世界模型进化,甚至能够模拟和预测其他AI(如ChatGPT)的行为。
这些新发现不仅展示了Sora强大的技术实力,也彻底模糊了视频生成、代码解释和AI交互之间的界限,让我们不得不重新审视AI发展的未来方向。

惊人的联动:Sora2如何预测ChatGPT的输出?

最引人注目的发现之一,是Sora2能够模拟与ChatGPT的完整交互过程。在一次测试中,用户向Sora2输入指令,要求它模拟“向ChatGPT发送信息”的场景。Sora2不仅生成了相应的视觉画面,还构建了一段完整的问答交互:
  1. 模拟提问:Sora2在画面中生成了一个问题:“Write a playful haiku about a cat staring out the window.” (写一首关于猫凝视窗外的俏皮俳句。)
  1. 模拟回答:紧接着,Sora2用酷似ChatGPT的机械女声,生成了一段音频回答:“Whiskers pressed to glass. Birds gossip beyond the pain. Tail flicks. Daydreams fly.” (胡须紧贴玻璃。鸟儿在窗外叽喳。尾巴轻摇。白日梦飞扬。)
这段俳句不仅格式工整、意境优美,其音频的音色和节奏也与ChatGPT的风格如出一辙。
这个例子揭示了一个关键点:Sora2并非简单地生成一个“正在打字”或“播放音频”的视频。它理解了“模拟ChatGPT交互”这一指令的深层含义,包含了提问、思考、生成答案的全过程。这暗示Sora2内部可能拥有强大的语言模型推理能力,或者说,它对ChatGPT这类LLM的工作模式有着深刻的理解。对于追求高效、智能AI体验的用户来说,这种强大的推理能力正是他们在使用ChatGPT官方中文版时所期待的。想要体验这种不降智的AI交互,一个稳定可靠的ChatGPT国内使用渠道至关重要。

从视频到浏览器:Sora2的HTML渲染能力

如果说预测ChatGPT的输出展示了Sora2的推理能力,那么它对HTML代码的渲染能力则证明了它对结构化数据的理解。有用户尝试向Sora2输入一段HTML代码,并要求其渲染出效果。
结果令人震惊。Sora2生成的视频画面,与该段HTML代码在真实浏览器中渲染出的样子几乎“一模一样”。
这已经超越了“根据描述生成图像”的范畴。Sora2在这里扮演了一个“浏览器”的角色,它能够解析代码的结构、标签和内容,并将其准确地转化为视觉表现。这项能力意味着Sora2不仅仅是在学习像素和画面的关系,更是在学习这个世界运行的抽象规则,包括数字世界的规则。

超越提示词:Sora2对物理与虚拟世界的深刻理解

Sora2的能力还体现在对物理规律和复杂虚拟世界背景的精准把握上,有时甚至超出了用户提示词的明确指令。

物理世界的模拟

在一个经典的物理实验测试中,用户给出了如下提示: > 在桌子上放一张立着的纸,纸上画有两个箭头,一个在另一个下方,两个箭头指向同一个方向。然后在箭头前面放一个大的玻璃杯,使得从玻璃杯中可以看到箭头。接着将玻璃杯装满水。
Sora2生成的视频中,当水被倒入玻璃杯后,透过水看到的箭头方向自动发生了翻转。用户并未在提示词中明确要求“箭头翻转”,Sora2却能自主模拟出由光的折射引起的这一物理现象。这表明其训练数据中包含了足够多的物理世界规律,使其能够形成一种直觉性的“物理引擎”。

虚拟世界的还原

在另一个测试中,用户要求Sora2生成一段《赛博朋克 2077》游戏中与角色帕纳姆(Panam)一起使用巨蜥坦克(Basilisk)的画面。尽管这只是游戏中的一个支线任务,Sora2却精准地还原了大量关键要素: * 地图位置与地形 * 车辆的独特设计 * 游戏中的帮派名称
虽然在“坦克应为悬浮而非带轮”和“帕纳姆的位置”这两个细节上出现了偏差,但考虑到网络上关于此支线任务的视频资料相对有限,Sora2能从海量信息中准确提取并整合如此多的关键细节,已经充分展示了其强大的信息处理和场景构建能力。

Sora2的背后:是LLM还是世界模型?

Sora2展示的种种“超能力”——预测LLM输出、渲染代码、模拟物理现象、还原复杂场景——都指向一个共同的推论:Sora2的底层架构可能基于一个强大的大型语言模型(LLM),或者它本身就是一个初级的“世界模型”(World Model)
一个真正的世界模型,不仅能看懂世界、听懂世界,更能理解和预测世界运行的规律。Sora2的表现,正是在向这个方向迈进。它不再是一个单纯的“像素画家”,而是一个能够理解指令、进行推理、并模拟结果的“世界模拟器”。
要体验和利用这种前沿AI的强大能力,一个稳定、流畅的访问平台是基础。对于国内用户而言,寻找一个可靠的ChatGPT镜像站或官方访问方式(如通过 https://chat.aigc.bar 这样的平台)是探索AI前沿、避免服务降智(ChatGPT不降智)的最佳途径。

结论

Sora2的最新进展彻底打破了我们对其“文生视频工具”的单一认知。它所展现出的跨领域能力,预示着未来AI发展的趋势——不同模态(文本、图像、视频、代码)之间的界限将日益模糊,AI将朝着更加通用、更加整合的方向发展。
Sora2或许只是一个开始,它为我们揭开了通往通用人工智能(AGI)的冰山一角。未来,我们可能会看到能够同时写作、绘画、编程、谱曲并模拟物理实验的统一AI模型。Sora2的边界究竟在哪里?我们离那个真正理解并模拟世界的通用AI还有多远?这些问题,值得我们每一个人期待和思考。
Loading...

没有找到文章