腾讯混元1.5开源:实时交互与长期空间记忆的大模型突破
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能飞速发展的今天,大模型不仅在文本生成领域攻城略地,更开始向构建沉浸式虚拟世界进军。近日,腾讯混元团队正式发布并开源了最新的混元世界模型1.5(Tencent HY WorldPlay),这一举动在AI资讯圈引发了热烈讨论。与以往的模型不同,此次更新不仅支持实时生成交互,更在长期空间记忆这一核心难点上取得了重大突破,为通往AGI(通用人工智能)的道路增添了重要的一块拼图。
本文将深入解读这一AI新闻背后的技术亮点,探讨其对未来数字内容创作的影响。想要了解更多关于前沿人工智能的动态,欢迎访问 AINEWS 获取最新AI日报。
实时交互:24帧/秒的流式生成体验
混元世界模型1.5最大的亮点之一,在于其惊人的生成速度与交互性。它支持高达24帧/秒的长时流式生成,这意味着用户不再是仅仅观看一段预先渲染好的视频,而是能够真正“进入”这个由AI生成的虚拟世界。
用户只需输入简单的提示词(Prompt),例如一段文字指令或者一张图片,即可创建一个可交互的3D环境。模型支持第一视角和第三视角场景的无缝切换:
* 第一视角:模拟虚拟相机的直接画面,随着用户的操作(键盘、鼠标或手柄),镜头可以上下左右旋转,画面稳定且符合人眼视觉习惯。
* 第三视角:引入虚拟人物,用户操控人物移动,相机跟随并伴有轻微的自然晃动效果,极大地增强了沉浸感。
这种能力使得该模型在AI变现潜力巨大的游戏开发、影视制作以及VR领域具有极高的应用价值。
突破瓶颈:重构长期空间记忆
在以往的视频生成或世界模型中,一个常见的痛点是“记忆衰减”——即当镜头移开再移回时,原有的场景细节往往会发生改变或消失。混元世界模型1.5通过引入“空间记忆能力”,成功解决了这一难题。
该模型能够呈现出前后一致的场景。例如,当用户输入“废弃游乐园,生锈的摩天轮”等指令后,无论如何在场景中移动探索,生锈的摩天轮始终会保持在正确的位置和状态,不会因为视角的切换而变形或消失。这种几何一致性和视觉质量的提升,得益于其独特的算法模块:
1. 重构上下文记忆机制:动态重建过往帧信息,确保长期的几何一致性。
2. 长上下文蒸馏:对齐教师与学生模型的记忆上下文,抑制误差累积。
技术架构:全链路的强化学习框架
腾讯混元团队表示,这是业界目前最系统、最全面的世界模型框架。除了数据和训练层面的优化,其核心竞争力在于引入了全新的强化学习框架——WorldCompass。
在基准测试中,研究人员发现,WorldCompass RL框架在提升模型复杂交互能力方面起到了关键作用。相比于没有经过RL训练的模型,混元世界模型1.5在处理复杂交互信号时,不仅没有出现视觉退化,反而显著提高了动作跟随精度和视觉保真度。
这一架构涵盖了从模型预训练、持续训练到自回归视频模型强化学习的全流程,为LLM(大型语言模型)在多模态领域的应用提供了新的范式。
性能碾压:多项指标超越现有SOTA
在与Gen3C、ViewCrafter、CameraCtrl等现有主流模型的对比中,混元世界模型1.5展现出了强大的竞争力。
- 视觉质量:在LPIPS、PSNR、SSIM等指标上全面超越CameraCtrl和SEVA等模型。
- 长期一致性:在长期场景生成的测试中,混元1.5的所有指标均处于领先地位,有效避免了其他模型常见的误差累积问题。
- 场景泛化:能够基于二维图像自动补齐信息,进行高质量的3D场景重建,无论是狭小室内空间还是开放室外场景,都能规整呈现。
结语与展望
腾讯混元世界模型1.5的开源,标志着人工智能在理解和模拟物理世界方面迈出了坚实的一步。它不仅是一个生成工具,更是一个具备记忆和交互能力的虚拟世界构建引擎。随着未来对多智能体交互和复杂物理动态的进一步探索,我们有理由相信,AI将在数字孪生、具身智能训练等领域释放出更大的能量。
关注更多大模型技术进展与AI变现机会,请持续锁定 AINEWS,这里汇聚了最前沿的AI资讯与深度解读。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)