腾讯混元1.5开源：实时交互与长期空间记忆的大模型突破

type

status

date

slug

summary

实时交互：24帧/秒的流式生成体验

混元世界模型1.5最大的亮点之一，在于其惊人的生成速度与交互性。它支持高达24帧/秒的长时流式生成，这意味着用户不再是仅仅观看一段预先渲染好的视频，而是能够真正“进入”这个由AI生成的虚拟世界。

用户只需输入简单的提示词（Prompt），例如一段文字指令或者一张图片，即可创建一个可交互的3D环境。模型支持第一视角和第三视角场景的无缝切换： * 第一视角：模拟虚拟相机的直接画面，随着用户的操作（键盘、鼠标或手柄），镜头可以上下左右旋转，画面稳定且符合人眼视觉习惯。 * 第三视角：引入虚拟人物，用户操控人物移动，相机跟随并伴有轻微的自然晃动效果，极大地增强了沉浸感。

这种能力使得该模型在AI变现潜力巨大的游戏开发、影视制作以及VR领域具有极高的应用价值。

突破瓶颈：重构长期空间记忆

在以往的视频生成或世界模型中，一个常见的痛点是“记忆衰减”——即当镜头移开再移回时，原有的场景细节往往会发生改变或消失。混元世界模型1.5通过引入“空间记忆能力”，成功解决了这一难题。

该模型能够呈现出前后一致的场景。例如，当用户输入“废弃游乐园，生锈的摩天轮”等指令后，无论如何在场景中移动探索，生锈的摩天轮始终会保持在正确的位置和状态，不会因为视角的切换而变形或消失。这种几何一致性和视觉质量的提升，得益于其独特的算法模块： 1. 重构上下文记忆机制：动态重建过往帧信息，确保长期的几何一致性。 2. 长上下文蒸馏：对齐教师与学生模型的记忆上下文，抑制误差累积。

技术架构：全链路的强化学习框架

腾讯混元团队表示，这是业界目前最系统、最全面的世界模型框架。除了数据和训练层面的优化，其核心竞争力在于引入了全新的强化学习框架——WorldCompass。

在基准测试中，研究人员发现，WorldCompass RL框架在提升模型复杂交互能力方面起到了关键作用。相比于没有经过RL训练的模型，混元世界模型1.5在处理复杂交互信号时，不仅没有出现视觉退化，反而显著提高了动作跟随精度和视觉保真度。

这一架构涵盖了从模型预训练、持续训练到自回归视频模型强化学习的全流程，为LLM（大型语言模型）在多模态领域的应用提供了新的范式。

性能碾压：多项指标超越现有SOTA

在与Gen3C、ViewCrafter、CameraCtrl等现有主流模型的对比中，混元世界模型1.5展现出了强大的竞争力。

视觉质量：在LPIPS、PSNR、SSIM等指标上全面超越CameraCtrl和SEVA等模型。

长期一致性：在长期场景生成的测试中，混元1.5的所有指标均处于领先地位，有效避免了其他模型常见的误差累积问题。

场景泛化：能够基于二维图像自动补齐信息，进行高质量的3D场景重建，无论是狭小室内空间还是开放室外场景，都能规整呈现。

结语与展望

腾讯混元世界模型1.5的开源，标志着人工智能在理解和模拟物理世界方面迈出了坚实的一步。它不仅是一个生成工具，更是一个具备记忆和交互能力的虚拟世界构建引擎。随着未来对多智能体交互和复杂物理动态的进一步探索，我们有理由相信，AI将在数字孪生、具身智能训练等领域释放出更大的能量。

关注更多大模型技术进展与AI变现机会，请持续锁定 AINEWS，这里汇聚了最前沿的AI资讯与深度解读。