AI新闻：腾讯混元HY-World 2.0开源，一句话构建3D世界，赋能游戏引擎

type

status

date

slug

summary

引言：AI生成3D内容的新里程碑

在人工智能技术飞速发展的今天，AI在图像、文本、音频领域的生成能力已令人惊叹。然而，构建复杂且可交互的3D世界一直是AI领域的一大挑战。近日，腾讯混元团队发布并开源了其最新力作——混元3D世界模型2.0（HY-World 2.0），无疑为这一挑战提供了突破性的解决方案。这款多模态世界模型不仅支持通过简单的文字描述、图片或视频一键生成完整的3D世界，更实现了与主流游戏引擎的无缝对接，预示着3D内容创作、游戏开发乃至虚拟仿真领域即将迎来一场深刻的变革。本文将深入解读HY-World 2.0的核心技术、创新功能及其对未来AI应用的影响，带您一览AI生成3D世界的最新进展，更多前沿AI资讯请访问 https://aigc.bar。

颠覆性创新：从静态视频到可漫游的3D世界

相较于前代版本，HY-World 2.0实现了质的飞跃。如果说HY-World 1.5还停留在生成短视频的阶段，那么2.0版本则真正解锁了“可漫游”的3D空间。这意味着用户不再仅仅是旁观者，而是可以操纵角色在AI生成的场景中自由探索，体验真实的物理碰撞效果。

HY-World 2.0的核心创新点包括：

多模态输入与全景生成：无论是寥寥数语的文字描述，还是参考图片、视频，甚至是多视角图像，HY-World 2.0都能将其转化为连贯、完整的3D世界。其以3D为主轴，统一空间理解、生成和重建，将复杂的语义和结构自动转化为完整空间。

角色模式与智能漫游：新增的角色模式允许用户在生成的街道、建筑和场景中自由穿梭，并具备物理碰撞效果。这得益于模型结合自研的空间Agent技术和Navmesh表征，实现了角色漫游路径的智能规划，确保了角色移动的流畅性和空间逻辑性。

场景完整度与细节还原：模型在场景完整度，尤其是物体侧面和背面的表现上更加出色，对输入图片的遵循程度也更高。这使得生成的场景更加真实可信，为具身智能仿真等场景提供了更优质的基础。

技术解密：构建真实3D世界的幕后英雄

HY-World 2.0的强大功能离不开其背后一系列先进的技术支撑。腾讯混元团队在多个维度进行了创新：

1. 端到端生成与混合训练策略

为了确保生成质量和泛化能力，混元团队通过真实全景照片和虚幻引擎（UE）合成数据进行混合训练。这种策略使得模型能够学习到真实世界的复杂性和细节，同时也能利用合成数据的多样性来提升泛化能力，实现从草图、文字到视频的端到端360°全景生成。

2. 智能路径规划与空间Agent技术

生成一个全景3D世界后，如何让角色在其中自然漫游是一个关键问题。HY-World 2.0通过结合自研空间Agent技术和Navmesh表征，实现了角色漫游路径的智能规划。模型能够根据不同场景的语义，规划出环绕物体、最大漫游等五类运镜轨迹，确保覆盖场景中关键区域，同时避免穿墙或“跑飞”等问题，使得角色在生成的3D场景中能够自然、流畅地移动。

3. 新视角生成（NVS）与空间一致性记忆

在扩展场景时，如何保证新生成区域与原有空间在几何和视觉上完美衔接，不出现“穿帮”现象？HY-World 2.0的核心创新包括精确的相机控制、细粒度视觉细节保持以及空间一致性记忆机制。通过结合记忆力机制设计及体系化的中间训练与后训练，混元团队打造出业内领先的HY-WorldStereo新视角生成模型。这确保了生成画面对输入相机实现精准跟随，多条运镜的生成结果保持空间一致、不产生冲突，并且后训练算法能够在快速扩展新区域的同时，保证画面质量不衰减。

4. 无缝导入游戏引擎与二次编辑能力

最终，所有生成的片段通过HY-WorldMirror 2.0整合为一个统一、可交互的3D世界。借助定制的Depth Alignment和自适应Mask Gaussian优化算法，生成场景采用3D高斯泼溅（3DGS）表示，同时可导出高质量Mesh。这意味着AI生成的3D资产可以直接无缝导入Unity、UE等主流游戏引擎，进行二次编辑和创作，极大地降低了3D内容创作的门槛和成本。

广阔应用前景：重塑数字世界体验

HY-World 2.0的发布，不仅是AI技术的一次重大突破，更是为多个行业带来了前所未有的机遇。

游戏开发：对于游戏开发者而言，HY-World 2.0意味着可以“一句话”快速生成游戏地图和关卡原型，大幅缩短开发周期，降低成本。从概念到可玩场景的转化将变得更加高效。

虚拟仿真与具身智能：在虚拟仿真领域，无论是城市规划、室内设计还是工业模拟，HY-World 2.0都能提供快速、真实的3D环境。对于具身智能（Embodied AI）的研究，它能生成具备物理碰撞效果的复杂环境，加速AI智能体的训练和测试。

文化保护与数字孪生：通过多视角图片输入，HY-World 2.0能够高精度复刻建筑细节和层级结构，这在文化遗产的数字化保护和数字孪生城市的构建中具有巨大潜力。

结论：AI赋能未来，无限可能

从首个开源的3D世界模型HY-World 1.0，到可实时在线交互的HY-World 1.5，再到如今提供真正可漫游、可交互、可二次编辑的HY-World 2.0，腾讯混元团队在AI世界模型领域的持续迭代，正逐步将AI从概念验证推向产业应用。随着国内外团队在AI世界模型领域的不断探索，如李飞飞World Labs开源Spark 2.0渲染器等，我们有理由相信，AI生成3D内容将成为驱动游戏、虚拟现实、元宇宙等领域发展的核心动力。未来，AI将不仅是内容创作的辅助工具，更将成为数字世界构建的基石，开启无限的创作可能。更多AI、大模型、提示词等相关信息，欢迎访问 https://aigc.bar。