AI新闻:腾讯混元HY-World 2.0开源,一句话构建3D世界,赋能游戏引擎

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:AI生成3D内容的新里程碑

在人工智能技术飞速发展的今天,AI在图像、文本、音频领域的生成能力已令人惊叹。然而,构建复杂且可交互的3D世界一直是AI领域的一大挑战。近日,腾讯混元团队发布并开源了其最新力作——混元3D世界模型2.0(HY-World 2.0),无疑为这一挑战提供了突破性的解决方案。这款多模态世界模型不仅支持通过简单的文字描述、图片或视频一键生成完整的3D世界,更实现了与主流游戏引擎的无缝对接,预示着3D内容创作、游戏开发乃至虚拟仿真领域即将迎来一场深刻的变革。本文将深入解读HY-World 2.0的核心技术、创新功能及其对未来AI应用的影响,带您一览AI生成3D世界的最新进展,更多前沿AI资讯请访问 https://aigc.bar

颠覆性创新:从静态视频到可漫游的3D世界

相较于前代版本,HY-World 2.0实现了质的飞跃。如果说HY-World 1.5还停留在生成短视频的阶段,那么2.0版本则真正解锁了“可漫游”的3D空间。这意味着用户不再仅仅是旁观者,而是可以操纵角色在AI生成的场景中自由探索,体验真实的物理碰撞效果。
HY-World 2.0的核心创新点包括:
  • 多模态输入与全景生成:无论是寥寥数语的文字描述,还是参考图片、视频,甚至是多视角图像,HY-World 2.0都能将其转化为连贯、完整的3D世界。其以3D为主轴,统一空间理解、生成和重建,将复杂的语义和结构自动转化为完整空间。
  • 角色模式与智能漫游:新增的角色模式允许用户在生成的街道、建筑和场景中自由穿梭,并具备物理碰撞效果。这得益于模型结合自研的空间Agent技术和Navmesh表征,实现了角色漫游路径的智能规划,确保了角色移动的流畅性和空间逻辑性。
  • 场景完整度与细节还原:模型在场景完整度,尤其是物体侧面和背面的表现上更加出色,对输入图片的遵循程度也更高。这使得生成的场景更加真实可信,为具身智能仿真等场景提供了更优质的基础。

技术解密:构建真实3D世界的幕后英雄

HY-World 2.0的强大功能离不开其背后一系列先进的技术支撑。腾讯混元团队在多个维度进行了创新:

1. 端到端生成与混合训练策略

为了确保生成质量和泛化能力,混元团队通过真实全景照片和虚幻引擎(UE)合成数据进行混合训练。这种策略使得模型能够学习到真实世界的复杂性和细节,同时也能利用合成数据的多样性来提升泛化能力,实现从草图、文字到视频的端到端360°全景生成。

2. 智能路径规划与空间Agent技术

生成一个全景3D世界后,如何让角色在其中自然漫游是一个关键问题。HY-World 2.0通过结合自研空间Agent技术和Navmesh表征,实现了角色漫游路径的智能规划。模型能够根据不同场景的语义,规划出环绕物体、最大漫游等五类运镜轨迹,确保覆盖场景中关键区域,同时避免穿墙或“跑飞”等问题,使得角色在生成的3D场景中能够自然、流畅地移动。

3. 新视角生成(NVS)与空间一致性记忆

在扩展场景时,如何保证新生成区域与原有空间在几何和视觉上完美衔接,不出现“穿帮”现象?HY-World 2.0的核心创新包括精确的相机控制、细粒度视觉细节保持以及空间一致性记忆机制。通过结合记忆力机制设计及体系化的中间训练与后训练,混元团队打造出业内领先的HY-WorldStereo新视角生成模型。这确保了生成画面对输入相机实现精准跟随,多条运镜的生成结果保持空间一致、不产生冲突,并且后训练算法能够在快速扩展新区域的同时,保证画面质量不衰减。

4. 无缝导入游戏引擎与二次编辑能力

最终,所有生成的片段通过HY-WorldMirror 2.0整合为一个统一、可交互的3D世界。借助定制的Depth Alignment和自适应Mask Gaussian优化算法,生成场景采用3D高斯泼溅(3DGS)表示,同时可导出高质量Mesh。这意味着AI生成的3D资产可以直接无缝导入Unity、UE等主流游戏引擎,进行二次编辑和创作,极大地降低了3D内容创作的门槛和成本。

广阔应用前景:重塑数字世界体验

HY-World 2.0的发布,不仅是AI技术的一次重大突破,更是为多个行业带来了前所未有的机遇。
  • 游戏开发:对于游戏开发者而言,HY-World 2.0意味着可以“一句话”快速生成游戏地图和关卡原型,大幅缩短开发周期,降低成本。从概念到可玩场景的转化将变得更加高效。
  • 虚拟仿真与具身智能:在虚拟仿真领域,无论是城市规划、室内设计还是工业模拟,HY-World 2.0都能提供快速、真实的3D环境。对于具身智能(Embodied AI)的研究,它能生成具备物理碰撞效果的复杂环境,加速AI智能体的训练和测试。
  • 文化保护与数字孪生:通过多视角图片输入,HY-World 2.0能够高精度复刻建筑细节和层级结构,这在文化遗产的数字化保护和数字孪生城市的构建中具有巨大潜力。

结论:AI赋能未来,无限可能

从首个开源的3D世界模型HY-World 1.0,到可实时在线交互的HY-World 1.5,再到如今提供真正可漫游、可交互、可二次编辑的HY-World 2.0,腾讯混元团队在AI世界模型领域的持续迭代,正逐步将AI从概念验证推向产业应用。随着国内外团队在AI世界模型领域的不断探索,如李飞飞World Labs开源Spark 2.0渲染器等,我们有理由相信,AI生成3D内容将成为驱动游戏、虚拟现实、元宇宙等领域发展的核心动力。未来,AI将不仅是内容创作的辅助工具,更将成为数字世界构建的基石,开启无限的创作可能。更多AI、大模型、提示词等相关信息,欢迎访问 https://aigc.bar
Loading...

没有找到文章