Visionary:超越Marble的WebGPU渲染新星,重塑世界模型Web端体验

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能飞速发展的今天,李飞飞团队 WorldLabs 推出的 Marble 模型曾一度引爆了「世界模型(World Model)」的热潮。然而,随着技术的深入应用,一个不容忽视的现实问题逐渐浮出水面:世界模型在 Web 端的“最后一公里”——可视化与交互,依然严重受限于底层的渲染能力。
Marble 所依赖的 SparkJS 渲染器虽然让 3D Gaussian Splatting (3DGS) 首次在浏览器中跑了起来,但在面对大场景和复杂动态交互时,其基于 WebGL 的架构显得力不从心。就在近日,开源社区迎来了一位强有力的挑战者——Visionary。这不仅仅是一个查看器,更是一个基于 WebGPU 与 ONNX 构建的全新渲染基座,它承诺将全面超越现有的 Web 渲染方案,重新定义世界模型在浏览器中的表现。

World Model 的 Web 端困境:从“能看”到“好用”的鸿沟

世界模型(World Model)的概念虽然迷人,但要让普通用户在浏览器中流畅体验,技术门槛极高。目前的视频生成范式(如 Genie3)对算力要求极高,难以在 Web 端实时运行。而基于神经渲染的路线,特别是 3D Gaussian Splatting (3DGS),凭借其高效性成为了构建世界模型的重要载体。
然而,现有的 Web 端方案存在明显的断层: * 桌面端引擎(Unity/Unreal):性能虽强,但部署极其复杂,且依赖沉重的本地环境,难以在网页上快速传播。 * 现有 Web 方案(SparkJS/SuperSplat):受限于老旧的 WebGL 管线,主要支持静态场景。一旦涉及到动态 3DGS 或 Neural Avatar(神经化身),CPU 排序便成为性能天花板,导致帧率骤降,更无法引入生成式模型进行实时推理。
这意味着,世界模型想要真正“被看见、被交互”,必须突破 Web 渲染底座的瓶颈。

Visionary:不仅仅是 Viewer,而是 Web 原生渲染基座

Visionary 的出现,正是为了填补这一空白。它的定位并非仅仅是“又一个 3DGS 查看器”,而是一个面向空间智能(Spatial Intelligence)的 Web 原生渲染基座 (Rendering Substrate)。
其核心优势在于架构层面的彻底革新: 1. WebGPU 原生架构:Visionary 抛弃了 WebGL,转而拥抱下一代图形标准 WebGPU。这使得 GPU 计算与渲染能力被真正带入浏览器,将繁重的排序与预处理任务从 CPU 迁移至 GPU,从而突破了性能瓶颈。 2. ONNX 驱动的统一接口:通过提出 Gaussian Generator Contract,Visionary 将各类 3DGS、4DGS 及 Avatar 方法统一导出为 ONNX 标准。这意味着,每帧仅需输入相机参数、时间等轻量控制信号,即可由 ONNX 模型输出完整的高斯属性缓冲。 3. 动态友好设计:得益于上述设计,Visionary 首次在浏览器端实现了每帧动态生成与更新高斯的能力,使得动态场景、神经化身以及生成式后处理(如风格化、增强)都能在线流畅运行。

性能实测:全面超越 SparkJS,速度与画质兼得

根据最新的技术报告和实验数据,在相同的 3DGS 资源条件下,Visionary 的渲染效率显著优于当前主流的 Web 端查看器 SparkJS。
  • 极速渲染:在包含数百万高斯点的典型大场景中,Visionary 利用 WebGPU 将排序完全并行化,显著降低了端到端延迟。相比之下,SparkJS 的性能瓶颈主要集中在单线程的 CPU 排序阶段,难以应对复杂场景。
  • 画质提升:快不仅仅是唯一的追求,渲染的正确性同样重要。Visionary 采用了逐帧 GPU 全局排序,彻底避免了 SparkJS 在快速视角变化下常见的“lazy sorting”视觉伪影。在 Mip-NeRF360 等基准测试上,其画质指标与 SparkJS 持平甚至略有提升。
  • 多模型混合:Visionary 还解决了 SuperSplat 等方案中的逐物体排序混合错误,在多模型混合场景下,仍能保证透明度渲染的正确性。

面向未来的统一平台:连接研究、创作与工业

Visionary 的发布,为不同领域的用户带来了全新的可能性:
  • 对于研究者:只要能将任意 3DGS 变体导出为 ONNX 格式,即可在 Visionary 中快速复现、对比与展示,极大地降低了学术交流的门槛。
  • 对于创作者:无需安装复杂的专业软件,即可直接在浏览器中完成场景的编辑、录制与渲染,创作流程更加轻量化。
  • 对于工业界:其高效的实时渲染能力,使其非常适合应用于数字孪生、仿真、XR 以及具身智能等大规模实时场景。
目前,Visionary 已原生支持 MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar 等多种前沿技术,且所有渲染流程均在浏览器端完成,无需依赖后端服务器。

结语

World Model 的竞争,最终会回归到一个核心问题:谁能把复杂的世界,稳定、快速、低门槛地呈现给用户?Visionary 给出的答案是明确的:利用 WebGPU + ONNX 的强大组合,打破浏览器的性能桎梏,把世界模型真正带到 Web 端。
随着 Visionary 的开源和持续迭代,未来的 Web 3D 体验将不再局限于简单的模型展示,而是向着物理交互增强、物理感知建模以及空间智能体的方向演进。对于关注 AILLM 发展的从业者来说,这是一个值得密切关注的技术变革。
想了解更多关于 AI资讯AGI 以及 大模型 的最新动态,欢迎访问 AIGC.BAR,获取最前沿的科技情报。
Loading...

没有找到文章