阿里通义万相Wan2.2:电影级AI视频生成,普通显卡也能跑!| AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
引言
在Sora掀起全球对AI视频生成技术的热烈讨论后,整个人工智能领域都在期待下一个突破。现在,来自阿里的通义团队给出了强有力的回应。他们正式开源了新一代视频生成大模型——通义万相Wan2.2。这不仅仅是一次简单的模型迭代,更是一场技术革新。Wan2.2率先将创新的MoE架构引入视频扩散模型,实现了电影级的画面质感,并且其5B版本模型甚至可以在消费级显卡上流畅运行。这则重磅AI新闻标志着,高质量的AI视频创作正以前所未有的速度走向大众,一个由AI驱动的影像新时代已然来临。
想要紧跟AI发展的最前沿,获取最新的AI日报和深度分析,欢迎访问AI门户网站
https://aigc.bar
,一站式掌握AGI脉搏。革命性架构:首个引入MoE的视频模型
视频生成模型面临的核心挑战之一,是在追求更高分辨率和更长时长的同时,如何有效控制计算资源的爆炸性增长。视频数据包含的时间维度使其token长度远超文本和图像,这给大模型的扩展带来了巨大压力。
通义万相Wan2.2给出的解决方案是——MoE(Mixture of Experts)架构。
MoE架构的核心思想是将一个庞大的模型网络,拆分为多个相对较小的“专家模型”,并由一个“门控网络”来决定在处理特定输入时,激活哪些专家。这种“分而治之”的策略,允许模型在总参数量大幅增加的同时,保持单次推理的计算量不变。
Wan2.2的创新之处在于,它没有像传统语言模型那样在FFN层应用MoE,而是根据扩散模型(Diffusion Model)的降噪特性进行了定制化设计:
- 阶段性专家划分:模型将视频去噪过程巧妙地分为“高噪声”和“低噪声”两个阶段。
- 高噪专家:负责处理视频生成的早期阶段,快速构建画面的主体结构和运动轨迹。
- 低噪专家:在后期介入,专注于精雕细琢画面的纹理、光影和细节,提升质感。
通过这种方式,Wan2.2在不增加额外计算负载的前提下,有效提升了模型的生成能力和最终视频的质量,实现了更低的验证损失(Validation Loss),意味着生成的视频与真实世界更加贴近。
人人都是导演:前所未有的电影级美学控制
以往,要生成具有特定艺术风格的视频,需要用户具备高超的提示词(Prompt)工程能力。而Wan2.2彻底改变了这一现状,它推出了一个堪称“导演模拟器”的电影级美学控制系统。
该系统将复杂的电影摄影技术解构为三大核心维度,内含超过60个专业级参数,用户只需通过简单的美学关键词组合,就能精准调用:
- 光影氛围塑造:你可以指定“黄昏”的柔和光线,或是“霓虹灯下”的赛博朋克光影;可以控制光线的软硬、方向(如顶光、侧光),甚至画面的明暗对比度,轻松营造出或温馨或悬疑的氛围。
- 镜头语言表达:想实现“王家卫式”的抽帧感,还是“诺兰式”的广角构图?Wan2.2支持中心构图、对称构图等多种构图法则,并能灵活控制景深、焦距和机位角度,让你的每一帧都充满叙事感。
- 色彩情绪渲染:通过选择“暖色调”或“冷色调”,调整色彩的饱和度,可以直接影响视频的情感基调,无论是热情洋溢还是冷静克制,都能精准传达。
这一系统的出现,极大地降低了AI视频创作的门槛,让每一个普通用户都能通过简单的Prompt,化身为掌控光影和镜头的虚拟导演。
极致动态表现:从微表情到复杂运动
视频的灵魂在于“动”。Wan2.2在动态表现力上进行了重点优化,显著提升了视频的真实感和稳定性。
- 细腻的面部表情:模型不再局限于简单的喜怒哀乐,而是能够捕捉并生成“强忍泪水时嘴唇的颤抖”、“羞涩微笑中脸颊的微红”等极其复杂的微表情,让角色栩栩如生。
- 灵活的手部动作:针对AI绘画和视频中常见的手部畸形问题,Wan2.2构建了丰富的手部动作系统,无论是弹奏乐器还是进行精密操作,都能生成自然、准确的动作。
- 自然的多人互动:模型能够深刻理解角色之间的空间关系和力量传递,生成符合物理规律的互动场景,有效避免了人物穿模、动作僵硬等问题。
- 稳定的高速运动:在处理体操、滑雪、舞蹈等高难度、高速度的运动场景时,Wan2.2能有效减少画面扭曲和伪影,在保持动感的同时兼顾了美感。
这些能力的提升,意味着Wan2.2正在从“能动”向“动得好、动得真实”迈进,其遵循物理规律和细节丰富的动态表现,是向通用人工智能(AGI)迈出的坚实一步。
亲民化部署:5B模型与消费级显卡的完美结合
再强大的模型,如果无法被广泛使用,其价值也会大打折扣。通义万相团队深谙此道,在发布14B参数的专业级模型的同时,特别推出了一个5B(50亿)参数的轻量化版本。
为了让这个模型能够在普通用户的电脑上运行,团队采用了多项创新技术:
- 高压缩比3D VAE:自研的VAE(变分自编码器)在视频的高度、宽度和时间三个维度上实现了高达16x16x4的压缩比,极大地减少了显存占用。
- ComfyUI原生支持:通过与流行的可视化AI工作流工具ComfyUI深度集成,利用其自动卸载功能,将5B模型的最低显存要求成功降低至8GB。
这意味着,你不再需要昂贵的专业级AI工作站,一张主流的消费级显卡(如RTX 3060/4060)就足以驱动这个强大的电影级视频生成模型。这无疑是AI平权化的重要里程碑,让顶尖技术真正惠及广大创作者和爱好者。
结论
阿里通义万相Wan2.2的开源,不仅仅是为AI社区贡献了一个强大的工具,更重要的是,它通过技术创新,指明了AI视频模型未来发展的方向:更强的效果、更精准的控制、以及更低的门槛。从革命性的MoE架构,到“导演级”的美学系统,再到亲民的硬件要求,Wan2.2正在将电影创作的权力交到每一个人手中。
中国的AI电影时代,或许真的已经拉开序幕。对于所有对人工智能和内容创作充满热情的人来说,这是一个不容错过的时代。想要获取更多关于ChatGPT、Claude等前沿大模型的一手AI资讯和实用教程,探索AI变现的无限可能,请务必关注
https://aigc.bar
,与我们一同见证未来。Loading...