即梦数字人1.5深度评测:AI演员诞生,不止对口型 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
数字人技术的发展正进入一个全新的“内卷”时代。当大模型可以创作剧本,语音模型能模拟万千声线,我们对数字人的期待早已超越了简单的“对口型”。过去那些只能原地正坐、表情僵硬的数字形象,正面临一场深刻的进化。
近期,即梦平台悄然上线的OmniHuman 1.5模型,正是这场进化的关键推动者。它不再满足于做一个听话的“播报员”,而是致力于成为一个能理解剧本、调度动作、表达情感的“数字演员”。本文将从语义理解、动作调度、情绪演绎和群体协同四个核心维度,深入剖析OmniHuman 1.5如何重新定义AI视频生成。
超越指令:从语义理解到自主表演
传统数字人生成依赖精确的指令,而OmniHuman 1.5展示了惊人的语义理解和推理能力。它能从模糊的文本提示和音频内容中,推断出角色的意图和行为。
在一个测试场景中,我们设定一个女性在衣柜前寻找衣服,输入的音频是:“我的红色外套呢?我今天要穿呢,诶,找到了,在这里,太好啦!”。值得注意的是,动作提示语非常模糊,仅描述“她拿到了想要的衣服”。
结果令人惊艳:
* 动作推理:模型生成的数字人不仅做出了翻找衣物的动作,而且精准地从衣柜中拿出了一件暗红色的外套。这表明模型不仅听懂了“红色外套”,还能在视觉场景中将其识别并与之互动。
* 无提示生成:在另一个更极限的测试中,我们仅上传了一段双人对话的音频,未提供任何动作提示。OmniHuman 1.5不仅识别出画面中的动态(两人边走边聊),还准确判断出对话方向,让男性角色自然地转头面向女性说话。
这种从音频和场景中自主推理动作的能力,标志着数字人从被动执行者向主动表演者的转变。
动态世界:复杂的动作调度与环境互动
OmniHuman 1.5的另一大突破在于其处理复杂时序动作和环境互动的能力。它让数字人真正“动”了起来,并能融入到动态的场景中。
我们设计了一个连续动作指令:“男人一直向前走,然后停下抬头仰望天空,然后抬起右手摘下眼镜,然后叹了口气”,同时配合镜头从远景拉近到脸部特写。OmniHuman 1.5完美地执行了这一系列连贯动作,镜头运动也十分流畅,最终聚焦于角色带有情绪的面部表情。
更进一步,模型还能在生成过程中动态补充场景元素并与之互动。在一个场景中,指令是“男人慌张地快步走进办公室,然后慌张地坐下,然后打开桌子上的笔记本电脑”。输入的初始画面中并没有椅子和电脑,但模型自主生成了这些物品,并让角色完成了坐下、开电脑、打字等一系列与“新生成”物品的流畅互动。这展示了模型对空间逻辑和对象关系的深刻理解。
灵魂注入:音频驱动的细腻情绪演绎
一个真正的“演员”,核心在于情感的表达。OmniHuman 1.5能够深度解析音频中的情绪起伏,并将其转化为细腻、可信的面部表情和肢体语言。
通过对比测试可以清晰地看到这一点:
* 克制与爆发:使用同一张图片,当输入一段情绪克制、缓缓流露悲伤的音频时,角色表现出的是迷茫、无奈,最终缓缓坐倒在地;而当换成一段情绪激烈的音频时,角色的动作幅度和表情张力则会相应增强,表现出更浓烈的痛苦。
* 情绪多样性:无论是悲伤的哭泣,还是“暴跳如雷”的愤怒,模型都能根据简单的文字提示或音频情感,生成匹配度极高的表演。这赋予了创作者通过声音直接“执导”角色情绪的能力。
这种音频驱动的情感表达,为数字人注入了前所未有的“灵魂感”,使其表演更具感染力。
从独角戏到群像剧:智能的多人场景协同
OmniHuman 1.5最令人兴奋的特性之一,是它卓越的多人群戏处理能力。在包含多个角色的场景中,模型不再是孤立地处理单个角色,而是将他们视为一个整体进行智能协同。
在多人场景中,模型会自动识别所有角色,并允许用户指定说话者。其智能体现在:
* 情景反应:在一个测试中,当女性角色说“小声点”时,她身边的男性角色不仅将目光投向她,还自主做出了一个用手“比嘘”的动作。这个反应并非来自直接指令,而是模型基于对话内容的合理推断。
* 氛围营造:当一个角色讲完笑话后,场景中的其他角色会同步做出拍桌大笑的反应,共同营造出欢乐的氛围。
这种能力意味着,创作者可以轻松制作出角色间有真实互动、反应自然的群像戏,极大地扩展了AI视频的应用场景,从简单的个人口播,延伸至复杂的多人短剧。
结论:数字演员的黎明,AIGC的新纪元
即梦OmniHuman 1.5的发布,不仅仅是一次技术迭代,它更像是一个宣言:数字人正从“提线木偶”进化为能够自主思考和表演的“数字演员”。它听得懂言外之意,驾驭得了复杂动作,表达得出细腻情感,更能融入群体、协同表演。
这项技术的成熟,为内容创作打开了无限可能。从个人创作者独立完成一部多角色短剧,到为影视制作提供高效的预演方案,再到游戏开发中生成更具智能的NPC,我们正站在一个AIGC内容爆发的新起点。
想要了解更多关于AI、大模型、AIGC的前沿资讯和实用工具,欢迎访问AI门户网站 AIGC.bar,探索人工智能的无限可能。
Loading...