真假难辨！阿里升级AI人像视频生成，表情动作直逼专业水准

首页 » 真假难辨！阿里升级AI人像视频生成，表情动作直逼专业水准

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

EMO 最初由阿里巴巴通义实验室提出，作为音频驱动高表现力人像 AI 视频生成的先驱。现在，该实验室的研究者带来了升级版本「EMO2」！

只需提供一张人物的肖像图片，你就可以输入任意长度的音频来驱动人物说话、唱歌或进行手势舞。并且，生成的人物表情和动作都具备高度的感染力和专业水准。

论文标题：EMO2: End-Effector Guided Audio-Driven Avatar Video Generation
论文地址：https://arxiv.org/abs/2501.10687
项目地址：https://humanaigc.github.io/emote-portrait-alive-2/

我们来看几个视频生成示例：

1. 研究问题

AI 技术发展已经实现了通过音频驱动人物面部表情的能力，但在虚拟主播、数字人交互等新兴领域，如何让 AI 通过音频自动生成自然流畅的动作肢体语言和表情，始终是业界关注的技术焦点。

以往的方法可能难以通过音频驱动生成流畅自然的手部动作，可能存在肢体错乱或者动作幅度不够大，表现力不够高的问题。

这一领域的一个基本挑战在于人类身体的复杂性，其作为一个多关节的复杂系统，比较难实现对于复杂丰富动作的驱动。以往的音频驱动人体动作生成的方法在捕捉自然动作中多个关节的复杂耦合方面表现不足，导致效果欠佳。研究者表明，音频与不同身体关节之间的关联差异显著。

受启发于机器人控制系统对人类行为的模仿：机器人往往具有一个「末端执行器」(end effector)，比如机械手、钻头甚至足部等，它会在特定任务中将末端执行器移动到指定 pose，同时带动其他结构部分动作，这些其他部分关节的角度往往通过逆向运动学（IK）来获取。机器人的控制大多会关注于末端执行器上。

因此，研究者希望重新定义语音-人类动作生成这一任务的目标。手作为日常生活中的「末端执行器」(end effector)，与人类意图更紧密相关，并且与音频之间的关系显著。比如，当人类说话或唱歌时，往往会伴随意图明确的手势。因此，建立音频与手部动作的联系会更加简单直接。

然而，类似于机器人控制，通过逆向运动学（IK）来获得其他人体关节角度时，可能会出现奇异性，导致错误的运动规划结果，EMO2 指出，视频生成模型往往具备一定生成人体结构的能力，因此 EMO2 提出可以将人体结构知识融入像素生成，即「具有像素先验知识的 IK」（Pixels Prior IK）。

最终，EMO2 通过音频生成手部动作，然后利用 2D 视频模型生成其他身体部位，从而实现自然高表现力的人物动作视频生成。

2. 技术方案

基于此灵感，研究者提出了一套两阶段的解决方案，用于音频驱动的手势及面部表情生成。

在第一阶段，专注于建立音频到手部动作的映射，基于 DIT 模型，借助音频与手部动作之间的强相关性，生成具有高表现力和高一致性的手势动作。