热点追踪
论文解读
开源项目
OmniHuman-1:重新定义人体动画模型的规模化训练
type
status
slug
summary
tags
category
icon
password
Date
OmniHuman-1:重新定义人体动画模型的规模化训练

图1:OmniHuman根据输入音频和图像生成的视频帧。生成结果不仅与音频节奏匹配,还能处理复杂手势和物体交互。
摘要
近年来,端到端人体动画生成(如语音驱动的人像动画)取得了显著进展,但现有方法仍面临数据规模受限的问题。来自字节跳动的研究团队提出了一种名为OmniHuman的扩散Transformer框架,通过混合多种运动条件(文本、音频、姿态)进行训练,突破了单条件模型的局限。该模型支持从特写肖像到全身动画的多种场景,生成视频的视觉质量显著提升,手势自然度提升47%,并兼容2D卡通、写实风格等多种图像类型。
引言:为什么需要重新思考人体动画的规模化?
在通用视频生成领域,基于扩散Transformer(DiT)的模型通过海量视频-文本对训练,已能生成高度逼真的动态场景。然而,人体动画模型却长期受限于数据筛选困境:
- 语音驱动模型需严格筛选唇形同步数据,导致大量肢体动作数据被丢弃
- 姿态驱动模型要求固定视角和静态背景,限制场景多样性
OmniHuman的核心突破在于提出了"全条件训练策略":
- 强弱条件混合:将文本(弱条件)与音频、姿态(强条件)结合
- 动态训练配比:强条件训练比例递减,避免模型过度依赖单一信号
这种策略使得原本被淘汰的数据得以重新利用,训练数据规模提升至18.7K小时,是同类模型的10倍以上。
方法解析:三阶段训练策略

图2:OmniHuman框架包含多模态条件编码器和三阶段训练流程。
三大核心技术
- 多模态条件编码
- 音频:通过wav2vec模型提取声学特征,与视频潜在表示进行跨注意力交互
- 姿态:姿态热图序列经编码后与噪声潜在表示通道拼接
- 文本:保留原始文本分支,描述全局场景信息
- 参数复用设计 创新性地复用扩散Transformer主干网络处理参考图像,通过修改3D旋转位置编码区分参考帧与生成帧,相比传统方案减少50%参数量。
- 渐进式训练策略
- 阶段1:仅使用文本+图像条件(利用全部数据)
- 阶段2:加入音频条件(50%数据含音频标注)
- 阶段3:加入姿态条件(20%数据含姿态标注)
这种"由弱到强"的训练方式,确保模型逐步学习复杂运动模式。
实验结果:全面超越现有方案
定量对比
方法 | 唇形同步(Sync-C↑) | 手势多样性(HKV↑) | 视觉质量(FID↓) |
SadTalker | 3.84 | - | 36.65 |
CyberHost | 6.63 | 24.73 | 32.97 |
OmniHuman | 7.44 | 47.56 | 31.64 |
表1:在身体动画任务中,OmniHuman全面领先现有方法。
关键优势展示

图3:支持2D卡通、写实风格及拟人化非人类形象的动画生成。

图4:在乐器演奏、物体交互等复杂场景中保持自然动作。
技术突破:解决行业痛点
手势生成的飞跃
传统语音驱动模型常出现"僵硬手指"问题。通过混合姿态条件训练,OmniHuman的手部关键点置信度(HKC)达到0.898,较现有最佳方案提升15%。图5展示了不同训练比例下的手势效果:

图5:50%音频训练比例在动作自然度与唇形同步间取得最佳平衡。
长视频一致性
通过引入运动帧衔接策略,生成的30秒视频背景误差降低60%。图6展示了不同参考帧比例的长视频效果对比:

图6:高参考帧比例(右)有效抑制色彩偏移和细节失真。
应用前景
- 虚拟主播:支持实时语音驱动,生成带自然手势的播报视频
- 游戏动画:通过文本描述快速生成角色动作序列
- 影视预演:结合姿态捕捉数据创建分镜动画
- 教育领域:将教材插图转化为讲解动画
研究团队已在项目页面([https://omnihuman-lab.github.io/](https://omnihuman-lab.github.io/)发布多组演示视频,展示其在唱歌、对话、物体交互等场景的实际效果。
结论
OmniHuman通过创新的多条件混合训练策略,突破了端到端人体动画模型的数据瓶颈。实验证明,该方法不仅提升生成质量,还显著扩展了应用场景的边界。未来,随着多模态条件的进一步融合,我们有望看到更具表现力和可控性的数字人技术涌现。
参考论文:
Lin G, Jiang J, Yang J, et al. OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models. arXiv preprint arXiv:2502.01061, 2025.
https://arxiv.org/html/2502.01061v1