🧿开源视频模型Open Sora

type
status
slug
summary
tags
category
icon
password
Date
Open-Sora 计划
我们很高兴推出Open-Sora-Plan v1.0.0,它显著提高了视频生成质量和文本控制能力。请参阅我们的报告。我们正在训练更高分辨率(>1024)以及更长持续时间(>10s)的视频,这是下一版本的预览。我们在 GitHub 上显示压缩的 .gif,这会损失一些质量。
感谢华为Ascend NPU团队对我们的支持。
目前已支持国产AI芯片(华为昇腾,更多国产算力芯片)进行推理,下一步将支持国产算力训练,具体可参考昇腾分支hw分支
notion image
黎明时分,海滩静谧安详,海浪轻轻拍打着海岸,天空呈现出淡淡的色调……
 
notion image
海上日落。
 
notion image
一幅宁静的水下场景,一只海龟在水中游泳...…
 
notion image
黄色和黑色的热带鱼在海中飞快游动。
 
💪 目标
该项目旨在创建一个简单且可扩展的 repo,以重现Sora(OpenAI,但我们更喜欢称之为“ClosedAI”)。我们希望开源社区能够为该项目做出贡献。欢迎 Pull 请求!!!
本项目希望通过开源社区的力量复现Sora,由北大兔展AIGC联合实验室共同发起,当前版本离目标差距仍然较大,仍需持续完善和快速迭代,欢迎Pull request!!!
项目阶段:
  • 基本的
  1. 设置代码库并在景观数据集上训练非条件模型。
  1. 训练可提高分辨率和持续时间的模型。
  • 扩展
  1. 在景观数据集上进行text2video实验。
  1. 在 video2text 数据集上训练 1080p 模型。
  1. 具有更多条件的控制模型。
notion image
📰 新闻
[2024.04.09] 🚀 很高兴与大家分享我们在变形延时视频生成方面的最新探索:MagicTime,它从延时视频中学习现实世界的物理知识。这是训练(更新中)的数据集:Open-Sora-Dataset
[2024.04.07] 🔥🔥🔥 今天,我们很高兴推出 Open-Sora-Plan v1.0.0,它显著提升了视频生成质量和文本控制能力。 请参阅我们的报告。 感谢华为 NPU 对我们的支持。
[2024.03.27] 🚀🚀🚀 我们发布了VideoCausalVAE的报告,它同时支持图像和视频。我们在此演示中展示了我们重建的视频,如下所示。文本转视频模型正在开发中。
[2024.03.10] 🚀🚀🚀 此 repo 支持训练 225×90×90(t×h×w)的潜在尺寸,这意味着我们能够在类条件下训练 1 分钟的 1080P 视频,速度为 30FPS(2×插值帧和 2×超分辨率)。
[2024.03.08]我们支持16帧512x512的文本条件的训练代码。代码主要借鉴了Latte
[2024.03.07]我们支持使用 256x256 的 128 帧(采样率 = 3 时,约 13 秒)或 512x512 的 64 帧(约 6 秒)进行训练。
[2024.03.05]查看我们最新的待办事项,欢迎拉取请求。
[2024.03.04]我们重新组织和模块化了我们的代码,以便于为项目做出贡献,贡献请参见Repo 结构
[2024.03.03]我们展开一些讨论来澄清几个问题。
[2024.03.01]训练代码现已可用!在我们的项目页面上了解更多信息。请随时关注👀此存储库以获取最新更新。
 
📂 Repo 结构(开发中)
🛠️ 要求和安装
  1. 克隆此存储库并导航到 Open-Sora-Plan 文件夹
  1. 安装所需的软件包
  1. 安装用于训练案例的附加包
  1. 安装可选要求,例如静态类型检查:
🗝️ 使用方法
🤗 演示
Gradio 网页用户界面
notion image
强烈建议您通过以下命令试用我们的 Web 演示。我们还提供在线演示 和Huggingface Spaces。
notion image
notion image
🤝 享受由@camenduru创建的和,他慷慨地支持了我们的研究!
notion image
notion image
CLI 推理
数据集
参考Data.md
评估
参考文档EVAL.md
因果视频 VAE
重建
例子:
参数解释:
  • -enable_tiling:此参数是启用平铺转换的标志。
  • -enable_time_chunk:此参数是启用时间分块的标志。这将在时间维度上分块视频并重建长视频。这只是在视频空间中执行的操作,而不是潜在空间,不能用于训练。
训练与评估
请参阅文档CausalVideoVAE
视频GPT VQVAE
请参阅文档VQVAE
视频扩散变压器
训练
🚀 提高训练表现
与原始实现相比,我们实现了一系列训练速度加速和内存节省功能,包括梯度检查点、混合精度训练和预提取特征、xformers、deepspeed。使用批次大小为 1 和 A100 的一些数据点:
64×32×32(原始尺寸:256×256×256)
梯度检查点
混合精度
变形侠
特征预提取
deepspeed 配置
压缩 kv
训练速度
记忆
0.64 步/秒
43克
Zero2
0.66 步/秒
14G
Zero2
0.66 步/秒
15G
Zero2 卸载
0.33 步/秒
11G
Zero2 卸载
0.31 步/秒
12G
128×64×64(原始尺寸:512×512×512)
梯度检查点
混合精度
变形侠
特征预提取
deepspeed 配置
压缩 kv
训练速度
记忆
0.08 步/秒
77克
Zero2
0.08 步/秒
41克
Zero2
0.09 步/秒
36克
Zero2 卸载
0.07 步/秒
39克
Zero2 卸载
0.07 步/秒
33克
💡 如何为 Open-Sora Plan 社区做出贡献
我们非常感谢您对 Open-Sora Plan 开源社区的贡献并帮助我们使其变得比现在更好!
更多详情,请参阅贡献指南
👍 致谢
  • Latte主要代码库,它是一个出色的视频生成模型。
    • :我们构建的
  • PixArt-alpha
    • :用于逼真的文本到图像合成的扩散变换器的快速训练。
  • VideoGPT
    • :使用 VQ-VAE 和 Transformers 生成视频。
  • DiT
    • :带有 Transformer 的可扩展扩散模型。
  • FiT
    • :用于扩散模型的灵活视觉变换器。
  • 位置插值
    • :通过位置插值扩展大型语言模型的上下文窗口。
🔒 许可证
✏️ 引用
BibTeX
最新 DOI
notion image
🤝 社区贡献者
notion image
 
Open-Sora-Plan
PKU-YuanGroupUpdated May 27, 2024
LanguageBind:通过基于语言的语义对齐将视频语言预训练扩展到N模态MoE-LLaVA:大型视觉语言模型的专家混合体