视频生成5B模型CogVideo开源了!大幅度优化了模型的推理性能,推理门槛大幅降低。#ai##chatgpt# 基于论文:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer(带有专家 Transformer 的文本到视频扩散模型)摘要:我们介绍了 CogVideoX,这是一种大规模扩散Transformer模型,旨在根据文本提示生成视频。为了有效地对视频数据进行建模,我们建议利用 3D 变分自动编码器 (VAE) 在空间和时间维度上压缩视频。为了改善文本视频对齐,我们提出了一种具有专家自适应 LayerNorm 的专家Transformer,以促进两种模态之间的深度融合。通过采用渐进式训练技术,CogVideoX 擅长制作具有显著运动特征的连贯、长时间视频。此外,我们开发了一种有效的文本视频数据处理管道,其中包括各种数据预处理策略和视频字幕方法。它显著有助于提高 CogVideoX 的性能,提高生成质量和语义对齐。结果表明,CogVideoX 在多个机器指标和人工评估中都表现出最先进的性能。3D Causal VAE 和 CogVideoX 的模型权重均可在git项目上公开获取。项目:github.com/THUDM/CogVideo/blob/main/README_zh.md论文:arxiv.org/abs/2408.06072Demo:huggingface.co/spaces/THUDM/CogVideoX-5B-Space#ChatGPT[超话]#