视频生成5B模型CogVideo开源了！_

视频生成5B模型CogVideo开源了！大幅度优化了模型的推理性能，推理门槛大幅降低。#ai##chatgpt# 基于论文：CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer（带有专家 Transformer 的文本到视频扩散模型）摘要：我们介绍了 CogVideoX，这是一种大规模扩散Transformer模型，旨在根据文本提示生成视频。为了有效地对视频数据进行建模，我们建议利用 3D 变分自动编码器 (VAE) 在空间和时间维度上压缩视频。为了改善文本视频对齐，我们提出了一种具有专家自适应 LayerNorm 的专家Transformer，以促进两种模态之间的深度融合。通过采用渐进式训练技术，CogVideoX 擅长制作具有显著运动特征的连贯、长时间视频。此外，我们开发了一种有效的文本视频数据处理管道，其中包括各种数据预处理策略和视频字幕方法。它显著有助于提高 CogVideoX 的性能，提高生成质量和语义对齐。结果表明，CogVideoX 在多个机器指标和人工评估中都表现出最先进的性能。3D Causal VAE 和 CogVideoX 的模型权重均可在git项目上公开获取。项目：github.com/THUDM/CogVideo/blob/main/README_zh.md论文：arxiv.org/abs/2408.06072Demo：huggingface.co/spaces/THUDM/CogVideoX-5B-Space#ChatGPT[超话]#

头条号入驻

黄建同学爸妈关心事，为了下一代能健康成长

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

视频生成5B模型CogVideo开源了！

头条号入驻

值得每个人都学习的巴菲特理财原则↓

最近迷上了midjourney+可灵生成视频↓以下是视频生成过程的一些数据： 1

微软Copilot这个Demo有点东西Copilot

财经自媒体联盟更多自媒体作者

热文排行榜