text-to-video-synthesis｜通义-文本生成视频-openAI维基百科

文本生成视频大模型-英文-通用领域

本模型基于多阶段文本到视频生成扩散模型, 输入描述文本，返回符合文本描述的视频。仅支持英文输入。

文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

硬件要求

该模型暂仅支持在GPU上进行推理。模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。在ModelScope框架下。

也就是说，你的英伟达显卡GPU显存至少要在16GB或以上才能够运行此模型！如果您的硬件不达标，那么可以跳过本文啦。

查看结果

上述代码会展示输出视频的保存路径，目前编码格式采用VLC播放器可以正常播放。系统默认播放器可能无法正常播放本模型生成的视频。

模型局限性以及可能的偏差

模型基于Webvid等公开数据集进行训练，生成结果可能会存在与训练数据分布相关的偏差。
该模型无法实现完美的影视级生成。
该模型无法生成清晰的文本。
该模型主要是用英文语料训练的，暂不支持其他语言。
该模型在复杂的组合性生成任务上表现有待提升。

滥用、恶意使用和超出范围的使用

本模型是为非商业目的提供，仅供研究使用。
该模型未经过训练以真实地表示人或事件，因此使用该模型生成此类内容超出了该模型的能力范围。
禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
禁止用于涉黄、暴力和血腥内容生成。
禁止用于错误和虚假信息生成。

训练数据介绍

训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。

部署教程

如果您是初学者，对于命令行不太理解，那么请按下键盘上的Win键+R键后，在弹出的新窗口内输入CMD并按下回车，打开CMD窗口，按顺序执行如下的每一条命令。

首先我们需要确认一个工作目录，用来存放text-to-video-synthesis的相关环境依赖文件。本站所选择的目录为D盘的根目录下openai.wiki文件夹，完整路径为：D:\openai.wiki\text-to-video-synthesis。

检测D盘是否在openai.wiki目录下是否存在text-to-video-synthesis文件夹，没有则创建该文件夹。

if not exist D:\openai.wiki\text-to-video-synthesis mkdir D:\openai.wiki\text-to-video-synthesis

强制切换工作路径为D盘的openai.wiki\text-to-video-synthesis文件夹。

cd /d D:\openai.wiki\text-to-video-synthesis

为不影响电脑中的现有环境，请一定要安装Conda，如果您不知道什么是Conda，或者未安装过Conda，请参考如下文章，安装部署Conda之后再继续以下步骤。

在CMD中执行下面的命令行，创建Conda虚拟环境至该项目的目录中，方便日后重装系统也能够正常使用，无需重新部署环境。

conda create -p D:\openai.wiki\text-to-video-synthesis\ENV python=3.7

执行完成上面的命令之后，将会在CMD窗口中看到Proceed ([y]/n)?提示，我们直接按下回车即可。

初始化Conda环境，避免后续可能报错。

conda init cmd.exe

激活已创建的Conda环境，这样我们可以将我们后续所需要的所有环境依赖都安装至此环境下。

conda activate D:\openai.wiki\text-to-video-synthesis\ENV

运行环境

执行如下命令，安装阿里达摩院相关依赖。

pip install modelscope==1.4.2 open_clip_torch pytorch-lightning

关于tensorflow的安装，支持CPU和GPU双版本，以下两行代码选择其中一个执行安装即可。

如果你想用CPU来计算，请复制第一行内容执行。如果你想用GPU来计算，请复制第二行内容执行。

pip install --upgrade tensorflow

pip install --upgrade tensorflow-gpu

执行如下代码，安装CV依赖库。

pip install opencv-python

模型下载

在你首次运行生成代码时，将会自动下载模型，因为下载方式是国内直连，所以下载速度还是挺快的，毕竟是阿里提供的服务。

如果你想找到模型的存在位置，可以在运行中执行以下代码，这将会自动打开ModelScope的各项目缓存目录，模型就在这些目录内。

%USERPROFILE%\.cache\modelscope\hub\damo

如果你不希望自动下载，而是通过国内网盘的方式，本站也提供了模型的网盘下载地址。

text-to-video-synthesis

下载

类型： RAR 大小： 12.8GB

下载该压缩文件之后，将其解压至%USERPROFILE%\.cache\modelscope\hub\damo目录下即可。

代码范例

该模型暂仅支持在GPU上进行推理。模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。在ModelScope框架下，通过调用简单的Pipeline即可使用当前模型，其中，输入需为字典格式，合法键值为’text’，内容为一小段文本。输入具体代码示例如下：

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

text-to-video-synthesis｜通义-文本生成视频

文本生成视频大模型-英文-通用领域

硬件要求

查看结果

模型局限性以及可能的偏差

滥用、恶意使用和超出范围的使用

训练数据介绍

部署教程

运行环境

模型下载

代码范例

评论 (0)

论坛公告

增值服务

商务合作

text-to-video-synthesis｜通义-文本生成视频

文本生成视频大模型-英文-通用领域

硬件要求

查看结果

模型局限性以及可能的偏差

滥用、恶意使用和超出范围的使用

训练数据介绍

部署教程

运行环境

模型下载

代码范例

评论 (0)

猜你喜欢

论坛公告

增值服务

商务合作