openAI维基百科 openAI维基百科
  • 首页
  • 语言
    • LLaMA
    • ChatGPT
      • 基础教程
      • Prompt训练
      • API编程指南
      • ChatGPT拓展
    • 其它模型
  • 图像
    • 风格化
    • 画质增强
    • 图像识别
    • 视觉交互
    • 扩展填充
  • 绘画
    • Midjourney
    • Stable Diffusion
      • LoRA
      • ControlNet
      • Fooocus
      • ComfyUI
    • 其它模型
  • 音频
    • 人声模拟
    • 音频识别
    • 音频分离
    • 智能编曲
  • 视频
    • AI换脸
    • AI补帧
    • 视频抠图
    • 视频动漫化
    • 文本生成视频
  • 3D
    • 文本生成模型
  • 教程
    • 基础知识
    • 微软AI学习
    • 深度学习笔记
    • 交互式了解AI
  • 问答
  • 资源
首页 › 视频 › 文本生成视频 › text-to-video-synthesis|通义-文本生成视频

text-to-video-synthesis|通义-文本生成视频

PhiltreX
2 年前
text-to-video-synthesis|通义-文本生成视频-openAI维基百科
text-to-video-synthesis|通义-文本生成视频-openAI维基百科
text-to-video-synthesis|通义-文本生成视频-openAI维基百科
text-to-video-synthesis|通义-文本生成视频-openAI维基百科
text-to-video-synthesis|通义-文本生成视频-openAI维基百科
text-to-video-synthesis|通义-文本生成视频-openAI维基百科
text-to-video-synthesis|通义-文本生成视频-openAI维基百科
text-to-video-synthesis|通义-文本生成视频-openAI维基百科
text-to-video-synthesis|通义-文本生成视频-openAI维基百科

文本生成视频大模型-英文-通用领域

本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。

文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

硬件要求

该模型暂仅支持在GPU上进行推理。模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。在ModelScope框架下。

也就是说,你的英伟达显卡GPU显存至少要在16GB或以上才能够运行此模型!如果您的硬件不达标,那么可以跳过本文啦。

查看结果

上述代码会展示输出视频的保存路径,目前编码格式采用VLC播放器可以正常播放。系统默认播放器可能无法正常播放本模型生成的视频。

模型局限性以及可能的偏差

  • 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
  • 该模型无法实现完美的影视级生成。
  • 该模型无法生成清晰的文本。
  • 该模型主要是用英文语料训练的,暂不支持其他语言。
  • 该模型在复杂的组合性生成任务上表现有待提升。

滥用、恶意使用和超出范围的使用

  • 本模型是为非商业目的提供,仅供研究使用。
  • 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
  • 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
  • 禁止用于涉黄、暴力和血腥内容生成。
  • 禁止用于错误和虚假信息生成。

训练数据介绍

训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。

部署教程

如果您是初学者,对于命令行不太理解,那么请按下键盘上的Win键+R键后,在弹出的新窗口内输入CMD并按下回车,打开CMD窗口,按顺序执行如下的每一条命令。

首先我们需要确认一个工作目录,用来存放text-to-video-synthesis的相关环境依赖文件。本站所选择的目录为D盘的根目录下openai.wiki文件夹,完整路径为:D:\openai.wiki\text-to-video-synthesis。

检测D盘是否在openai.wiki目录下是否存在text-to-video-synthesis文件夹,没有则创建该文件夹。

if not exist D:\openai.wiki\text-to-video-synthesis mkdir D:\openai.wiki\text-to-video-synthesis

强制切换工作路径为D盘的openai.wiki\text-to-video-synthesis文件夹。

cd /d D:\openai.wiki\text-to-video-synthesis

为不影响电脑中的现有环境,请一定要安装Conda,如果您不知道什么是Conda,或者未安装过Conda,请参考如下文章,安装部署Conda之后再继续以下步骤。

在CMD中执行下面的命令行,创建Conda虚拟环境至该项目的目录中,方便日后重装系统也能够正常使用,无需重新部署环境。

conda create -p D:\openai.wiki\text-to-video-synthesis\ENV python=3.7

执行完成上面的命令之后,将会在CMD窗口中看到Proceed ([y]/n)?提示,我们直接按下回车即可。

初始化Conda环境,避免后续可能报错。

conda init cmd.exe

激活已创建的Conda环境,这样我们可以将我们后续所需要的所有环境依赖都安装至此环境下。

conda activate D:\openai.wiki\text-to-video-synthesis\ENV

运行环境

执行如下命令,安装阿里达摩院相关依赖。

pip install modelscope==1.4.2 open_clip_torch pytorch-lightning

关于tensorflow的安装,支持CPU和GPU双版本,以下两行代码选择其中一个执行安装即可。

如果你想用CPU来计算,请复制第一行内容执行。如果你想用GPU来计算,请复制第二行内容执行。

pip install --upgrade tensorflow
pip install --upgrade tensorflow-gpu

执行如下代码,安装CV依赖库。

pip install opencv-python

模型下载

在你首次运行生成代码时,将会自动下载模型,因为下载方式是国内直连,所以下载速度还是挺快的,毕竟是阿里提供的服务。

如果你想找到模型的存在位置,可以在运行中执行以下代码,这将会自动打开ModelScope的各项目缓存目录,模型就在这些目录内。

%USERPROFILE%\.cache\modelscope\hub\damo

如果你不希望自动下载,而是通过国内网盘的方式,本站也提供了模型的网盘下载地址。

text-to-video-synthesis
下载
类型: RAR 大小: 12.8GB

下载该压缩文件之后,将其解压至%USERPROFILE%\.cache\modelscope\hub\damo目录下即可。

代码范例

该模型暂仅支持在GPU上进行推理。模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为’text’,内容为一小段文本。输入具体代码示例如下:

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)
AI视频文本生成视频
0
0
AnimateDiff|文本生成视频
下一篇

评论 (0)

取消
    发表评论

猜你喜欢

  • 视频补全抠像去水印|ProPainter
  • CoDeF|无闪烁视频AI风格转换
  • StableVideo|稳定扩散视频生成

论坛公告

为方便大家交流,交换资源等。

本站论坛限量开放注册中,免费答疑。

欢迎大家踊跃注册,关闭注册时间待定。

论坛地址:https://bbs.openai.wiki

增值服务

本站无广告|无会员|免注册

  1. 提供有偿远程帮助服务
  2. 提供POE会员代充代售
  3. 提供ChatGPT代充代售
  4. 提供Midjourney代充服务

商务合作

关于合作请点此联系

  • 首页
  • 语言
  • 图像
  • 绘画
  • 音频
  • 视频
  • 3D
  • 教程
  • 问答
  • 资源
Copyright © 20221212-2025 openAI维基百科. Designed by nicetheme. 京公网安备 11010502051430号 京ICP备2021019752号-5
  • 首页
  • 语言
    • LLaMA
    • ChatGPT
      • 基础教程
      • Prompt训练
      • API编程指南
      • ChatGPT拓展
    • 其它模型
  • 图像
    • 风格化
    • 画质增强
    • 图像识别
    • 视觉交互
    • 扩展填充
  • 绘画
    • Midjourney
    • Stable Diffusion
      • LoRA
      • ControlNet
      • Fooocus
      • ComfyUI
    • 其它模型
  • 音频
    • 人声模拟
    • 音频识别
    • 音频分离
    • 智能编曲
  • 视频
    • AI换脸
    • AI补帧
    • 视频抠图
    • 视频动漫化
    • 文本生成视频
  • 3D
    • 文本生成模型
  • 教程
    • 基础知识
    • 微软AI学习
    • 深度学习笔记
    • 交互式了解AI
  • 问答
  • 资源