Text2Video Huggingface Pipeline 文生视频接口和文生视频论文API-阿里云开发者社区

Text2Video Huggingface Pipeline 文生视频接口和文生视频论文API

2024-10-12 277

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 文生视频是AI领域热点，很多文生视频的大模型都是基于 Huggingface的 diffusers的text to video的pipeline来开发。国内外也有非常多的优秀产品如Runway AI、Pika AI 、可灵King AI、通义千问、智谱的文生视频模型等等。为了方便调用，这篇博客也尝试了使用 PyPI的text2video的python库的Wrapper类进行调用，下面会给大家介绍一下Huggingface Text to Video Pipeline的调用方式以及使用通用的text2video的python库调用方式。

1. 背景

文生视频是AI领域热点，很多文生视频的大模型都是基于 Huggingface的 diffusers的text to video的pipeline来开发。国内外也有非常多的优秀产品如Runway AI、Pika AI 、可灵King AI、通义千问、智谱的文生视频模型等等。为了方便调用，这篇博客也尝试了使用 PyPI的text2video的python库的Wrapper类进行调用，下面会给大家介绍一下Huggingface Text to Video Pipeline的调用方式以及使用通用的text2video的python库调用方式。

2. Huggingface Text to Video Pipeline 代码

地址: (https://huggingface.co/docs/diffusers/api/pipelines/text_to_video)

  ## code for huggingface diffusion pipeline
  import torch
  from diffusers import DiffusionPipeline
  from diffusers.utils import export_to_video
  pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
  pipe = pipe.to("cuda")
  prompt = "Spiderman is surfing"
  video_frames = pipe(prompt).frames[0]
  video_path = export_to_video(video_frames)
  video_path

3. 使用Python的包Text2Video来下载最新的文本生成领域论文。

3.1 安装 pip3的 text2video的包

pip install text2video

3.2. 使用现有接口从 arxiv程序化下载最新文生视频的论文

定义输入接口，我们使用的是查询 ArxivPaper的API，需要传入 api_name 字段。同时可以设置查询接口的额外属性，包含拓展参数有：

可以参考arxiv的官方API

字段	默认值	含义
start	0	entry个数
max_results	10	结束entry个数
sortBy	lastUpdatedDate	日期字段
sortOrder	descending	升序或者降序

调用python的 text2video包下载最新发布在 Arxiv论文信息

import text2video as t2v
import json 
input_dict = {"text": "Text to Video"}
res = t2v.api(input_dict, model=None, api_name="ArxivPaperAPI", start=0, max_results = 3)
paper_list = json.loads(res["text"])
print ("###### Text to Image Recent Paper List:")
for (i, paper_json) in enumerate(paper_list):
    print ("|" + paper_json["id"] + "|" + paper_json["title"].replace("\n", "") + "|" + paper_json["updated"] )

输出结果

###### Text to Image Recent Paper List:

|http://arxiv.org/abs/2410.08211v1|LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts|2024-10-10T17:59:59Z

|http://arxiv.org/abs/2410.08210v1|PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection|2024-10-10T17:59:56Z