暂时没有modelscope模型能支持输入描述和样例图片生成视频？

展开

收起

小小爱吃香菜 2024-01-22 21:43:04 154 版权

阿里云 AI 助理回答

目前，根据提供的知识库资料，确实没有直接提到ModelScope中有模型能够支持通过输入描述和样例图片生成视频的功能。然而，阿里云的大模型服务平台百炼提供了多个与视频生成相关的模型和服务，这些模型虽然不完全符合“输入描述和样例图片生成视频”的需求，但具备类似功能，可以作为替代方案。

以下是相关模型及其功能的详细说明：

1. 通义万相-图生视频模型

通义万相-图生视频模型能够将输入的静态图片转化为动态视频，并结合提示词生成具有艺术风格和影视级画质的视频内容。

功能特点：

输入：一张静态图片 + 提示词（如“一只猫在草地上奔跑”）。
输出：以输入图片为第一帧，根据提示词生成动态视频。
适用场景：适合需要将静态图像转化为动态视频的用户。

模型版本及计费：

模型名称	特点	单价	免费额度
wanx2.1-i2v-turbo	生成速度更快，性价比更高	0.24元/秒	200秒（有效期180天）
wanx2.1-i2v-plus	生成细节更丰富，画面更具质感	0.70元/秒	无免费额度

注意事项：

输入图片需符合格式要求（如jpg、png等），且文件大小不超过5MB。
提示词应尽量清晰明确，以便模型生成符合预期的视频内容。

2. AnimateAnyone 视频生成模型

AnimateAnyone模型能够基于人物图片和动作模板生成人物动作视频。虽然其主要功能是生成人物动作视频，但也可以通过调整背景和动作模板实现一定的创意效果。

功能特点：

输入：
- 人物图片（全身或半身人像）。
- 动作模板（需通过AnimateAnyone 动作模板生成API制作）。
输出：根据输入图片和动作模板生成的人物动作视频。
背景控制：
- 可选择使用输入图片的背景（use_ref_img_bg=true）。
- 或使用动作模板视频的背景（use_ref_img_bg=false）。

使用限制：

图片要求：
- 格式：jpg、png、jpeg、bmp。
- 文件大小：<5MB。
- 宽高比≤2，最大边长≤4096像素。
半身人像：不推荐按视频背景生成，因为未出现的区域（如腿部）会随机补全，可能导致结果不符合预期。

调用方式：

异步调用接口：

POST https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis/

需要提供API Key，并确保输入图片和动作模板已通过检测。

3. 虚拟模特生成模型

虚拟模特生成模型（virtualmodel-V2）支持基于真人实拍图和英文任务描述生成新的展拍图。虽然其主要功能是生成静态图像，但可以通过多次生成并拼接的方式模拟简单的动态效果。

功能特点：

输入：
- 原始图像（base_image_url）。
- 期望保留区域（mask_image_url）。
- 全身形象描述（prompt）。
- 人像面部描述（face_prompt）。
- 背景参考图像（background_image_url）。
输出：重新生成的展拍图。

使用限制：

图像分辨率需满足以下要求：
- 长宽比大于1:2且小于2:1。
- 长边小于4096像素。
- 人脸占比不低于128×128像素。

总结与建议

虽然ModelScope中暂无直接支持“输入描述和样例图片生成视频”的模型，但可以通过以下方式实现类似效果： 1. 通义万相-图生视频模型：适用于将静态图片转化为动态视频，结合提示词生成创意内容。 2. AnimateAnyone 视频生成模型：适用于生成人物动作视频，可通过调整背景和动作模板实现多样化效果。 3. 虚拟模特生成模型：适用于生成静态展拍图，可尝试通过多次生成拼接成简单动态效果。

如果您有具体的应用场景或需求，可以进一步描述，我们将为您提供更详细的解决方案！

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答