基于阿里云视觉智能开放平台的动漫化视频产出方案

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: 阿里云视觉智能开放平台的现有API能力,做出一个批量化生成动漫化视频的方案。

随着智能手机的普及以及移动互联网技术的发展,短视频已经成为了人们日常娱乐生活的一部分。近年来,短视频产业迅速崛起,并愈发壮大。那么,短视频产业的前景如何呢?未来又该如何发展呢?,如何把握用户需求,为短视频生产者提供降本增效的解决方案,让生产者占据红利的一部分市场。
从2023年起,人工智能工具的飞速发展,ChatGPT 、AI绘画成功落地,对于文字,图片的处理已经可以批量的产出。短视频的产出如何做到批量化呢?下面将采用阿里云视觉智能开放平台的现有API能力,做出一个批量化处理的方案。

阿里云视觉智能开放平台是什么?

阿里云视觉智能开放平台(Vision Intelligent Application Programming Interface Platform)简称视觉智能平台,是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术应用能力的综合性视觉AI能力平台。
阿里云视觉智能开放平台的官网地址为vision.aliyun.com。平台会为您提供普惠易用的AI能力。适用于城市大脑、安防、数字营销、泛金融身份认证、互联网娱乐、手机应用等行业,企业和开发商(含开发者)可以选择相应能力自行封装解决方案或者是产品、服务。

基于阿里云视觉智能开放平台的动漫化视频产出方案流程

本方案主要依赖的是视觉智能开放平台的人物动漫化、通用视频生成、视频人像卡通化三个能力对图片,视频素材进行处理,生成有效的动漫化短视频。
流程如下:
Dingtalk_20230731130110.jpg

1、客户直接上传的是视频素材,就可以直接进行视频人像卡通化处理。
2、客户如果传入的是图片输出,可以先调用人物动漫化之后,再对动漫化后的图片进行通用视频生成。
3、基于客户的图片素材,可以先调用通用视频生成之后,生成视频,再进行视频人像卡通化处理。

如何实现以上的三个流程呢? 后面将为大家详细讲解下方案,和各个方案的优缺点。

阿里云视觉智能开放平台的接口调用

调用阿里云视觉智能开放平台之前,是需要做些前期工作的,那就是开通服务,购买资源包,因为以上需要使用的三个API接口都是收费的,所以初次使用还需要先购买资源包或者保证自己的账号中有余额,以免测试使用过程中会出现欠费,导致调用失败。
视觉智能开放平台对于新手比较友好,每个API文档中都会有接入指南。且部分能能力还有完整的调用实例代码,接入和调用就很容易了,开通和接入这个步骤方案中就不详细说明了,可以直接按照接口文档中的提示走,下面举例说明下人物动漫化的开通和调用方案:
人物动漫化接口文档:https://help.aliyun.com/document_detail/188840.html

Dingtalk_20230731142303.jpg

按照步骤开通,服务之后,按照文档中提供的实例代码,我们可以调用接口看下效果,我们采用人物动漫化常用语言和常见情况的示例代码文档中的文件在同域oss的调用方案,详情可以看下文档:https://help.aliyun.com/document_detail/477407.html
日漫风格:
Dingtalk_20230731135139.jpg

3D特效:
Dingtalk_20230731135212.jpg

手绘风格:
Dingtalk_20230731134928.jpg

铅笔画
Dingtalk_20230731135244.jpg

艺术特效:
Dingtalk_20230731135328.jpg

作者采用的是python调用的方案,示例代码如下:

import os
from alibabacloud_facebody20191230.client import Client
from alibabacloud_facebody20191230.models import GenerateHumanAnimeStyleRequest
from alibabacloud_tea_openapi.models import Config
from alibabacloud_tea_util.models import RuntimeOptions
config = Config(
access_key_id=os.environ.get('ALIBABA_CLOUD_ACCESS_KEY_ID'),
access_key_secret=os.environ.get('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),

endpoint='facebody.cn-shanghai.aliyuncs.com',

region_id='cn-shanghai'
)
generate_human_anime_style_request = GenerateHumanAnimeStyleRequest(
image_url='http://viapi-test.oss-cn-shanghai.aliyuncs.com/viapi-3.0domepic/facebody/GenerateHumanAnimeStyle/GenerateHumanAnimeStyle1.png',
algo_type='artstyle'
)
runtime = RuntimeOptions()
try:

client = Client(config)
response = client.generate_human_anime_style_with_options(generate_human_anime_style_request, runtime)
print(response.body)
except Exception as error:
print(error)
print(error.code)

视频人像卡通化

同理调用视频人像卡通化,其目前支持的卡通化风格和图像人脸动漫化的效果相同,详情可以参考文档:https://help.aliyun.com/document_detail/605235.html
效果如下:
GenerateHumanAnimeStyleVideo.png

通用视频生成

最后介绍的是通用视频生成,调用方法就不做介绍,主要是通用视频生成的参数介绍,通用视频生成的功能还是很强大的,相比较视频人像卡通化的效果,有更多的特效加入。具体的内容我们就看下通用视频生成的功能接入:
通用视频生成能力可以根据输入的原始视频,智能生成营销短视频。支持图像、视频、音频等素材混合处理,支持转场特效等加工效果叠加。输入视频的场景类型可选择服饰场景(默认)或通用场景,通过分析视频中的人和物,生成故事线来组织素材的顺序。您也可以通过输入参数的设置强制按输入素材顺序合成视频场景。
通用视频生成能力主要包含以下功能点:
•输入文件类型:支持video(视频)、audio(音频)、image(图像)中的一种或多种。
•输出视频节奏:可选normal(普通)、fast(快)、slow(慢),默认为normal(普通)。
•镜头转场风格的选择:共计15种风格,如果没有设置则按照Style随机,目前支持的镜头转场风格包括:basic(无)、slow(舒缓)、fast(动感)、normal(自然)、ink(水墨)、glitch(机械故障)、shift(切换)、mosaic(马赛克)、shutter(百叶窗)、zoom(缩放)、mask(遮罩)、brush(笔刷)、wind(风舞)、smog(烟雾)。
•智能特效:当前支持音画联动和静转动特效,默认添加。
•动态拼图特效:支持在单镜头中通过拼图展示多个视频图像素材,默认不添加。

Dingtalk_20230731140238.jpg

针对以上介绍的三种动漫化视频产出的效果可以看下,因为无法传入视频,所以就义视频截图看下效果:
视频人像卡通化:
Dingtalk_20230731142918.jpg
Dingtalk_20230731142943.jpg
Dingtalk_20230731143022.jpg
Dingtalk_20230731143034.jpg
通用视频生成:
Dingtalk_20230731142958.jpg
(以上图片来源与视觉智能开放平台的示例图)

整体的动漫化效果差距不大,但是3个方案还是有不同的优缺点,下面就详细分析下优缺点:
方案一
优点:
可以直接调用视频人像卡通化接口,处理流程耗时更短,更简单。
缺点:
无法对视频转场,音频等无法二次处理,只支持视频的传入。

方案二
优点:
1、支持直接对图片处理,且可以自定义选择图片的动漫化效果,优先判断生成的效果。
2、视频生成的时候,可以自定义视频的转场,播放速度,音频,生成的视频长度等效果。

缺点:
处理流程长,需要调用2个API接口,成本高些。

方案三
优点:
视频生成的时候,可以自定义视频的转场,播放速度,音频,生成的视频长度等效果。且可以选择多种素材的组合,比如图片+视频的模式生成新的视频。
缺点:
处理流程长,需要调用2个API接口,成本更高些。

总结

本方案支持了图片,视频,图片+视频的三种输入形态,都能完美的实现视频动漫化的效果,而且是可批量操作的,大的节省了人力成本,让视频的产出效率更高,更新更快,让短视频生产者更加有竞争力。

相关文章
|
2月前
|
文字识别 API 开发工具
视觉智能开放平台产品使用合集之模板视频人脸融合是否支持通过服务端调用或者客户端调用
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
视觉智能开放平台产品使用合集之模板视频人脸融合是否支持通过服务端调用或者客户端调用
|
2月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之如何解决视频生成接口中声音和画面不同步
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
视觉智能开放平台产品使用合集之如何解决视频生成接口中声音和画面不同步
|
2月前
|
监控 算法 API
视觉智能开放平台操作报错合集之视频分割服务调用过程中遇到调用报错的问题,该怎么处理
在使用视觉智能开放平台时,可能会遇到各种错误和问题。虽然具体的错误代码和消息会因平台而异,但以下是一些常见错误类型及其可能的原因和解决策略的概述,包括但不限于:1. 认证错误、2. 请求参数错误、3. 资源超限、4. 图像质量问题、5. 服务不可用、6. 模型不支持的场景、7. 网络连接问题,这有助于快速定位和解决问题。
|
2月前
|
算法 小程序 开发工具
视觉智能开放平台操作报错合集之同样的图片路径(上海阿里云),sdk报错code.400,是什么原因
在使用视觉智能开放平台时,可能会遇到各种错误和问题。虽然具体的错误代码和消息会因平台而异,但以下是一些常见错误类型及其可能的原因和解决策略的概述,包括但不限于:1. 认证错误、2. 请求参数错误、3. 资源超限、4. 图像质量问题、5. 服务不可用、6. 模型不支持的场景、7. 网络连接问题,这有助于快速定位和解决问题。
|
2月前
|
对象存储
视觉智能开放平台操作报错合集之用oss上传视频后,发起调用报错是什么导致的
在使用视觉智能开放平台时,可能会遇到各种错误和问题。虽然具体的错误代码和消息会因平台而异,但以下是一些常见错误类型及其可能的原因和解决策略的概述,包括但不限于:1. 认证错误、2. 请求参数错误、3. 资源超限、4. 图像质量问题、5. 服务不可用、6. 模型不支持的场景、7. 网络连接问题,这有助于快速定位和解决问题。
|
8天前
|
机器学习/深度学习 算法 数据可视化
深度学习在图像识别中的应用与挑战
【7月更文挑战第43天】 随着人工智能技术的迅猛发展,深度学习已成为推动计算机视觉领域进步的核心动力。本文旨在探讨深度学习技术在图像识别任务中的实际应用情况,分析其面临的主要挑战,并提出可能的解决方案。通过回顾当前最前沿的研究成果和案例分析,文章揭示了深度学习算法在处理复杂图像数据时的强大能力以及存在的局限性。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】探讨最新的深度学习算法、模型创新以及在图像识别、自然语言处理等领域的应用进展
深度学习作为人工智能领域的重要分支,近年来在算法、模型以及应用领域都取得了显著的进展。以下将探讨最新的深度学习算法与模型创新,以及它们在图像识别、自然语言处理(NLP)等领域的应用进展。
14 6
|
2天前
|
机器学习/深度学习 监控 量子技术
深度学习在图像识别中的应用与挑战
【8月更文挑战第18天】 本文将探讨深度学习技术如何革新了图像识别领域,并讨论在这一过程中遇到的挑战。我们将从基础概念出发,逐步深入到高级应用,最后分析当前技术的局限性和未来的发展方向。通过这篇文章,读者将获得对深度学习在图像识别中作用的全面理解,以及它如何影响我们的日常生活和未来技术的趋势。
10 4
|
3天前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用与挑战
【8月更文挑战第17天】随着人工智能领域的飞速发展,深度学习已成为推动技术革新的重要力量。特别是在图像识别领域,深度学习模型凭借其强大的特征提取和分类能力,已经实现了超越人类水平的识别精度。然而,这一过程并非没有挑战。本文将深入探讨深度学习在图像识别方面的应用,同时分析当前面临的主要挑战,并展望未来的发展方向。
|
4天前
|
机器学习/深度学习 人工智能
深度学习在图像识别中的应用与挑战
本文以通俗易懂的语言,深入浅出地介绍了深度学习在图像识别领域的应用及其面临的挑战。通过生动的比喻和实例,使读者能够轻松理解这一复杂技术,并引发对人工智能未来发展的思考。
11 1

热门文章

最新文章

相关产品

  • 视觉智能开放平台