基于阿里云视觉智能开放平台的动漫化视频产出方案

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 阿里云视觉智能开放平台的现有API能力,做出一个批量化生成动漫化视频的方案。

随着智能手机的普及以及移动互联网技术的发展,短视频已经成为了人们日常娱乐生活的一部分。近年来,短视频产业迅速崛起,并愈发壮大。那么,短视频产业的前景如何呢?未来又该如何发展呢?,如何把握用户需求,为短视频生产者提供降本增效的解决方案,让生产者占据红利的一部分市场。
从2023年起,人工智能工具的飞速发展,ChatGPT 、AI绘画成功落地,对于文字,图片的处理已经可以批量的产出。短视频的产出如何做到批量化呢?下面将采用阿里云视觉智能开放平台的现有API能力,做出一个批量化处理的方案。

阿里云视觉智能开放平台是什么?

阿里云视觉智能开放平台(Vision Intelligent Application Programming Interface Platform)简称视觉智能平台,是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术应用能力的综合性视觉AI能力平台。
阿里云视觉智能开放平台的官网地址为vision.aliyun.com。平台会为您提供普惠易用的AI能力。适用于城市大脑、安防、数字营销、泛金融身份认证、互联网娱乐、手机应用等行业,企业和开发商(含开发者)可以选择相应能力自行封装解决方案或者是产品、服务。

基于阿里云视觉智能开放平台的动漫化视频产出方案流程

本方案主要依赖的是视觉智能开放平台的人物动漫化、通用视频生成、视频人像卡通化三个能力对图片,视频素材进行处理,生成有效的动漫化短视频。
流程如下:
Dingtalk_20230731130110.jpg

1、客户直接上传的是视频素材,就可以直接进行视频人像卡通化处理。
2、客户如果传入的是图片输出,可以先调用人物动漫化之后,再对动漫化后的图片进行通用视频生成。
3、基于客户的图片素材,可以先调用通用视频生成之后,生成视频,再进行视频人像卡通化处理。

如何实现以上的三个流程呢? 后面将为大家详细讲解下方案,和各个方案的优缺点。

阿里云视觉智能开放平台的接口调用

调用阿里云视觉智能开放平台之前,是需要做些前期工作的,那就是开通服务,购买资源包,因为以上需要使用的三个API接口都是收费的,所以初次使用还需要先购买资源包或者保证自己的账号中有余额,以免测试使用过程中会出现欠费,导致调用失败。
视觉智能开放平台对于新手比较友好,每个API文档中都会有接入指南。且部分能能力还有完整的调用实例代码,接入和调用就很容易了,开通和接入这个步骤方案中就不详细说明了,可以直接按照接口文档中的提示走,下面举例说明下人物动漫化的开通和调用方案:
人物动漫化接口文档:https://help.aliyun.com/document_detail/188840.html

Dingtalk_20230731142303.jpg

按照步骤开通,服务之后,按照文档中提供的实例代码,我们可以调用接口看下效果,我们采用人物动漫化常用语言和常见情况的示例代码文档中的文件在同域oss的调用方案,详情可以看下文档:https://help.aliyun.com/document_detail/477407.html
日漫风格:
Dingtalk_20230731135139.jpg

3D特效:
Dingtalk_20230731135212.jpg

手绘风格:
Dingtalk_20230731134928.jpg

铅笔画
Dingtalk_20230731135244.jpg

艺术特效:
Dingtalk_20230731135328.jpg

作者采用的是python调用的方案,示例代码如下:

import os
from alibabacloud_facebody20191230.client import Client
from alibabacloud_facebody20191230.models import GenerateHumanAnimeStyleRequest
from alibabacloud_tea_openapi.models import Config
from alibabacloud_tea_util.models import RuntimeOptions
config = Config(
access_key_id=os.environ.get('ALIBABA_CLOUD_ACCESS_KEY_ID'),
access_key_secret=os.environ.get('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),

endpoint='facebody.cn-shanghai.aliyuncs.com',

region_id='cn-shanghai'
)
generate_human_anime_style_request = GenerateHumanAnimeStyleRequest(
image_url='http://viapi-test.oss-cn-shanghai.aliyuncs.com/viapi-3.0domepic/facebody/GenerateHumanAnimeStyle/GenerateHumanAnimeStyle1.png',
algo_type='artstyle'
)
runtime = RuntimeOptions()
try:

client = Client(config)
response = client.generate_human_anime_style_with_options(generate_human_anime_style_request, runtime)
print(response.body)
except Exception as error:
print(error)
print(error.code)

视频人像卡通化

同理调用视频人像卡通化,其目前支持的卡通化风格和图像人脸动漫化的效果相同,详情可以参考文档:https://help.aliyun.com/document_detail/605235.html
效果如下:
GenerateHumanAnimeStyleVideo.png

通用视频生成

最后介绍的是通用视频生成,调用方法就不做介绍,主要是通用视频生成的参数介绍,通用视频生成的功能还是很强大的,相比较视频人像卡通化的效果,有更多的特效加入。具体的内容我们就看下通用视频生成的功能接入:
通用视频生成能力可以根据输入的原始视频,智能生成营销短视频。支持图像、视频、音频等素材混合处理,支持转场特效等加工效果叠加。输入视频的场景类型可选择服饰场景(默认)或通用场景,通过分析视频中的人和物,生成故事线来组织素材的顺序。您也可以通过输入参数的设置强制按输入素材顺序合成视频场景。
通用视频生成能力主要包含以下功能点:
•输入文件类型:支持video(视频)、audio(音频)、image(图像)中的一种或多种。
•输出视频节奏:可选normal(普通)、fast(快)、slow(慢),默认为normal(普通)。
•镜头转场风格的选择:共计15种风格,如果没有设置则按照Style随机,目前支持的镜头转场风格包括:basic(无)、slow(舒缓)、fast(动感)、normal(自然)、ink(水墨)、glitch(机械故障)、shift(切换)、mosaic(马赛克)、shutter(百叶窗)、zoom(缩放)、mask(遮罩)、brush(笔刷)、wind(风舞)、smog(烟雾)。
•智能特效:当前支持音画联动和静转动特效,默认添加。
•动态拼图特效:支持在单镜头中通过拼图展示多个视频图像素材,默认不添加。

Dingtalk_20230731140238.jpg

针对以上介绍的三种动漫化视频产出的效果可以看下,因为无法传入视频,所以就义视频截图看下效果:
视频人像卡通化:
Dingtalk_20230731142918.jpg
Dingtalk_20230731142943.jpg
Dingtalk_20230731143022.jpg
Dingtalk_20230731143034.jpg
通用视频生成:
Dingtalk_20230731142958.jpg
(以上图片来源与视觉智能开放平台的示例图)

整体的动漫化效果差距不大,但是3个方案还是有不同的优缺点,下面就详细分析下优缺点:
方案一
优点:
可以直接调用视频人像卡通化接口,处理流程耗时更短,更简单。
缺点:
无法对视频转场,音频等无法二次处理,只支持视频的传入。

方案二
优点:
1、支持直接对图片处理,且可以自定义选择图片的动漫化效果,优先判断生成的效果。
2、视频生成的时候,可以自定义视频的转场,播放速度,音频,生成的视频长度等效果。

缺点:
处理流程长,需要调用2个API接口,成本高些。

方案三
优点:
视频生成的时候,可以自定义视频的转场,播放速度,音频,生成的视频长度等效果。且可以选择多种素材的组合,比如图片+视频的模式生成新的视频。
缺点:
处理流程长,需要调用2个API接口,成本更高些。

总结

本方案支持了图片,视频,图片+视频的三种输入形态,都能完美的实现视频动漫化的效果,而且是可批量操作的,大的节省了人力成本,让视频的产出效率更高,更新更快,让短视频生产者更加有竞争力。

相关文章
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之海外地区是否可以是否人物动漫化
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之如何在线调用视频人像增强功能
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
4月前
|
编解码 文字识别 API
视觉智能开放平台产品使用合集之是否支持视频和字幕同步
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
4月前
|
存储 安全 API
"解锁企业级黑科技!用阿里云视觉智能打造钉钉级人脸打卡系统,安全高效,让考勤管理秒变智能范儿!"
【8月更文挑战第14天】随着数字化办公的发展,人脸打卡成为企业考勤的新标准。利用阿里云视觉智能开放平台构建类似钉钉的人脸打卡系统,其关键在于:高精度人脸识别API支持复杂场景下的快速检测与比对;活体检测技术防止非生物特征欺骗,确保安全性;云端存储与计算能力满足大数据处理需求;丰富的SDK与API简化集成过程,实现高效、安全的考勤管理。
109 2
|
4月前
|
缓存 负载均衡 算法
"揭秘!阿里云视觉智能开放平台人脸1vn搜索慢?轻松几招,QPS飙升,让你的应用快如闪电,用户体验秒变VIP级享受!"
【8月更文挑战第14天】在数字浪潮中,人脸识别技术广泛应用于安全监控到个性化服务等领域。阿里云视觉智能开放平台凭借其强大算法和服务模式成为行业翘楚。面对人脸1:Vn搜索响应慢的问题,不仅可通过增加QPS优化,还需从参数调整、缓存机制、并行处理及算法硬件升级等方面综合施策,以实现搜索速度与准确性的双重提升。
63 2
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之通用视频生成的输出结果的清晰度低,可以怎么优化
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
39 0
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之海外是否可以访问人物动漫化的api版本
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
56 0
|
16天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
97 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
5天前
|
机器学习/深度学习 网络架构 计算机视觉
深度学习在图像识别中的应用与挑战
【10月更文挑战第21天】 本文探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。通过研究卷积神经网络(CNN)的结构和原理,本文展示了深度学习如何提高图像识别的准确性和效率。同时,本文也讨论了数据不平衡、过拟合、计算资源限制等问题,并提出了相应的解决策略。
40 19
|
5天前
|
机器学习/深度学习 传感器 人工智能
探索深度学习在图像识别中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。通过介绍卷积神经网络(CNN)的基本原理和架构设计,阐述了深度学习如何有效地从图像数据中提取特征,并在多个领域实现突破性进展。同时,文章也指出了训练深度模型时常见的过拟合问题、数据不平衡以及计算资源需求高等挑战,并提出了相应的解决策略。
43 7

热门文章

最新文章

相关产品

  • 视觉智能开放平台
  • 下一篇
    DataWorks