随着智能手机的普及以及移动互联网技术的发展,短视频已经成为了人们日常娱乐生活的一部分。近年来,短视频产业迅速崛起,并愈发壮大。那么,短视频产业的前景如何呢?未来又该如何发展呢?,如何把握用户需求,为短视频生产者提供降本增效的解决方案,让生产者占据红利的一部分市场。
从2023年起,人工智能工具的飞速发展,ChatGPT 、AI绘画成功落地,对于文字,图片的处理已经可以批量的产出。短视频的产出如何做到批量化呢?下面将采用阿里云视觉智能开放平台的现有API能力,做出一个批量化处理的方案。
阿里云视觉智能开放平台是什么?
阿里云视觉智能开放平台(Vision Intelligent Application Programming Interface Platform)简称视觉智能平台,是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术应用能力的综合性视觉AI能力平台。
阿里云视觉智能开放平台的官网地址为vision.aliyun.com。平台会为您提供普惠易用的AI能力。适用于城市大脑、安防、数字营销、泛金融身份认证、互联网娱乐、手机应用等行业,企业和开发商(含开发者)可以选择相应能力自行封装解决方案或者是产品、服务。
基于阿里云视觉智能开放平台的动漫化视频产出方案流程
本方案主要依赖的是视觉智能开放平台的人物动漫化、通用视频生成、视频人像卡通化三个能力对图片,视频素材进行处理,生成有效的动漫化短视频。
流程如下:
1、客户直接上传的是视频素材,就可以直接进行视频人像卡通化处理。
2、客户如果传入的是图片输出,可以先调用人物动漫化之后,再对动漫化后的图片进行通用视频生成。
3、基于客户的图片素材,可以先调用通用视频生成之后,生成视频,再进行视频人像卡通化处理。
如何实现以上的三个流程呢? 后面将为大家详细讲解下方案,和各个方案的优缺点。
阿里云视觉智能开放平台的接口调用
调用阿里云视觉智能开放平台之前,是需要做些前期工作的,那就是开通服务,购买资源包,因为以上需要使用的三个API接口都是收费的,所以初次使用还需要先购买资源包或者保证自己的账号中有余额,以免测试使用过程中会出现欠费,导致调用失败。
视觉智能开放平台对于新手比较友好,每个API文档中都会有接入指南。且部分能能力还有完整的调用实例代码,接入和调用就很容易了,开通和接入这个步骤方案中就不详细说明了,可以直接按照接口文档中的提示走,下面举例说明下人物动漫化的开通和调用方案:
人物动漫化接口文档:https://help.aliyun.com/document_detail/188840.html
按照步骤开通,服务之后,按照文档中提供的实例代码,我们可以调用接口看下效果,我们采用人物动漫化常用语言和常见情况的示例代码文档中的文件在同域oss的调用方案,详情可以看下文档:https://help.aliyun.com/document_detail/477407.html
日漫风格:
3D特效:
手绘风格:
铅笔画:
艺术特效:
作者采用的是python调用的方案,示例代码如下:
import os
from alibabacloud_facebody20191230.client import Client
from alibabacloud_facebody20191230.models import GenerateHumanAnimeStyleRequest
from alibabacloud_tea_openapi.models import Config
from alibabacloud_tea_util.models import RuntimeOptions
config = Config(
access_key_id=os.environ.get('ALIBABA_CLOUD_ACCESS_KEY_ID'),
access_key_secret=os.environ.get('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),
endpoint='facebody.cn-shanghai.aliyuncs.com',
region_id='cn-shanghai'
)
generate_human_anime_style_request = GenerateHumanAnimeStyleRequest(
image_url='http://viapi-test.oss-cn-shanghai.aliyuncs.com/viapi-3.0domepic/facebody/GenerateHumanAnimeStyle/GenerateHumanAnimeStyle1.png',
algo_type='artstyle'
)
runtime = RuntimeOptions()
try:
client = Client(config)
response = client.generate_human_anime_style_with_options(generate_human_anime_style_request, runtime)
print(response.body)
except Exception as error:
print(error)
print(error.code)
视频人像卡通化:
同理调用视频人像卡通化,其目前支持的卡通化风格和图像人脸动漫化的效果相同,详情可以参考文档:https://help.aliyun.com/document_detail/605235.html
效果如下:
通用视频生成
最后介绍的是通用视频生成,调用方法就不做介绍,主要是通用视频生成的参数介绍,通用视频生成的功能还是很强大的,相比较视频人像卡通化的效果,有更多的特效加入。具体的内容我们就看下通用视频生成的功能接入:
通用视频生成能力可以根据输入的原始视频,智能生成营销短视频。支持图像、视频、音频等素材混合处理,支持转场特效等加工效果叠加。输入视频的场景类型可选择服饰场景(默认)或通用场景,通过分析视频中的人和物,生成故事线来组织素材的顺序。您也可以通过输入参数的设置强制按输入素材顺序合成视频场景。
通用视频生成能力主要包含以下功能点:
•输入文件类型:支持video(视频)、audio(音频)、image(图像)中的一种或多种。
•输出视频节奏:可选normal(普通)、fast(快)、slow(慢),默认为normal(普通)。
•镜头转场风格的选择:共计15种风格,如果没有设置则按照Style随机,目前支持的镜头转场风格包括:basic(无)、slow(舒缓)、fast(动感)、normal(自然)、ink(水墨)、glitch(机械故障)、shift(切换)、mosaic(马赛克)、shutter(百叶窗)、zoom(缩放)、mask(遮罩)、brush(笔刷)、wind(风舞)、smog(烟雾)。
•智能特效:当前支持音画联动和静转动特效,默认添加。
•动态拼图特效:支持在单镜头中通过拼图展示多个视频图像素材,默认不添加。
针对以上介绍的三种动漫化视频产出的效果可以看下,因为无法传入视频,所以就义视频截图看下效果:
视频人像卡通化:
通用视频生成:
(以上图片来源与视觉智能开放平台的示例图)
整体的动漫化效果差距不大,但是3个方案还是有不同的优缺点,下面就详细分析下优缺点:
方案一
优点:
可以直接调用视频人像卡通化接口,处理流程耗时更短,更简单。
缺点:
无法对视频转场,音频等无法二次处理,只支持视频的传入。
方案二
优点:
1、支持直接对图片处理,且可以自定义选择图片的动漫化效果,优先判断生成的效果。
2、视频生成的时候,可以自定义视频的转场,播放速度,音频,生成的视频长度等效果。
缺点:
处理流程长,需要调用2个API接口,成本高些。
方案三
优点:
视频生成的时候,可以自定义视频的转场,播放速度,音频,生成的视频长度等效果。且可以选择多种素材的组合,比如图片+视频的模式生成新的视频。
缺点:
处理流程长,需要调用2个API接口,成本更高些。
总结
本方案支持了图片,视频,图片+视频的三种输入形态,都能完美的实现视频动漫化的效果,而且是可批量操作的,大的节省了人力成本,让视频的产出效率更高,更新更快,让短视频生产者更加有竞争力。