智能媒体处理使用与原理(二)|学习笔记

简介: 快速学习智能媒体处理使用与原理(二)

发者学堂课程【视频云技术入门-1024程序员节创造营公益课智能媒体处理使用与原理(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/902/detail/14336


智能媒体处理使用与原理(二)


三、音视频智能处理

1、绿幕抠图
传媒影视制作必备工具
输入:
1.蓝幕或绿幕视频,分辨率不超过4K

2.需要替换的背景图片
输出:
1.替换背景后的视频
典型应用场景:

●影视制作

●多人云会议

●元宇宙
抠图质量评价点:

●边缘溢色
●透明体反光

●运动模糊

●地面阴影

2横转竖

移动端分发必备工具

人工制作横转竖视频的难点
a 剪裁目标区域后,前后帧难以对齐
b 目标移动比较快的场景需要逐帧剪裁工作量巨大
c 需要专业剪辑软件和制作人员成本高,速度慢

智能横转竖的算法流程
镜头分割——主体选择——镜头追踪——路径平滑

其他视频智能处理能力

阿里云视频云目前提供的视频 AI 能力

的阿里云开发者训练
其他视频智能处理能力阿里云视频云目前提供的视频 AI 能力
ROI 提取●绿幕抠图●横转竖
智能擦除●去图标●去字幕
关键信息提炼●智能封面●视频摘要
结构化分析●字幕提取●PPT 拆条

3副歌识别

副歌-歌曲中的高潮片段,自动识别副歌加速推荐分发,提升点击转化率
歌曲——音乐段落检测——副歌段落提取——副歌段落精调——副歌片段

示例({"result": [{"start": 72.38,

"end": 102.38,

"title": "副歌"}

 }

}

4、节奏检测

识别音乐中的多层次的节奏点

应用场景包括视频制作:

如鬼畜视频音乐推荐:帮助分类音乐

示例

{

"result: 'success" ,

"Beatlist":["0.46" ,"0.96" ,'1.45", ,"1.96". ,"2.46" ,2.99" ,"3.48","3.98","4.48","4.98" ,"5.47","5.96" ,"6.46"],"DownBeatlist":[

"0.46","2.46" ,"4.48" ,"6.46"]

}

5其他音频智能处理能力

●混音

●ASR (语音识别)

●TTS (语音合成)

 

四、MPS 服务介绍

1NPS 服务介绍

媒体处理

阿里云媒体处理(ApsaraVideo Media Processing,原 MTS)是-

多媒体数据处理服务。它经济。弹性和高可扩展的转换方法,将多媒

体数据转码成适合在全平台播放的格式。并基于海量数据深度学习,

对媒体的内容、文字语音、场凰多模志分析,实现智能审核。内容理

解、智能编机。

Input Media File——Output Media File (如横转竖)
Input Media File_——Output Analyzed Data (如智能标签)

输入媒体文件支持:●OSS 文件

●网络 URL 地址

如何调用 MPS 接口

开通 MPS 产品:https://www.aliyun.com/product/mts
使用 RAM 服务获取

AccessKey:https://ram.console.aliyun.com/manage/ak

仔细阅读 MPS API 文档:

https://help aliyun.com/document_detail/29210.html
选择编程语言,安装依赖模块,可参考:

https://help.aliyun.com/document_detail/188024.html .

5.编写代码

相关文章
|
6月前
|
人工智能 边缘计算 监控
【开源视频联动物联网平台】视频AI智能分析部署方式
【开源视频联动物联网平台】视频AI智能分析部署方式
354 3
|
机器学习/深度学习 人工智能 小程序
智能媒体处理使用与原理(一)|学习笔记
快速学习智能媒体处理使用与原理(一)
177 0
智能媒体处理使用与原理(一)|学习笔记
|
人工智能
智能媒体处理使用技巧
智能AI与视频制作
182 0
|
机器学习/深度学习 人工智能 语音技术
视频AI,助力体育赛事转播走进智能时代
2018俄罗斯世界杯经过近20天的激战,已经进入到最关键的阶段。本次赛事除了精彩纷呈的比赛之外,还加入很多高科技的元素,例如门线、VAR技术等等。让本届世界杯成为科技含量最高的一届世界杯。
2871 0
|
3月前
|
人工智能 移动开发 文字识别
视觉智能开放平台产品使用合集之如何对视频流进行实时分割背景,和替换背景
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之视频人物卡通化本地文件处理慢,有没有优化的办法
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
3月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之是否支持对敏感内容进行马赛克处理
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
3月前
|
开发者 图形学 C#
揭秘游戏沉浸感的秘密武器:深度解析Unity中的音频设计技巧,从背景音乐到动态音效,全面提升你的游戏氛围艺术——附实战代码示例与应用场景指导
【8月更文挑战第31天】音频设计在游戏开发中至关重要,不仅能增强沉浸感,还能传递信息,构建氛围。Unity作为跨平台游戏引擎,提供了丰富的音频处理功能,助力开发者轻松实现复杂音效。本文将探讨如何利用Unity的音频设计提升游戏氛围,并通过具体示例代码展示实现过程。例如,在恐怖游戏中,阴森的背景音乐和突然的脚步声能增加紧张感;在休闲游戏中,轻快的旋律则让玩家感到愉悦。
82 0
|
3月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之有没有办法检测人是否驼背
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之如何解决视频生成接口中声音和画面不同步
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
视觉智能开放平台产品使用合集之如何解决视频生成接口中声音和画面不同步

热门文章

最新文章