达摩院机器智能多媒体AI产品介绍

简介: 近年来,在计算机视觉领域中比较热门的方向当属视频AI技术,而阿里达摩院机器智能实验室也推出了自己的多媒体AI产品,并且将逐步上线视频AI的相关能力。本文中,达摩院机器智能实验室资深产品专家宋瑛娟将为大家简单介绍达摩院机器智能多媒体AI产品。

本文内容根据演讲视频以及PPT整理而成。

演讲嘉宾介绍:宋瑛娟,达摩院机器智能实验室资深算法专家。

预约观看演讲视频

背景介绍

大家都知道,视频AI技术是近年来计算机视觉中比较热门的方向。而在阿里达摩院,多媒体AI产品就是视频AI产品的一些能力,目前正在ai.aliyun.com官网上进行公测,公测的能力包括了标签能力、内容智能生成能力等。未来,在两到三个月内,达摩院机器智能实验室也会逐步上线更多多媒体AI标签的能力,包括短视频分类、更多动作识别、陌生人脸和负向标签(用于鉴黄等场景)等。预计在2020年3到5月份的时候,还将会上线视频指纹功能,帮助快速检索视频,以及多媒体AI自学习平台,借此来支撑更多深度定制的应用场景。

视频技术-改变传播能力

众所周知,视频技术能够改变传播方式。在互联网上,最早的传播方式是依靠文字,后来出现了图片传播以及图片和文字相结合的传播方式,之后又出现了音频,最后出现了视频的传播形式。对于视频而言,首先其天生就是多模态的。其次,视频在应用场景中,从创作、生产、分发、营销到消费是存在供给和消费闭环的。而对于阿里达摩院而言,所想要做的其实是一些最基础的能力。因此,达摩院对于视频AI的能力分为了三个部分,即智能理解、智能生产和智能分发。智能理解包括对于人、物以及自然和行为的识别和自动分类;智能生产包括智能拆条、智能缩略图、以及智能配乐等;而智能分发则包括了智能检索、版权溯源等。
图片1.png

视频技术-多模态视频理解助力精确检索和高效运营

前面提到,视频天生就是多模态的,而对于多模态数据的理解过程中就天然地会用到一些底层技术,比如对于视频的语音识别,通过OCR支持字幕识别,以及UGC识别等来综合地识别视频中的结构化信息。目前,达摩院的视频标签是比较通用化的,并且还在不断增加,如果有一些比较大的场景还可以和合作伙伴一起构建更多的视频标签。
图片2.png

达摩院机器智能多媒体AI产品2.0版本能够实现3到6倍速的视频处理速度,一个小时的视频最快能够在10分钟之内处理完成,并且能够将视频中的人物、建筑物、文字全部识别出来。在达摩院机器智能多媒体AI产品的后续优化中,会对于人脸的识别做一次大的提升,对于人脸识别的精度以及敏感人物的范围和库进行提升。

视频技术-视频指纹

所谓视频指纹,所想要做的就是基于对于一段视频的结构化理解来决定如何使用,比如在版权保护中判断两段视频是否相同,或者视频如果被分发到线下的广告中是否能够追踪到。实现视频指纹之后,即使视频的质量、空域发生变化,或者视频发生了拼接或者修改,仍然能够对于这段视频进行溯源。
图片3.png

视频技术-视频生成,封面、GIF、摘要、拆条、集锦

基于对于视频的结构化理解,达摩院机器智能多媒体AI产品就能够实现更多的视频应用,比如视频生成,封面、GIF、摘要、拆条、集锦等。目前,达摩院机器智能多媒体AI产品在线上比较重要的能力就是封面和GIF的生成技术,目前有很多厂商已经应用了。未来,达摩院机器智能多媒体AI产品将会在线上推出场景拆条和体育类集锦功能。并且继续优化封面和GIF能力,做到基于场景级别的静态、动态封面的生成。同时根据视频内容质量的抽取以及前端分发的质量度量,结合智能决策,对生成内容进行最优化前端触发。阿里在优酷的场景里面做了一些实验,帮助优酷将CTR提升了15%。
图片4.png

应用案例

目前,达摩院机器智能多媒体AI产品现在正在和央视进行合作,在央视的媒资库里面会做一些视频结构化的应用。简单而言,第一点就是素材结构化生成,第二点就是在媒资库中进行检索,第三点就是根据一些片段找到与国家领导人相关的片段并展示出来。
图片5.png

相关文章
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
倚天产品介绍|倚天性能优化—YCL AI计算库在resnet50上的优化
Yitian710 作为平头哥第一代ARM通用芯片,在AI场景与X86相比,软件生态与推理性能都存在一定的短板,本文旨在通过倚天AI计算库的优化,打造适合ARM架构的软件平台,提升倚天性能
|
4月前
|
人工智能 自然语言处理 搜索推荐
大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景
在通用L0级语言模型基础之上,结合领域知识训练出适配各应用场景的专属模型,将成为企业经营的“智慧大脑”。 在广告投放这一企业核心的营销场景中,「营销领域大模型」已成为引领行业变革的关键力量,它将重塑数字营销的内容生产方式、投放工作流、消费模式等等,进一步推动营销生态的发展和进化,让广告主的营销内容更丰富、投放更高效、转化更直观。 近期,归一智能正式发布了AI Agent应用产品「归一妙计」,这是一款基于「利欧归一」营销领域大模型,训练出的适配各媒体平台投放工作流的SEMGPT专属模型,能够为企业提供更加智能、精准和高效的AI广告投手服务。
215 0
大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景
|
5月前
|
人工智能 自然语言处理 监控
大数据&AI产品月刊【2023年10月】
大数据&AI产品技术月刊【2023年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
大数据&AI产品月刊【2023年10月】
|
6月前
|
人工智能 自然语言处理
产品更新|AI新功能:智能门户、智能问答已上线,赶紧体验吧!
「宜搭 AI」 继9月开放智能应用、智能公式后,现开放新一期功能,继续感受 AI 魔力!
548 2
产品更新|AI新功能:智能门户、智能问答已上线,赶紧体验吧!
|
7月前
|
机器学习/深度学习 人工智能 大数据
大数据&AI产品月刊【2023年9月】
大数据&AI产品技术月刊【2023年9月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
大数据&AI产品月刊【2023年9月】
|
1月前
|
机器学习/深度学习 人工智能 语音技术
阿里旗下通义系列AI产品有哪些?
【2月更文挑战第16天】阿里旗下通义系列AI产品有哪些?
340 2
阿里旗下通义系列AI产品有哪些?
|
4月前
|
人工智能 自然语言处理 数据挖掘
产品更新|宜搭AI 新增「智能数据分析」「智能表单」两项功能!
「宜搭AI」开放新一期功能:智能数据分析、智能表单,已支持在宜搭网页端使用体验。
268 0
产品更新|宜搭AI 新增「智能数据分析」「智能表单」两项功能!
|
1月前
|
人工智能 JavaScript API
互联网人的福利!『昆仑天工』4款AI产品开源!提供API对接!
互联网人的福利!『昆仑天工』4款AI产品开源!提供API对接!
166 0
|
1月前
|
人工智能 大数据 流计算
大数据&AI产品月刊【2024年2月】
大数据&AI产品技术月刊【2024年2月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
2月前
|
人工智能 自然语言处理 安全
产品更新|宜搭AI助理、精品应用产品力、专属宜搭多项功能升级!
本期功能更新已全量发布,可直接在宜搭内体验。
113 0
产品更新|宜搭AI助理、精品应用产品力、专属宜搭多项功能升级!