达摩院机器智能多媒体AI产品介绍

简介: 近年来,在计算机视觉领域中比较热门的方向当属视频AI技术,而阿里达摩院机器智能实验室也推出了自己的多媒体AI产品,并且将逐步上线视频AI的相关能力。本文中,达摩院机器智能实验室资深产品专家宋瑛娟将为大家简单介绍达摩院机器智能多媒体AI产品。

本文内容根据演讲视频以及PPT整理而成。

演讲嘉宾介绍:宋瑛娟,达摩院机器智能实验室资深算法专家。

预约观看演讲视频

背景介绍

大家都知道,视频AI技术是近年来计算机视觉中比较热门的方向。而在阿里达摩院,多媒体AI产品就是视频AI产品的一些能力,目前正在ai.aliyun.com官网上进行公测,公测的能力包括了标签能力、内容智能生成能力等。未来,在两到三个月内,达摩院机器智能实验室也会逐步上线更多多媒体AI标签的能力,包括短视频分类、更多动作识别、陌生人脸和负向标签(用于鉴黄等场景)等。预计在2020年3到5月份的时候,还将会上线视频指纹功能,帮助快速检索视频,以及多媒体AI自学习平台,借此来支撑更多深度定制的应用场景。

视频技术-改变传播能力

众所周知,视频技术能够改变传播方式。在互联网上,最早的传播方式是依靠文字,后来出现了图片传播以及图片和文字相结合的传播方式,之后又出现了音频,最后出现了视频的传播形式。对于视频而言,首先其天生就是多模态的。其次,视频在应用场景中,从创作、生产、分发、营销到消费是存在供给和消费闭环的。而对于阿里达摩院而言,所想要做的其实是一些最基础的能力。因此,达摩院对于视频AI的能力分为了三个部分,即智能理解、智能生产和智能分发。智能理解包括对于人、物以及自然和行为的识别和自动分类;智能生产包括智能拆条、智能缩略图、以及智能配乐等;而智能分发则包括了智能检索、版权溯源等。
图片1.png

视频技术-多模态视频理解助力精确检索和高效运营

前面提到,视频天生就是多模态的,而对于多模态数据的理解过程中就天然地会用到一些底层技术,比如对于视频的语音识别,通过OCR支持字幕识别,以及UGC识别等来综合地识别视频中的结构化信息。目前,达摩院的视频标签是比较通用化的,并且还在不断增加,如果有一些比较大的场景还可以和合作伙伴一起构建更多的视频标签。
图片2.png

达摩院机器智能多媒体AI产品2.0版本能够实现3到6倍速的视频处理速度,一个小时的视频最快能够在10分钟之内处理完成,并且能够将视频中的人物、建筑物、文字全部识别出来。在达摩院机器智能多媒体AI产品的后续优化中,会对于人脸的识别做一次大的提升,对于人脸识别的精度以及敏感人物的范围和库进行提升。

视频技术-视频指纹

所谓视频指纹,所想要做的就是基于对于一段视频的结构化理解来决定如何使用,比如在版权保护中判断两段视频是否相同,或者视频如果被分发到线下的广告中是否能够追踪到。实现视频指纹之后,即使视频的质量、空域发生变化,或者视频发生了拼接或者修改,仍然能够对于这段视频进行溯源。
图片3.png

视频技术-视频生成,封面、GIF、摘要、拆条、集锦

基于对于视频的结构化理解,达摩院机器智能多媒体AI产品就能够实现更多的视频应用,比如视频生成,封面、GIF、摘要、拆条、集锦等。目前,达摩院机器智能多媒体AI产品在线上比较重要的能力就是封面和GIF的生成技术,目前有很多厂商已经应用了。未来,达摩院机器智能多媒体AI产品将会在线上推出场景拆条和体育类集锦功能。并且继续优化封面和GIF能力,做到基于场景级别的静态、动态封面的生成。同时根据视频内容质量的抽取以及前端分发的质量度量,结合智能决策,对生成内容进行最优化前端触发。阿里在优酷的场景里面做了一些实验,帮助优酷将CTR提升了15%。
图片4.png

应用案例

目前,达摩院机器智能多媒体AI产品现在正在和央视进行合作,在央视的媒资库里面会做一些视频结构化的应用。简单而言,第一点就是素材结构化生成,第二点就是在媒资库中进行检索,第三点就是根据一些片段找到与国家领导人相关的片段并展示出来。
图片5.png

相关文章
|
4天前
|
人工智能 分布式计算 Cloud Native
阿里云大数据AI产品月刊-2025年9月
大数据& AI 产品技术月刊【2025年 9 月】,涵盖 9 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
阿里云大数据AI产品月刊-2025年9月
|
5天前
|
人工智能 小程序 Java
电子班牌管理系统源代码,基于AI人脸识别技术的智能电子班牌云平台解决方案
电子班牌管理系统源码,基于AI人脸识别的智慧校园云平台,支持SaaS架构,涵盖管理端、小程序与安卓班牌端。集成考勤、课表、通知、门禁等功能,提供多模式展示与教务联动,助力校园智能化管理。
48 0
|
27天前
|
传感器 人工智能 边缘计算
智能就在身边:AI如何优化边缘计算
智能就在身边:AI如何优化边缘计算
126 2
|
27天前
|
人工智能 机器人 新能源
深化新工科建设 共探智能新未来 | 阿里云支持南京大学苏州校区“AI DAY”盛大启幕丨云工开物
9月12日,南京大学苏州校区举办“AI新视界:深化新工科建设进行式”活动,采用教师与学生双专场模式,通过主题分享、实践演练、产业课题发布等形式,搭建产教融合AI交流平台,助力未来产业科技人才培养。
|
18天前
|
人工智能 前端开发 JavaScript
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
202 16
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
|
4天前
|
传感器 人工智能 机器人
科技云报到:找到真场景,抓住真需求,这样的具身智能才是好AI
科技云报到:找到真场景,抓住真需求,这样的具身智能才是好AI
|
6天前
|
人工智能 Java 物联网
Java与边缘AI:构建离线智能的物联网与移动应用
随着边缘计算和终端设备算力的飞速发展,AI推理正从云端向边缘端迁移。本文深入探讨如何在资源受限的边缘设备上使用Java构建离线智能应用,涵盖从模型优化、推理加速到资源管理的全流程。我们将完整展示在Android设备、嵌入式系统和IoT网关中部署轻量级AI模型的技术方案,为构建真正实时、隐私安全的边缘智能应用提供完整实践指南。
133 3
|
7天前
|
人工智能 监控 Java
Java与AI智能体:构建自主决策与工具调用的智能系统
随着AI智能体技术的快速发展,构建能够自主理解任务、制定计划并执行复杂操作的智能系统已成为新的技术前沿。本文深入探讨如何在Java生态中构建具备工具调用、记忆管理和自主决策能力的AI智能体系统。我们将完整展示从智能体架构设计、工具生态系统、记忆机制到多智能体协作的全流程,为Java开发者提供构建下一代自主智能系统的完整技术方案。
103 4
|
17天前
|
人工智能 关系型数据库 Java
当MySQL遇见AI:使用Vector扩展实现智能语义搜索
传统数据库的关键词搜索已无法满足现代应用对智能语义查询的需求。本文介绍如何通过MySQL的向量扩展(Vector Extension),将大模型产生的文本嵌入向量存储在MySQL中,并实现高效的语义相似度搜索。我们将完整演示从环境准备、数据库表设计、Java应用集成到性能优化的全流程,让您的传统关系型数据库瞬间具备AI智能检索能力,为构建下一代智能应用提供核心数据支撑。
130 3
|
23天前
|
人工智能 运维 监控
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
128 8

热门文章

最新文章