达摩院机器智能多媒体AI产品介绍

简介: 近年来,在计算机视觉领域中比较热门的方向当属视频AI技术,而阿里达摩院机器智能实验室也推出了自己的多媒体AI产品,并且将逐步上线视频AI的相关能力。本文中,达摩院机器智能实验室资深产品专家宋瑛娟将为大家简单介绍达摩院机器智能多媒体AI产品。

本文内容根据演讲视频以及PPT整理而成。

演讲嘉宾介绍:宋瑛娟,达摩院机器智能实验室资深算法专家。

预约观看演讲视频

背景介绍

大家都知道,视频AI技术是近年来计算机视觉中比较热门的方向。而在阿里达摩院,多媒体AI产品就是视频AI产品的一些能力,目前正在ai.aliyun.com官网上进行公测,公测的能力包括了标签能力、内容智能生成能力等。未来,在两到三个月内,达摩院机器智能实验室也会逐步上线更多多媒体AI标签的能力,包括短视频分类、更多动作识别、陌生人脸和负向标签(用于鉴黄等场景)等。预计在2020年3到5月份的时候,还将会上线视频指纹功能,帮助快速检索视频,以及多媒体AI自学习平台,借此来支撑更多深度定制的应用场景。

视频技术-改变传播能力

众所周知,视频技术能够改变传播方式。在互联网上,最早的传播方式是依靠文字,后来出现了图片传播以及图片和文字相结合的传播方式,之后又出现了音频,最后出现了视频的传播形式。对于视频而言,首先其天生就是多模态的。其次,视频在应用场景中,从创作、生产、分发、营销到消费是存在供给和消费闭环的。而对于阿里达摩院而言,所想要做的其实是一些最基础的能力。因此,达摩院对于视频AI的能力分为了三个部分,即智能理解、智能生产和智能分发。智能理解包括对于人、物以及自然和行为的识别和自动分类;智能生产包括智能拆条、智能缩略图、以及智能配乐等;而智能分发则包括了智能检索、版权溯源等。
图片1.png

视频技术-多模态视频理解助力精确检索和高效运营

前面提到,视频天生就是多模态的,而对于多模态数据的理解过程中就天然地会用到一些底层技术,比如对于视频的语音识别,通过OCR支持字幕识别,以及UGC识别等来综合地识别视频中的结构化信息。目前,达摩院的视频标签是比较通用化的,并且还在不断增加,如果有一些比较大的场景还可以和合作伙伴一起构建更多的视频标签。
图片2.png

达摩院机器智能多媒体AI产品2.0版本能够实现3到6倍速的视频处理速度,一个小时的视频最快能够在10分钟之内处理完成,并且能够将视频中的人物、建筑物、文字全部识别出来。在达摩院机器智能多媒体AI产品的后续优化中,会对于人脸的识别做一次大的提升,对于人脸识别的精度以及敏感人物的范围和库进行提升。

视频技术-视频指纹

所谓视频指纹,所想要做的就是基于对于一段视频的结构化理解来决定如何使用,比如在版权保护中判断两段视频是否相同,或者视频如果被分发到线下的广告中是否能够追踪到。实现视频指纹之后,即使视频的质量、空域发生变化,或者视频发生了拼接或者修改,仍然能够对于这段视频进行溯源。
图片3.png

视频技术-视频生成,封面、GIF、摘要、拆条、集锦

基于对于视频的结构化理解,达摩院机器智能多媒体AI产品就能够实现更多的视频应用,比如视频生成,封面、GIF、摘要、拆条、集锦等。目前,达摩院机器智能多媒体AI产品在线上比较重要的能力就是封面和GIF的生成技术,目前有很多厂商已经应用了。未来,达摩院机器智能多媒体AI产品将会在线上推出场景拆条和体育类集锦功能。并且继续优化封面和GIF能力,做到基于场景级别的静态、动态封面的生成。同时根据视频内容质量的抽取以及前端分发的质量度量,结合智能决策,对生成内容进行最优化前端触发。阿里在优酷的场景里面做了一些实验,帮助优酷将CTR提升了15%。
图片4.png

应用案例

目前,达摩院机器智能多媒体AI产品现在正在和央视进行合作,在央视的媒资库里面会做一些视频结构化的应用。简单而言,第一点就是素材结构化生成,第二点就是在媒资库中进行检索,第三点就是根据一些片段找到与国家领导人相关的片段并展示出来。
图片5.png

相关文章
|
2天前
|
人工智能 运维 监控
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
47 8
|
2天前
|
存储 人工智能 监控
如何用RAG增强的动态能力与大模型结合打造企业AI产品?
客户的问题往往涉及最新的政策变化、复杂的业务规则,数据量越来越多,而大模型对这些私有知识和上下文信息的理解总是差强人意。
24 2
|
6天前
|
人工智能 边缘计算 搜索推荐
AI产品测试学习路径全解析:从业务场景到代码实践
本文深入解析AI测试的核心技能与学习路径,涵盖业务理解、模型指标计算与性能测试三大阶段,助力掌握分类、推荐系统、计算机视觉等多场景测试方法,提升AI产品质量保障能力。
|
6天前
|
人工智能 机器人 新能源
深化新工科建设 共探智能新未来 | 阿里云支持南京大学苏州校区“AI DAY”盛大启幕丨云工开物
9月12日,南京大学苏州校区举办“AI新视界:深化新工科建设进行式”活动,采用教师与学生双专场模式,通过主题分享、实践演练、产业课题发布等形式,搭建产教融合AI交流平台,助力未来产业科技人才培养。
|
6天前
|
传感器 人工智能 边缘计算
智能就在身边:AI如何优化边缘计算
智能就在身边:AI如何优化边缘计算
61 2
|
6天前
|
机器学习/深度学习 人工智能 运维
运维告警别乱飞了!AI智能报警案例解析
运维告警别乱飞了!AI智能报警案例解析
56 0
|
15天前
|
人工智能 自然语言处理 测试技术
AI测试平台的用例管理实践:写得清晰,管得高效,执行更智能
在测试过程中,用例分散、步骤模糊、回归测试效率低等问题常困扰团队。霍格沃兹测试开发学社推出的AI测试平台,打通“用例编写—集中管理—智能执行”全流程,提升测试效率与覆盖率。平台支持标准化用例编写、统一管理操作及智能执行,助力测试团队高效协作,释放更多精力优化测试策略。目前平台已开放内测,欢迎试用体验!
|
人工智能 弹性计算 安全
创新场景丨元空智能:AI 工具创业,如何抓住新时代的出海机遇
大模型创业的本质是兑现新技术价值,而乘云出海,不仅是技术的输出,更是中国创新走向世界的一次实践。
|
15天前
|
人工智能 安全 Devops
AI 驱动的 DevOps:通过智能命令执行实现基础设施自动化
本文探讨了如何利用能够根据自然语言提示执行命令、管理基础设施和自动部署的 AI 技术,来革新 DevOps 流程。通过模型上下文协议(MCP),AI 助手不仅能回答问题,还能直接操作终端、编辑文件并管理开发环境,从而简化复杂的 DevOps 任务,提高效率并降低错误率。
132 3
|
17天前
|
存储 人工智能 监控
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作
如今的量化交易已远超传统技术指标,迈向多智能体协作的新时代。本文介绍了一个基于 **LangGraph** 构建的多智能体交易系统,模拟真实投资机构的运作流程:数据分析师收集市场情报,研究员展开多空辩论,交易员制定策略,风险团队多角度评估,最终由投资组合经理做出决策。系统具备记忆学习能力,通过每次交易积累经验,持续优化决策质量。
118 8
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作

热门文章

最新文章