阿里用AI为视频加标签做分类 准确率87.41%夺LSVC 2017冠军

简介:

近日,大规模视频分类比赛ACM MM LSVC公布了本年度最佳成绩,阿里巴巴iDST团队凭借平均准确率87.41%夺得冠军。

阿里用AI为视频加标签做分类  准确率87.41%夺LSVC 2017冠军

ACM MM是全球顶级的机器视觉会议,LSVC作为ACM MM的重要一部分,全称为Large-Scale Video Classification Challenge,主要考验参赛队伍在大规模视频分类算法方面的能力。

比赛数据集包含了来自Youtube的大约16万的视频,一共8000个小时。需要参赛队伍对视频中的500类内容做出识别,包含社会事件(如:橄榄球比赛)、物体(如:熊猫)、场景(如海滩)、动作(如:制作蛋糕)。

视频分类算法涉及到非常多的技术,包括视频帧特征提取(frame feature extraction)、视频帧特征集成(frame feature aggregation)、多模态的视频信息提取(视频画面、语音、物体运动、场景等模态)等方面。

 

阿里用AI为视频加标签做分类  准确率87.41%夺LSVC 2017冠军

iDST官网上的“视频标签预测”DEMO

阿里巴巴iDST团队采用了inception-resnet-v2 和 Squeeze-and-Excitation Networks 对视频帧特征进行提取,并且采用NetVLAD对提取到的视频帧特征进行集成。结合多模态信息的融合之后,单模型在验证集上的平均准确率达到了84.85%,融合多模型达到87.41%。

此外,大规模的视频处理能力也是比赛考验的重要方面。阿里巴巴iDST拥有一个强大的视频分析平台,可处理来自优酷土豆的百万量级的视频。这为高效地对LSVC数据集提取特征进行实验提供了帮助。

阿里用AI为视频加标签做分类  准确率87.41%夺LSVC 2017冠军iDST官网上的“目标检测”DEMO

据阿里巴巴iDST视频算法高级专家刘扬介绍,这些视频分析算法目前已应用在包括优酷、土豆、UC、闲鱼等在内的多个业务中,有效改善了用户在视频搜索、推荐、编辑等方面的体验。“我们正在将这样的能力集成到阿里云ET上对外服务”。

作为阿里巴巴对外技术输出的窗口,阿里云目前提供了从计算能力、开发框架、基础AI能力到行业全局智能在内的整套服务。

iDST全称Institute of Data Science & Technologies,是阿里巴巴内部的尖端研究机构,专注于AI领域的前沿性研究。由金榕、任小枫、华先胜、司罗等知名科学家领导。在ACM MM中,阿里巴巴亦有三篇论文入选。


原文发布时间为:2017年9月29日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

目录
相关文章
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
41 10
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
61 9
Lumina-Video:上海 AI Lab 开源视频生成框架,动态程度可控,支持多分辨率
Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架,支持高质量视频生成、动态程度控制和多分辨率生成。
95 4
重磅发布的「AI视频通话」如何10分钟就实现?
2024年,OpenAI发布GPT-4o,支持文本、音频和图像的组合输入与输出,使交互更接近自然交流。传统语音助手需经历多阶段处理,容易出现延迟或误解,体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体,实现拟人化交互、精准感知、情绪捕捉等功能,提供高质量、低延时的音视频通话体验。通过简单的部署流程,用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。
一键解锁 AI 动画视频创作,赢好礼
短视频行业的快速增长使得内容创作的速度和质量成为竞争关键。传统动画故事制作复杂且昂贵,限制了创作者对市场热点的快速反应和创新实现。本方案通过 AI 生成剧本和动画,简化创作流程并降低技术门槛,使创作者能高效生产高质量作品,迅速适应市场需求。
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。
164 12
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
375 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。
61 4
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。
233 5
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等