MIT联手IBM发布超大数据集:100多万短视频,多维度标注-阿里云开发者社区

开发者社区> 行者武松> 正文

MIT联手IBM发布超大数据集:100多万短视频,多维度标注

简介:
+关注继续查看
本文来自AI新媒体量子位(QbitAI)

除了CV、NLP、无人驾驶,AI的下一个热门方向是什么?

视频行为理解。

现在,对于AI来说,识别静态图片里的动物是喵还是汪已经是小case。但是,要AI判断出猫是在是坐在扫地机器人上满屋晃,还是在厨房里追着狗打还是挺困难的。

前者属于CV最早期研究的课题,而攻克了物体分类识别的问题后,越来越多的研究焦点聚在了视频理解上。不过,视频理解课题目前最大的难点在于,能用来训练视频里行为理解的数据集太少了。一个原因是人工标注特别费劲,二是对内存和计算能力要求太高

针对这个难题,12月初,MIT和IBM联手发布了一个超大型的视频数据集平台,Moments in Time Dataset(http://moments.csail.mit.edu/),上面有超过100万个已经多维度标注的短视频。标注的运动对象除了人类,还有动物、物体。

虽然在数据量上,稍微比谷歌去年发布的YouTube-8M Dataset(https://research.google.com/youtube8m/,内有800万个标注的视频)差点儿,但是**在丰富度上,Moments in Time完胜。**

因为Moments in Time的每个视频数据的长度只有3秒,而油管8M的是120秒到500秒。视频长度更细致地划分,提高了行为解读的颗粒度。还能有效降低对内存和计算能力的要求。


 3秒视频标注示例

为什么是3秒?

之所以把视频长度定成3秒,是考虑到匹配我们人类的工作记忆的时长。工作记忆,相当于我们对视觉信息,尤其是动态信息的储存时间,一般是3秒。

大部分时候,我们人需要3秒时间,去观察并理解任一物体的动作意图,像是风在吹所以树在动,或一个物体从桌上掉落下来了,或和别人打招呼,捡起一个东西,和别人握手等。

如果时间跨度更长的话,行为更可能是简单动作的叠加,其背后有更复杂的含义。

比如一个人刚捡起来一样东西,然后拿着就快速地走,这样的行为可以被解读成偷东西,也可以是送快递。这还需要结合行为发生时的场景等其他信息。

不过在解读复杂行为之前,我们需要先把单一的动作标注清楚,捡东西-携带/搬运-跑。单一动作的正确标注,对视频理解技术来说,是非常关键和基础的一步工作。

视频理解有什么用?

“如果你想理解这个世界发生了什么事情,我们必须得理解行为,解读出动作背后的意义。而动作的信息量比静态图片的要大的多,所以从众多的视频中读取出行为的含义,简单说,就是视频行为理解,是我们现在很重视的研究方向。”参与了Moments in Time数据集平台项目的MIT首席视觉科学家Aude Oliva说。

Aude Oliva教授的研究方向是人机感知和意识方向,研究方法横跨了三个学科:神经生物学、心理学、计算机视觉。对这方面课题感兴趣的童鞋可以去看看她的主页,http://cvcl.mit.edu/Aude.htm。

拿大家听得最多的无人驾驶来说,这个技术只靠识别周围环境有什么物体是远远不够的,还必须及时判断行车环境中所有移动物体的运动方向速度和意图,来及时作出安全且合适的响应。

如果大家对Moments in Time Dataset怎么解决视频理解数据集标注的问题感兴趣,可以去翻翻他们的论文,里面有详细讨论标注词的筛选过程,以及标注维度的选择依据(声音、场景、物体)等核心问题。

最后,甩各种链接

Moments in Time Dataset根据地

http://moments.csail.mit.edu/

辣篇论文:

http://moments.csail.mit.edu/data/moments_paper.pdf

参考文章:

The Next Big Step for AI? Understanding Video

http://t.cn/RYeDNTa

Teaching Video Comprehension to AI, One Million Moments at a Time
http://t.cn/RYk6XK5

IBM Research showcases AI advances @ NIPS 2017
http://t.cn/RY1CFv5

本文作者:Root 
原文发布时间:2017-12-08

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
16 个免费和收费的视频、多媒体 WordPress 主题
免费 Free Podcasting, Video and Photography WordPress Theme Selecta WordPress Theme Video Cinematic Free WordPress Theme 收费 Reach – Busine...
521 0
MIT科技评论:阿里是大数据Game Changer
文章围绕阿里巴巴人工智能和云计算进行了大篇幅报道
886 0
大数据技术对于视频监控有什么帮助
大数据 ,IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
756 0
+关注
行者武松
杀人者,打虎武松也。
17142
文章
2569
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载