开发者社区> 行者武松> 正文

中国人工智能学会通讯——计算机视觉:下一步是什么?

简介:
+关注继续查看

image

我讲之前先讲一点题外话,因为周曦讲的比较有意思,而且我们都是所谓的黄家军(黄教授的子弟)。我以前在柯达做了15年的R&D,虽不像周曦说的那么惨烈,但是也很惨烈。我在柯达时,当时头号敌人是富士。讲一个故事,有一段时间,柯达认识到洗印照片中自动去除红眼,有人听到富士要做了,那我们就要做,我们说要干掉80%的红眼。因为柯达是数字洗印,但是时间有限,每天处理不知道多少百万张的照片。当时大家花了很大的力气才达到精度和速度的要求。大公司之间打还好一点。你知道美国什么食品是最便宜?中餐,因为中国人打价钱战是最厉害的。

我现在想说的正题是,从研究的角度来讲计算机视觉下一步是什么问题。人工智能经过了大起大落,有第一个冬天、第二个冬天,现在大家觉得是好日子。什么是Computer Vision。Computer Vision很长时间干不了什么实事,我在Computer Vision这个领域也干了20多年了,ComputerVision开始时就是只有一个图,能把这一个图搞转了就很厉害。我在柯达时(应该是最早的几个地方),开始研究真实的图片。柯达给大家洗印照片的,所以有很多真实世界的照片。后来又开创了真实世界视频的处理,我们是第一家做真实世界视频里的行为识别。之前的工作都是找两个学生表演一下。你到真实世界数据是有很多问题的,这个事情我不用多讲,到了真实世界有各种各样的问题。

这次人工智能大会很多话已经说过了。计算机视觉就是想从图像中获取有用的信息。黄教授是计算机视觉之父,有别的一派人说David Marr是计算机视觉之父。这里随便讲几个例子,从这些图像中获取有用的信息,现在大家觉得不稀罕,可在2000年时是不可想象的,那时连人脸检测都做不好,所以我们这个领域有很大的进步。2015年时就有几项比较轰动的工作,第一项工作是汤晓鸥教授组做的工作,他们号称是第一次计算机超过了人类,这个不是人脸识别,是人脸鉴别,达到了99.5%。第二个就是ImageNet,孙剑他们用ResNet 151层,取得误差小于5%。这些东西现在大家听到更多了,可能有人有这样的想法,好像计算机视觉已经没有什么可玩的。其实像金老师说的文字识别,这个时间搞的更长,现在还有很多的问题,这些99.5%的算法拿到实战中去又是另外一回事。

计算机视觉需要考虑下一步,这次大会也有讨论,现在很火热,但是寒冬来了怎么办?不能等到寒冬来了才去想对策,狗熊怎么对付寒冬?先吃胖了就能熬过寒冬。作为一个研究者,你应该想一想,不要等到寒冬来了才想我是不是能找到工作、是不是应该转行,而是现在就应该想,下面要去干什么。Vision+X,这个X不是一个东西,是很多的东西。我在讲Vision+X之前,我先讲一下Vision有什么发展,我着重讲一下视频分析。这是我前面提到过的工作,2009年CVPR我们第一次用真实的视频进行行为检测。开始,我们花了很多精力,网站上有很多视频,但是很多是不能用的。开始有11类行为,现在已经有101类了。搞视频的都知道,开始是UCF11,现在是UCF101。另外一个工作是一年以后在CVPR2010,我们一个工作得了Best Student Paper。这个工作验证了一个观点,现在习惯监督学习在视频分析下更是一个问题,你看一个视频是什么概念,整个视频看完了才能标,这个工作量很大。当时做这件事,我不想做这个视频标定,但我需要足够的样本才能学习。我去Youtube网站,可是你要心里清楚这些用户提供的标签是不能相信的,因为搜索Youtube时是用关键字,有人为了骗点击率可以乱放一个关键字。一个例子是《星球大战》,你搜索这个关键字,很多不相干的视频都会弹出来。现在这个问题还是存在的。迁移学习从视频分析的角度那时我们就提出来了,具体的我就不讲了。

刚才提到《星球大战》,用户的标记是不可信的,我们怎么解决这个问题?当你用关键字搜索时,我知道你大概想要什么东西。这个叫做DBPedia的知识库,比如想找Tiger Woods时,跟什么有关,跟美国公开赛和英国公开赛有关,我可以去DBPedia获取一些个视觉上的表现,比如说高尔夫的场景是什么样。这时你就可以把前面从网络上搜到的有关的视觉信息,拿去和视频里的视觉信息对比、验证。我们解决计算机视觉的问题,最终是想解决认知的问题,就是描述图像视频这些东西。那我先做分类,我知道行为怎么识别,现在我引进感知互相之间的关系,就一步一步向认知过渡。

现在做video有很多的手段,你有整个video、一段video、一个frame,这是我们去年的工作。我们提了一个MultiGranularity的概念。因为有了动作识别,我们有了更好的基础,这时我们要干什么?是去做更高层的理解。这是什么过程?这就牵扯到现在计算机视觉领域或者自然语言理解领域,两边都往这个方向走,这个方向就是视觉+语言。这个工作为什么有意思?这是在AAAI/IJCAI发表的文章。假如说你有一个video,video里做了一件事情,这个人做了化学实验。化学实验,你要混合,有搅拌,它有一个过程,你先把标签做好,加入500毫升什么溶液,再把什么东西放进来。我们想达到一个什么目的?我们想知道在这一步、在video的什么地方出现,或者你看见这个video走到这一步时是在干什么。这件事不是全新的问题,很多人做类似的问题。比如分析炒菜的video,也有这个问题,你做西红柿炒鸡蛋,一般人做这个事情是做了识别的问题,很多人做西红柿炒鸡蛋,最后把西红柿认出来、鸡蛋认出来、怎么切认出来,这样再去做,这个没有什么稀罕。我们这个问题为什么难?我是想在从来不知道怎么做这件事的情况下,知道这个video是做这件事,我就能把它弄出来,把步骤和视频里的操作搞清楚。我没有训练过,所以这是个无监督学习。人工智能大部分时间是有监督学习,有监督学习是有限的。人很多时候是无监督学习,我不需要看100个西红柿炒鸡蛋的视频才能学会炒鸡蛋。当你描述时,这里面有很多的名词,看完这个描述就知道这里应该出现多少个物体;看到有很多动词,就知道这里面有多少个动作。你还知道每个步骤是这样发生的,所以它一定有一个顺序,这些是我们唯一可以有的信息。这里有一个示意图,我不知道这是什么药罐子,可能另外一边有水,我现在通过对整个视频的观察,我就能知道哪个是那个东西,你现在干什么事,这个我具体不讲。

下一个例子,这个例子是我们做Image/video Captioning。我们做的是什么事情?在我们做时,多伦多大学已经提出了attention概念,可以把注意力这个概念引入到这类的问题里。比如你看到这个图,你的注意力应该在这个物体上面。我们认为你在写一个句子时,里面的每一个词注意力是不一样的。这个注意力我不一定从这里学,我可以找一个语文课本学人怎么说话。我把这个学好以后,不管是视觉上还是语义上的注意力都放到一起。结果发现我们刷了一次榜,就刷了第一,并在第一的位子上坐了5个月。周曦说了一句有意思的话,技术领先是不可靠的。因为我们没想到呆了那么久,后来别人就赶超了。如果有周曦他们那样的精神,超过不是问题。谷歌有这么多牛人,超过也不是问题。

我们这几年还做了一个东西是情感计算。这也不是全新的东西,但这是图像情感计算。你可能觉得不新,黄教授的团队,研究过根据表情来的情感。我这里说的图像情感计算是泛泛的图像,随便拿一个图,只要能引起情感就可以推测出。我们大概是2012年开始做的。我们做这个方向,后来被别人注意到了,这是(沈向阳)微软的“政治局常委”之一。他提到了我们做的工作,我们开始是不用深度学习做的,因为没有足够的大数据。后来想了一个花招来做深度学习。其实我们也不是最早做图像情感计算的,最早是荷兰人做了一个图像情感计算。情感计算最开始时是做二值的,正能量、负能量就可以了。他们系统的精确度是51%,等于系统什么也没有干。我们用了visualattributes,达到了61%。同时哥伦比亚大学发明了SentiBank,从1 200个ANP检测器再到情感,也达到61%。注意我们只用了20来个visual attributes。要做图像情感的深度学习,因为情感很丰富,怎么也需要100万张照片,而且要有情感标定。如果用人来标,我们算了一下,需要好几万美元。怎么办?就拿这61%分类器去标定100万张图,那就可以做深度学习了吧。不要高兴太早,这个是要打折扣的,也就是每3个样本就有一个错的,而且不知道哪个是错的。先不管了,塞进去一搞就到71%。你再用71%分类器再标一遍,如果有一个方法把差劲的丢掉,好的留下来,这就是我们的想法,Progressive CNN。怎么知道这个算法有多少是对的?用算法自己的置信度。唯一的问题就是,你是用不可靠的数据训练来的,我们只能拿这个置信度作为一个概率的东西。再搞几次就到了78%。终极的目的是在社交媒体中得到应用。社交媒体中的文字是非正式文字,很短,是做不好的。我们现在用图文一起做情感识别,当然你把两个放在一起就会做的更好,这是我们第一个版本,后来有新的版本。怎么样把多模态的信息,包括视觉信息做分析。刚开始情感是二值的,正、负的。根据心理学来说有24种情感,但不是独立的情感,是3×8。这个工作的意义是什么?在我们做这个工作之前是没有足够大的数据集的。我们最后花了几千美元,保证每一种情感有几千个样本。正确率达到60%,听着不怎么样,实际也不低了。这个东西比你瞎猜好5倍。后来还没有很多文章跟进,也说明问题的难度。情感还是一个比较有意思的问题,情感计算是未来人工智能的一个方向。

我们后来的版本引进了Attention。我们现在做很多社交媒体的东西,一个是有关用户的东西;一个是有关情感的东西。有关用户的东西,最近做了一个工作。我可以把微信朋友圈里的信息全部拿下来,这是很“严重”的,因为微信是不让你拿的;但是我们有别的方法拿下来,不说了。我们把它所有的图做了聚类,我们用深度学习的分析,发现人的朋友圈分享的图,实际上可以用一个46维空间表达。我可以把每个人的兴趣爱好变成一个46维向量,这样就对这个用户了解了。现在大家爱发自拍,你是爱发室内的自拍还是室外的自拍,是跟闺蜜的自拍还是独白的自拍,都不一样。最后可以把发自拍的行为和其他的朋友圈分享的图片关联起来,这个我没有时间讲了。

最后讲一个例子,大家要注意到,我讲了半天有人觉得都不是计算机视觉。但我绝对是在讲计算机视觉。这是什么问题,这是分析时装,用淘宝的数据。我知道淘宝的数据,就知道哪一个服装很畅销。但是服装商和运营商最想知道的事情,这个为什么畅销。我可以用计算机视觉的方法,把每个服装的构成,什么颜色、什么花案、什么式样分析出来;然后和它的销售额挂钩,畅销的衣服,不畅销的衣服,你马上发现这件畅销的衣服是领口让人喜爱,还是别的特点。这样服装商就会心里有数,让零售商多进一些这样的衣服。现在大家都喜欢说落地,你要落到钱眼里了就是落地了。

我们对用户画像,不仅是知道他的性格、行为,知道他的健康状况,知道他的幸福程度,最终的目的想给用户一个立体画像。这些事情都可以做,而且很大程度上是从视觉信息得到的。我们不仅可以用这样的方法研究一个人,还可以拿这个研究社会。社会的脉搏是哪些?就是这些——公共卫生、舆情,什么流行不流行,交通怎么样,有没有人闹事。医学是一个重大的方向。医疗的图像、医疗的视频也是一个可以发展的领域。

最后,我想说社交媒体可以干什么?我们做了很多事情,研究一些不良习惯。比如在美国青少年酗酒是个问题、用毒品是一个问题、抑郁症是一个问题,这些问题实际上你观察一个人的社交媒体上的表现,都是能够读出来的。这是我们做了一系列的工作。我顺便替FACE++做一个广告,我把他的脸一拿过来就知道是老人还是年轻人,我读准了就知道他的性别,美国有种性的人,黑人、白人、亚洲人等。我们还做有关营养的,分析食品的构造,因为美国人有很多的垃圾食品,吃了垃圾食品自己变得“垃圾”(说的太严重了哈)。我们想通过食物的情况了解他吃了什么东西,对他提一些建议,这个事情正在做。

计算机视觉下一步是什么?计算机视觉的下一步,就是不要停留在计算机视觉里,而是拿计算机视觉作为一个起点,去解决AI的问题。因为计算机视觉本来就是AI一部分,而且是感知的部分,不是认知的部分。这个X是什么?可以加自然语言理解,可以加知识,人有各种知识,别的地方的知识可以拿过来。可以和文字结合,和语音也可以结合,和情绪可以结合。具体的应用,与医疗健康、社交媒体、人机交互,这都是可以结合的。

苏东坡有一句话,“也无风雨也无晴”。你最好是比人想的前一步,你管它是冬天还是春天,不是晴天还是下雨,你都知道有一个方向去努力。我就把苏东坡这句话送给大家。

(本报告根据速记整理)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
案例酷 | “你是什么垃圾?”瀚蓝环境把人工智能装进了垃圾焚烧炉
随着我国经济快速发展和城市人口不断增长,以及新型的城镇化建设,我们的城市每天会产生大量的生活垃圾,这些生活垃圾的处理方式主要有两种,一种是卫生垃圾填埋,还有一种是垃圾焚烧发电。当大量的城市生活垃圾送到卫生垃圾填埋场以后,其中的有机质完全降解需要20年到30年的时间,而塑料上百年也无法降解。所以现在垃圾填埋不再作为主流的垃圾处理方式,现在主流的垃圾处理方式是垃圾焚烧发电。
204 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
18788 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
25130 0
国内人机交互专家齐聚CCF-ADL,从触觉交互到认知行为智能计算你想知道的都在这儿
喻纯是清华大学计算机系副研究员,现任CCF人机交互专委会委员。他的研究课题主要为人机交互自然性的计算原理和优化方法。
1101 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
20505 0
《中国人工智能学会通讯》——7.8 什么是机器阅读理解
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第7章,第7.8节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1489 0
【收藏】2018年不容错过的20大人工智能/机器学习/计算机视觉等顶会时间表
计算机科学,尤其是人工智能领域相比其他学科更重视会议,最新、最重要的工作往往先发表在相关顶会上。本文介绍了2018年值得关注的20个顶会,包括人工智能、机器学习、计算机视觉、自然语言处理、体系结构等领域。
7640 0
+关注
行者武松
杀人者,打虎武松也。
17142
文章
2569
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载