演讲实录丨华刚 计算机视觉的黄金时代:机遇与挑战

简介: 计算机视觉的黄金时代:机遇与挑战 华刚 微软亚洲研究院视觉计算组组长、资深计算机视觉专家 华刚:大家下午好!今天报告题目是计算视觉的黄金时代,机遇与挑战。如果我们看到这个题目,关键字有几个,第一个是计算机视觉,第二个黄金时代,第三个第四个机遇挑战。

计算机视觉的黄金时代:机遇与挑战

华刚

微软亚洲研究院视觉计算组组长、资深计算机视觉专家


华刚:大家下午好!今天报告题目是计算视觉的黄金时代,机遇与挑战。如果我们看到这个题目,关键字有几个,第一个是计算机视觉,第二个黄金时代,第三个第四个机遇挑战。


    基于这四个关键字给大家讲讲我的理解和看法。什么是计算机视觉?学术的观点定义领域的话,计算机视觉我们从图象和视频中间提取数值和符号计算机系统。我们说一个愿景能让计算机像人类一样看到并理解图象,我们认为是一个黄金时代回顾一下计算机视觉真正发展的历史。基本上来讲计算机视觉历史第一个萌芽阶段,1955年到1979年的时间,这个领域还是相对比较新的领域。在55年我们对于计算机视觉提出一个展望,在MIT一个暑期人工智能会议上。我们在三四个月内能不能把计算机视觉工作解决了,直到今天还没有完全解决。中间经历了很多发展,在70年代麻省理工真正成立研究小组,开设第一门计算机视觉课程。


    从今天来讲,我们看到会是非常简单一个图片,是一些像块状的物体,这是MIT第一篇博士论文。称之为萌芽阶段,大家处于一种探索状态,这个领域怎么走?早期期望说三个月把这个问题解决,甚至40年之后我们仍然没有把这个问题解决。计算机视觉真正发展一个非常坚持的基础,应该是从21世纪到80年代的时间,这中间发生很多时间,在80年代初光学支付(音译)识别系统,应用于商业应用邮局。美国邮局大家利用信件交流方式很多,包括公司各种商业应用,涉及到邮件分检的问题。


    这中间发生了几个里程碑事件,包括三维视觉的理论体系基本完备了。到90年代初人脸和语音识别,统计学识别方法已经引入到计算机视觉上了。计算机视觉真正爆发时间,我认为从21世纪10年代中,涉及到几个方面的因素。第一个我们进入互联网时代,对于图象数据积累,以及我们对硬件技术的发展,我们对摄像机前端这种硬件设备技术也是在日益增进,包括微软代表3D设想传感器带来的新的实际应用。


    如果要从这三个阶段中找一个比较代表性的节点,我认为在爆发阶段是深度学习模型,它为什么会对计算机视觉带来本质上的影响和变化。我们更广泛看计算机视觉应用的话,在这些年产生非常广泛的应用,包括三维图象的建模,包括监控,以及人机交互产生非常大的影响。为什么处在计算机视觉黄金时代?我认为是一个更多的工作,CVPR是我们计算机视觉的联会。当我自己还是一个博士生的时候,去参加CVPR,只有两家公司招聘,一家公司(桑娜福音译),一个是西门子。到2016年的时候,有一个网站上千条的工作信息,我们真正这个技术开始进入产业界。


    这个CVPR有更多人参与到这个年会,CVPR今年年会已经到3500人参加这个会议,5年前就是1000人左右。最重要我们有更多资金注入进来,现在博士毕业生很轻易拿到一个100万的年薪工作,今年CVPR将近100家公司占驻这个CVPR,我们看到越来越多的资金流向这个领域。我自己作为CVPR  主办成员之一,我们在会场设计上我们希望会达到5000人的规模。


    这里一个朋友,讲的一句话,在他36年的从事计算机视觉研究一个经历中间,从来没有看到我们这个领域像现在这么好过,他说我们在计算机视觉第一个黄金时代,以前没有过。他自己现在也在亚马逊作为一个保密状态工作,在帮亚马逊做一些事情。黄金时代我们实际上有一些什么样的机遇?为什么这个阶段产生爆发性的状态。


    前面两位老师提到一些,我们拥有了更多数据从各个方面来的。第二个方面,刚才山老师提到我们计算机视觉很多方法,可能在2、30年前被学习过,当时计算能力还不够。第三个就是深度学习模型,在微软研究院同事做的传感网络,已经做到1001层,在7、8年前不可想象。下面我就展示一下微软研究院在这个阶段我们一些小小的成果。


    我们微软认知服务,我们已经在上面发布了非常多的算法API,包括计算机视觉方面、语音方面、自然语言处理方面包括知识库方面,还有搜索库方面。人脸识别方面API,我们在两年以前人脸识别API已经有非常有成功的。Windows  hello。我们最近另外一个工作,怎么在图象和风格之间做转换,左边这个是所谓风格的图,右边是所谓内容图,我们这个应用算法一个目的,我怎么能够把右边这张图渲染成左边图的风格,实际上我们有一些最新基于深度学习一个方法,我们真正试图去理解怎么描述这种图象的风格。


    这里给看到更多的结果,当固定内容图的时候,我们可以把它渲染成不同的风格,用同一个网络。我们说计算机视觉黄金时代机遇在什么地方?我参加他80岁生日一个论坛,非常好的朋友也算他的学生,马里兰一个大学教授,他就讲一个观点,因为我们讲计算机视觉带来的影响?第一个观点,深度学习模型就像一个和面机一样,你把很多东西放进去它出来非常好吃的东西。它是一个非常好的东西,我们要利用好它。它是一个让众生变的平等的东西。我雇了两个高中生,编程能力很强,在计算机视觉方面很低,不管你有一年的经验,还是多年经验,让它飞固然是好的模型。因为涉及到很多观点,媒体朋友不要随便转载这些观点,让大家有一个体会。


    涉及到黄金时代机遇什么?实际上把这个技术门槛降低不少,现在很多人不需要经过10年的训练能去做一些计算机视觉应用,或者是技术。所以我认为这实际上是产业界一个机遇。产业界很少有人去愿意走40步的。实际上从产学研角度来讲,这个学界应该还是更多去开创一些新的研究领域,能够做一些更好的事情。


    黄金时代另外一个机遇就是创业、创业,我们很多老师已经创业了,像山老师,像朱珑一直学术方面走的比较多的意图,当我看到山老师公司的时候,是一个中英文混合体,山老师到底是看他还是看他,我不太明白。一个是人脸识别,一个是自动驾驶,人脸识别目前离实际应用最近一个,而且各个方面产生实际应用也是非常好的过程。我们遇到挑战什么?其实这么多年计算机视觉一直试图大家问自己一个问题,什么是计算机视觉杀手级应用?它是人脸识别吗?还是安防监控,还是辅助医疗图象诊断,我想大家没有回答,更多是摸索和探索。至于自动驾驶,我们还是保守推动这个行业,不要寒冬。我们还要小心谨慎一样,不要让杀手级应用真正变成杀手应用。


    另一方面,这个问题不仅在中国存在,其实在美国很多大学里面教授,做计算机视觉方面很多进了公司,或者自己出来创业。大家问一个问题,这些教授创业和进了产业界,谁来培养下一代的学生,这个问题值得思考。


    最后自己关于计算机视觉思考,这三个方面。第一个方面,为什么深度学习对计算机视觉好用?实际上大家如果在计算机视觉领域,计算机视觉本质是解不适定的问题。第二个深度学习本质上提供了用前馈的模型解反问题的框架。这是一个非常在高层面上一个理解的解释,本质上解这种不好的反问题的时候,我们有了反问题的框架。我自己对整体上的方法非常欣赏,但是自己还有一些领域的知识放在里面。


    第二个,计算机视觉发展到今天,40年前从人工智能科学研究共同体分离出来有一个原因,40年前人工智能,包括语音识别,包括计算机视觉技术没有成熟。2010年计算机视觉、自然语言处理,语音识别这些技术发展到一定程度,天下大势,分久必合,合久必分,大家思考一个问题,最终人工智能方面技术我们怎么能够集合到一起,为综合人工智能系统服务。


    最后讲,计算机视觉产学研一个互动。这个问题很简单,本质上认为所谓互动三个要素一个流通,研究人员、资金和技术,这个方面做的比较好,大家可以关注一下微软亚洲研究院博士生和学生培养的工作,我们计算科学的研究十几年历史,跟各个高校联合博士培养一个项目,这个学校的学生可以在我们研究院做五年的学习,拿到博士学位。包括给学校提供资金上的支持,在座有很多出来创业或者是产业界,还是想我们在人工智能产业上我们从中得到一些东西,还想到回馈给这个领域。谢谢大家!

本文来源于"中国人工智能学会",原文发表时间" 2016-10-26 "

相关文章
|
8月前
|
机器学习/深度学习 Web App开发 人工智能
领航未来,探索AI无尽前沿:2023年WAIC云帆奖得主揭晓
领航未来,探索AI无尽前沿:2023年WAIC云帆奖得主揭晓
464 0
|
机器学习/深度学习 人工智能 自然语言处理
探寻人工智能前沿 迎接AIGC时代——CSIG企业行(附一些好玩的创新点)
上周我有幸参加了由中国图像图形学会和合合信息共同举办的CSIG企业行活动。 这次活动邀请了多位来自图像描述与视觉问答、图文公式识别、自然语言处理、生成式视觉等领域的学者,他们分享了各自的研究成果和经验,并与现场观众进行了深入的交流和探讨。干货多多,感悟多多,在这里分享此次的收获给大家。
|
机器学习/深度学习 存储 人工智能
制造业的AI之心,生态之力
制造业的AI之心,生态之力
制造业的AI之心,生态之力
|
机器学习/深度学习 人工智能 自然语言处理
机器之心GMIS 2017圆满闭幕,全面解读前沿研究、产业落地及AI全球化
5 月 28 日,机器之心主办的第一届全球人工智能峰会(GMIS 2017)顺利闭幕。在为期两天的大会中,许多学界和业界的重量级嘉宾在 GMIS 的舞台上分享了机器学习的前沿进展、交叉学科的新奇思想、人工智能的炫酷应用以及机器智能时代的创业经验。在第一天,有「LSTM 之父」之称的 Dalle Molle 人工智能研究所副主任 Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋等嘉宾为我们带来了干货十足的头脑风暴和前沿解读。
117 0
机器之心GMIS 2017圆满闭幕,全面解读前沿研究、产业落地及AI全球化
|
人工智能 达摩院 算法
AI公开课:19.05.15施尧耘-达摩院量子实验室主任《量子计算:前景与挑战》课堂笔记以及个人感悟
AI公开课:19.05.15施尧耘-达摩院量子实验室主任《量子计算:前景与挑战》课堂笔记以及个人感悟
|
机器学习/深度学习 人工智能 达摩院
十余位权威专家深度解读,达摩院2019十大科技趋势点燃科技热情
2019年的第一个工作日,阿里巴巴达摩院重磅发布了2019十大科技趋势,引发社会各界对未来科技的讨论和向往。
3395 0
|
人工智能 自然语言处理 数据可视化
人工智能,人类进化的必由之路 - 阿里云 MVP 吴天重专访
对于人工智能,我认为我们每个人都应该做好这种准备,拥抱这个结果,并坦然的接受人类的终极进化。
2026 0
|
人工智能 算法
毕啸南专栏 | 对话旷视CEO印奇:AI产业2018年将迎来转折
本文来自AI新媒体量子位(QbitAI) 印奇累得病倒了。 在接受我们采访之前的这几天,印奇每天都只睡了三四个小时。到了采访当天的早上,他的身体终于支持不住,发起了高烧。原定十点的录制,被迫推迟到下午两点半。
1054 0