徐立:1200层神经网络夺冠ImageNet,深度学习越深越好?| 新智元 AI 领军人物专访-阿里云开发者社区

开发者社区> 新智元> 正文

徐立:1200层神经网络夺冠ImageNet,深度学习越深越好?| 新智元 AI 领军人物专访

简介:

人工智能领域的创业浪潮中,计算机视觉技术(CV)可以说是一个较为火热的方向,呈遍地开花之势。在这片江湖中,有四家公司特别突出,有 CV 领域的“一桶筐汤” 之称,可以看成是具有巨大潜力的“四小龙”。


其中,“汤”在这里指的就是创建于2014年的商汤科技开发有限公司。其他三家“一”指创立于2016年的依图科技。“桶”指的是2014年的“格灵深瞳”,“筐”指的是成立于2016年的旷世科技(Face++)。这四家公司最新公布的融资都都超过了数千万美元,其中有两家融资额超过1亿美元,有公司已经走到C轮。


2017年1月,新智元启动“寻找AI独角兽”创业大赛,比赛评出了2016年的年度创业家,凭借2016年在融资、技术和商业化应用上的亮眼表现,商汤科技CEO 徐立获得专家评审的一致赞赏,高票当选。在即将于2017年3月27日举办的“2017新智元人工智能创业家颁奖盛典”上,徐立将发表演讲。峰会召开之前,新智元专访徐立,带来关于这位创业者和商谈科技的最新鲜一手消息。


技术高手能做好CEO吗?


徐立本科就读于上海交通大学,博士毕业于香港中文大学。港中大另有计算机视觉领域知名学者汤晓鸥教授。 汤晓鸥教授于 2001 年 7 月在该校建立的香港中文大学多媒体实验室人才济济,培养出了多名在业界极具影响力的人物,比如颜水成、何恺明、林达华等。香港中文大学多媒体实验室的官方网站介绍上写着:“计算机视觉界的黄埔军校”。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy


沉浸于计算机视觉领域多年的徐立在学术研究上的造诣颇高,这从他个人主页上列出的研究成果可以看到。有人在知乎上描述,有一年,徐立曾经在ECCV的前一周产生一个颠覆性的图像去模糊想法,花两天编程实现,最终提交论文,成为被录取的经典论文。

gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAA

徐立在谷歌学术上的论文发表和引用情况


徐立从2015年开始担任商汤科技的CEO,从谷歌学术的数据上来看,此后,他发表论文的数量急剧减少。这是当然,毕竟CEO 的主要工作并不是发论文。


徐立曾在朋友圈发表过一段很有意思的感慨,他在朋友圈中感慨:“回想读博士期间发一两篇CVPR也要挣扎一下,现在公司本科生就能发13篇。”在接受新智元专访时,徐立也提到,现在从公司的角度来看,他们并不鼓励研究员在大会上频繁发论文,这主要是因为会涉及专利申请的提前审核、核心技术泄露等问题。商汤虽然近年来多次在国际顶会上有亮眼的表现,但是徐立说,公司内部没有相关的KPI。


尽管如此,2017年的CVPR——计算机视觉世界顶级会议上,商汤还是有13篇论文被接受,其中涉及语义分割、人脸识别的最新进展。数量并不少。


不过,商汤从创立开始,其依托于学术机构的强大研究能力就是它的一把“利器”,也构成了商汤独特的发展道路。


商汤创立的时候,有很多来自这个“计算机视觉黄埔军校”的技术大牛, 如张伟、孙炜的加入。为商汤的基础技术研发奠定了坚实的基础。在采访中,徐立也提到,港中文实验室直到现在依然是商汤坚实技的术后盾。虽然公司里面很多高管包括他自己都是做技术出身,但是如果长久不做基础技术研究,久而久之技术积累就会被掏空,前沿的基础技术研究还是要沉下心来做,不能特别考虑产业化的东西。

 

徐立说:“目前是产品—工程—研究的3项迭代,公司是把现有的技术工程化,那么下一代的技术和产品谁来负责?产业界解决的是下一个‘产品’,但是基础技术研究解决的是‘下一代产品’。”

 

目前,商汤不仅和港中文实验室合作,现在他们还在把这种合作模式推向浙大、交大等名校。对商汤而言,与高校的这种模式效果明显,让他们得以在一些基础性的课题研究上保持较为深厚的积累。而对于高校来说,能让学生产出更多的研究成果并且直接用到工业界,不失为一个培养人才的捷径。“这是一个双赢的选择”,徐立说。


目前商汤的博士超过60多名。


神经网络做到1200+层,深度学习越深越好? 


深度学习是不是越深越好,神经网络层数越多越好?


理论上来说网络越深表达能力越强,能处理的训练数据也更多,但是训练算法未必支持。徐立表示,他们之前也疑虑“深度对识别准确率的提升有没有助?” 经过一些尝试,发现帮助还是挺大的。


商汤的团队在2016年ImageNet图片分类中做出性能最佳的 1207层深度神经网络,徐立表示这可能是当前在ImageNet上最深的一个网络。

 

2012年,Hinton团队在ImageNet首次使用深度学习完胜其它团队,那时候的神经网络层数只有个位数。在2014年的时候,Google做了22层成为冠军,深度明显提升了。2015年是来自微软的ResNet做到152层。2016年商汤做到1207层,又得到了一个突破。深度每次增加,其表达能力都有一个实质性的突破。

 

不过,随着准确率的提高,深度会不会需要指数级地上升?计算力成本是否会很高?

 

徐立表示实际应用时候所需的计算力成本并不高,最大的挑战还是构造一个大的结构和设计训练算法。如果层数再往上做,例如2000层、3000层,会发现,现在这种架构叠加,并没有带来性能明显提升。这个时候,需要新的架构,在新的架构之上再做深,使得它能够处理更大量的数据。

 

他以人脑的发育过程做类比,人的大脑6岁时候的神经元之间的连接非常的密集。但是,在14岁的时候变稀疏了,这是因为有用的连接会增强,没用的连接会退化,相当于对大脑模型进行了压缩。

 

训练神经网络也是这样,一开始网络连接很密集,但是训练之后,发现有些连接用不上,那就砍掉了,压缩模型;之后再训练,再压缩。最后能形成一个性能不错的小型网络。譬如人脸识别的神经网络,可以压缩800倍。


106个人脸识别标注点的怎么来的


数据是深度神经网络训练的核心之一。在人脸识别领域,通过人工将眉、眼、鼻、嘴等脸部关键位置的轮廓以及脸部轮廓的特征标注出来,然后把已标注的数据喂给神经网络。可以说标注点的数量是数据质量的一个关键指标。


在谈到人脸识别技术时,一般都会问:你们的技术会打多少个点?徐立说,商汤在人脸识别上的标注点的数量有 21点,106点,168点。起初其实业界对大多数个点并没有一个统一的标准,各家都是按照自己的技术发展来进行打点。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

商汤提出的脸部特征106个标注点

 

通常来说,数据中的特征点越多,识别率越准确。106点到底算不算多?

 

在著名的人脸识别人机大战中,险胜“最强大脑”王峰的百度小度,到底用了多少个标注点?根据此前虎嗅的报道,林元庆表示百度将人脸分成 7 个部位,在人脸打 72 个点,让机器自己去学习哪些是重要的特征。


徐立说:“106个标注点并不是一个科学的论证,但是使用实际效果很好,因此106个点渐渐流行起来。”


为了标注这些数据,商汤专门设立了一支300人的人工标注队伍。


识别率高达99%之后,人脸识别技术还面临哪些难点


包括BAT、“一桶筐汤”和云从等很多公司在做人脸识别,不少都称自家的识别率在 99.5%以上,面对这种情况,徐立认为还有很多事情没做好。视觉部分从模拟人眼开始到最后的识别,整个视觉链条非常的长——成像、感知、识别、理解,还有很多具体情况。

 

现在人脸识别应用是在限定的一个场景下。人脸识别在很多场景下,对于准确率的诉求是非常高的,是无止境的。徐立说:“金融领域中哪怕误识率是亿分之一,高频调用下就会有风险,我们的目的就是要把性能进一步提升,把风险降低到可承受范围之内。”

 

此外,一些模型性能再往下要去做不是简单调参再训练。也不是说有很多人做这件事情(人肉搜索参数)就能够完成。关键问题在于算法设计本身的突破,这需要投入做基础研究。


那么,人脸识别中的一个症结——双胞胎如何识别呢?


徐立说,深度学习现在能够在一定领域上超越普通人,一个发展方向是找到算法边界,比如确定什么事情是目前模型做不到的。如果去问研究人员,为什么这对双胞胎长的一样能识别出来,而两个看上去不那么相似的却识别成同一个?他其实也不知道,因为机器从数据中学习来的,背后的逻辑并不清晰。


针对这一问题,接下来,可能要通过数据的迭代形成闭环,让机器知道如果识别错了。错误数据和新的标注返回去重新训练。就会有两种情况:一是机器就识别对了,或者一直学不会。如果学不会,我们可以标注这种类型是不易识别的,或者引入人工干预。 

 

具体到双胞胎能不能识别,机器有可能可以做到。只不过,接下来一个重点是在于要能够解释它为什么可以识别,而不是能不能够识别。比如,AlphaGo下棋,人类现在尝试理解它,之后可能会衍生出一些新的理论,新的推进。人工智能目前还在很早的阶段,还需要理论体系的完善。很多时候,实用厉害了,很多人会给出不同的理论解释,但真正有意义的解释是在于能够指导下一步发展,并且能通过规模性验证的。


人脸识别哪家做的好?你的我的都是BAT的


目前商汤的商业模式总结起来:是一家轻量型toB的算法公司,为toC的公司提供API和SDK。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

图:徐立现场演示商汤为某APP提供的面部特效功能


对于普通的消费者,如果你用过小咖秀、FaceU等热门APP,其中搞笑的面部特效就是商汤提供的;对于某些公司职员,你每天的进进出出的智能门禁也许是商汤提供的。 


徐立介绍他们的产品模式有两块:云上的SAAS和终端产品上的License,他给产品需求定义叫SSD。第一个s是scalability,就是有量,那第二个s(sustainable)就是可持续的刚需,第三个D就是differentiation差异化。

 

对于是否做全产业链,他以IBM做全产业链为例,认为那是人员密集型的,并不符合商汤的优势。那么对于创业公司来说,到底做上游技术提供商,还是全产业链?徐立认为并没有好坏之分,只是每个公司的基因的一个选择。

 

他说:“之前,我记得一年多前有一篇很有意思的报导,说的不管人脸识别哪家做的好的,最后你的我的都是BAT的。这适用于技术平稳期,当技术演进没那么快,大公司可以通过资源优势加上次优的技术快速切入,那真的就是你的我的,都是BAT的。但当技术快速发展的时候,技术发展带来足够时间窗口形成不同壁垒。深度学习带来每年性能的提升都可以抵过深度学习之前的数年甚至十年。当然,行业爆发的前提条件是技术必须过红线,也就是超越普通人的准确率。”


针对目前人工智能行业的发展,徐立也有自己的观察。他说:“有很多投资人问我说,怎么判断人工智能企业是不是真正做核心人工智能的?我觉得首先,现在人工智能引擎打造就像造脑子。这个牵涉到大量计算,需要有计算平台,比如搭建GPU集群。第二,人的知识传递到机器模型中是通过数据标注完成的。拿一个公司的管理报表,看他每个月在数据标注上花了多少钱,就完全可以估计到底有没有投入(当然,也有不完全是数据驱动的算法)。因为如果人的知识都没有传递给算法模型,机器学习无从学起。其实这两个是必要条件。


商汤为什么选择从头搭建算法体系


在采访背景资料的搜集中,我们发现,商汤科技一直都说专注自主研发核心算法以及平台。在大公司开源大势渐成的今天,作为一家创业公司,商汤为什么选择从头搭建算法体系?


1. 公司创立时,还没有太多好用的开源算法


创始团队成员从11年开始做深度学习,率先将深度学习应用到视觉各个领域,但是当时也没有什么好的开源算法可用,Tensorflow、Caffe、Torch等都还没有,只能从头开始。他也表示,如果现在开始创业,假设没有这样的基础可能真的会选择Tensorflow 或者其他开源框架。因为别人已经做了三五年,已经开源出,企业没有积累的话很难实现快速超越。


2. 想做一些别人不能做的事


徐立说:“为什么我们比较坚持有一些自主研发的平台性的东西,是因为我觉得这个才能对未来的行业有所推动,才能真正地 push the envelope,因为你能做别人不能做的事情。


3.技术还没饱和到调下参就能做垂直应用


徐立认为,现在的人脸识别技术,还没有饱和到任何人拿了一个现有的东西调一下参数就能够用的。 


在人脸识别上,如果技术已经能让计算机达到人类专家的水平,那么利用开源算法进行应用升级是可以大规模铺开的。在计算机连普通人的识别准度都没具备之前,算法依然是核心要求,而且是很高的要求。


徐立回忆说,2014年商汤把人脸识别准确率做的超过普通人,核心算法的突破起了很关键的作用。这也是为什么他们会投入大量的资源,做一些相对比较基础的研究。


4. 开源算法本身有局限


去年参加ImageNet比赛,商汤使用自己的核心框架,将神经网络做到了1207层。在此过程中,他们也曾尝试在TensorFlow上运行这一神经网络,但是跑到300层的时候,就out of memory了。徐立说:“这不是算法的问题,而是系统的问题。公司开发的一些新的架构,TensorFlow,Caffe可能支持不了。”


由此徐立认为,算法红利并没有消失,还是依旧有潜力可以挖掘。他说:“但是这里面有很多设计、工程的活,这些是逃不开的。从创业来说,要耐得住寂寞。”


5. 写程序容易,读程序难


作为技术人员出身的徐立对新智元介绍了一个有意思的现象:程序员有一个问题就是——写程序容易,读程序难。程序员都更熟悉自己的系统,如果自己掌握一套东西,他在开发时,演进速度与在别人的系统上改写不一样。


徐立的人工智能“三段论”


徐立在采访中提到他个人的”人工智能观”可以归纳为一个“三段论”——人工智能的发展从来不是渐进的,而是突变型的。人工智能一共分为三个阶段:


  • 第一个阶段,AI不如人的阶段,因此也很难产生突破行业应用;

  • 第二个阶段,AI超过普通人,会有生产力的提升,带来产业升级。

  • 第三个阶段,AI超越专家。这个阶段会产生服务升级。


第二和第三阶段区别在于专家的知识不像普通人的知识那么好获得(通过标注就可以获得)。所以对于算法设计都有很大的挑战。一个例外是AlphaGo, 专家知识(人类的50万把对弈)已经储存在那里了。但是一旦超越专家,这就是一项服务产业升级。因为专家的资源一定是稀缺的。

 

徐立说:“第一次工业革命就是因为生产力工具超越了人。我们现在处在人工智能第二个阶段,创造出超过人的生产力工具,让它在很多领域可以替代人,这是一种巨大变革。未来,机器可能替代所有带“老”字的工种,比如“老教师”、“老医生”、“老司机”。因为机器积累经验的速度远快于人类。比如说,假如围棋是一种生产力工具,那么机器已经超越了“老棋手”, 人类再去花5年10年甚至更长时间掌握这门手艺在生产中的价值非常低,那么老棋手就会越来越少,直到消失。


关于开源:有些东西是无法复制的


针对开源的问题,徐立谈了自己的观点:“我个人非常喜欢开源文化。但是开源和目前国内创业思维倾向结合可能反倒会阻碍创新。我们得益于复制、做衍生、做模式创新,有一套很成熟的体系。比如,国外有Uber,我们有滴滴;国外有ebay,我们有淘宝。这些国内往往都做得更好。在这种创业文化下,创业者不可能花时间去沉淀积累。”像Mobileye这样有着十几年技术积累的创业公司,中国基本上很少有。国内很多东西靠复制和快速验证,但是有一些是却始终没有复制,比如CPU,比如操作系统。

 

他举了一个操作系统的例子。操作系统就是一套软件。而且,操作系统也有Linux这么好的开源系统。那么为什么中国没有自主研发操作系统?

  

徐立认为,我们的学生说精通操作系统,通常是精通使用操作系统,比如对Linux指令都精通。但是却没有实际写过操作系统。他说:“之前遇到MIT的时候碰到一个朋友,他说我喜欢操作系统,在高中时候改写MINIX,写过好几个版本的操作系统。” 他精通操作系统指的是写操作系统。所以为什么美国开源文化盛行,好的开源作品也层出不穷。这也是对于原创的不同思维倾向。

 

徐立说:“可能在过去几十年的发展过程当中,我们快速复制的成功模式太多了。因为从一开始我们是落后的,所以当我们往前走的时候,很希望能够快速看到结果。” 要重新开始做,公司得花非常多的基础实践,所以,通常会直接用开源技术。但是,一旦直接用开源技术,技术的发展路线可能会受到限制,并且可能有IP问题。


写在最后


采访开始之前,徐立在北京商汤办公室带记者现场体验了现在被广泛用于安防、直播、门禁等场景的人脸识别和手势识别技术。在采访中,徐立非常健谈,他谈到了开源技术对行业的发展、商汤的技术之本、以及独立研发算法体系的发展道路。对于整个人工智能行业的发展也有许多独特的认知。


2017年3月27日,新智元年度创业家颁奖盛典,徐立将来到现场并发表演讲。在采访的过程中,徐立也对新智元表示,已经在准备演讲PPT,干货满满。距离大会召开仅剩3天之际,我们希望通过这篇文章,让你了解一个更真实的徐立和他掌舵下的商汤科技。


文章转自新智元公众号,原文链接

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

官方博客
官网链接