在本次机器之心北美系列分享活动的西雅图站中,我们请到了原 Orbeus 的 Chief Scientist、现亚马逊公司的 Senior Scientist 夏威来进行技术分享并对他进行了独家专访。
以下为专访实录:
机器之心:简单介绍一下 Orbeus 的发展历史?
夏威:Orbeus 成立于 2012 年,主打人脸识别和场景识别的图像识别技术。最早由 Boston 的几个华人学生创立,创始人是王盟和刘天强。
公司于 2012 年 7 月率先发布 Rekognition 云端图像识别服务的 API,方便开发者在自己的应用中整合图像识别功能。成功开拓近 7000 多家商业客户,遍布北美,欧洲和亚洲。2014 年推出了一款手机终端图片搜索与管理软件 PhotoTime,早于 Google 发布的同类产品 Google Photos。当时首发就被苹果商店选为当季最佳新应用,并被多家媒体报道。
PhotoTime 利用云端的智能照片识别系统,可以从用户手机和云端(如 facebook,instagram,flickr,dropbox)上存储的所有照片中自动识别出人脸和关键的物体还有场景,并打上相应的标签关键词,使得照片的搜索和整理变的非常容易。PhotoTime 能识别出超过 3000 类的物体和场景,并允许用户一键分享图片给好友或者分享到主流社交网站。
2015 年底 Orbeus 被 Amazon 收购。
机器之心:Orbeus 两位来自波士顿大学的联合创始人当初为何中止原定的博士项目,甚至拒 Google 的 offer 来走上创业这条路?
夏威:王盟当时在 Google 工作,有十余项美国和全球专利。当时在 Youtube 组工作的他发现 Youtube 上大部分的视频都没有标注,于是他萌生了用计算机视觉技术来对视频进行标注的想法,当然由于早期视频的运算量太大,于是就决定先从图像开始。在决定创业后,他们获得了哈佛 Harvard Pitch Competition 的第一名,而后进入了位于芝加哥的著名孵化器 Excelerate Labs (现在叫 TechStar)。
之后搬到硅谷,先后获得真格基金,丰元创投等知名天使投资的青睐,开始进入快速发展期。公司于 2012 年 7 月率先发布 Rekognition 云端图像识别服务的 API,方便开发者在自己的应用中整合图像识别功能。
我个人读 PHD 期间一直对 AI 方面的技术创业有着浓厚的兴趣,经常关注硅谷这块的动向,自己也曾在新加坡尝试过一些创业计划。偶然的机会通过朋友介绍认识了王盟,非常欣赏 Orbeus 的创业方向和愿景,于是一时冲动来到了硅谷,加入 Orbeus,任 Chief Scientist。我加入时,公司还只有几个核心成员。比较有意思的是,等我到了才发现,公司除了 CTO 王盟,只有我一个 Research Scientist,我这才明白了 Title 里 Chief 其实是 Only 的意思。
之后公司拿到下一轮融资后团队也开始慢慢扩展,到被收购时有了十几个正式员工外加一些实习生。虽然团队一直不大,但成员单兵素质很强,各个都能独当一面。比如 PhotoTime 这款 APP 的实际开发团队只有包括陈毓珊博士在内的四五个人,而后来 Google 的同类产品 Photos 背后的开发团队是数百人。
机器之心:早期产品开发最难的部分在哪?是如何解决的?
夏威:众所周知,大部分有监督的视觉识别算法都非常依赖庞大的计算资源和高质量的训练数据。早期最难的点我认为也主要在计算资源的成本控制和数据的获取上。
早在 Boston 刚开始创业的时候,王盟像捡破烂似的从学校实验室淘汰的机子里东拼西凑出了公司最早的服务器群。拿到融资后仍然秉持着节约至上的准则,从 eBay 淘了一堆二手零件来组装服务器,分别放置在公司机房和一个 Facebook 曾经的数据中心。
当然后期随着业务的扩展,慢慢的也开始在 AWS 上架设服务器群。另外一个很重要的方面是 GPU 训练集群的搭建,我们用 Nvidia 赞助的几块显卡搭建了最早的几台 training server,我们除了搞 research 外,也花了不少时间当硬件组装工程师。
2014 年的时候,我们自己 DIY 了一台配备了水冷系统 8xGPU 的服务器,之后又 DIY 了一台 14xGPU 的大杀器。这应该是当时我们知道的第一个支持 8xGPU 以上的单机训练系统,Nvidia 的 4xGPU 的 DIGIT BOX 已经是差不多一年之后的事情了。还记得当时晚上跑完实验,我们俩就在那锯管子,装水冷器,调试的时候噪音巨大到像飞机发动机,把几个员工逼的 work from home。在很长一段时间内,公司在计算资源这块的平均成本只有 AWS 的 1/10。
早期这种极低的 burning rate 使得公司可以把有限的资金投入到产品研发。
数据这一块,除了收集各种公开的数据集外,早期我们通过免费授权我们的 API 给开发者使用换得对他们的数据的使用权(仅限于训练),之后慢慢谈了几个 Stock Image Website 的客户之后,就可以从他们那获得大量优质数据。
最后,因为这几年深度学习的井喷式发展,如何使得你的技术永远保持前沿是另外一个难点,我们必须得时刻关注领域的最新动态,并快速测试和迭代,不断的打磨产品。
机器之心:从事 CV 领域创业的公司很多,你觉得你们能够快速发展、顺利拿到融资并被亚马逊收购的原因是什么?
夏威:我认为主要有三点:
- 时机: Orbeus 成立于 2012 年,那一年 Alex 在 ImageNet 横空出世,正式开启了深度学习这几年火热发展的序幕。能够在当时开始创业,无疑是取得了一定的先机,使得早期可以更安心的打磨技术和产品,不至于陷入残酷的竞争。
- 成本控制:如上面介绍的,硬件成本,对于公司规模的谨慎扩张。
- 勇于跳出舒适区,快速迭代和创新:比如 14 年开始决定基于 rekognition API 开发一款 2C 的图片 APP 到 photoTime 的正式发布只用了半年多的时间。
机器之心:简述一下你们产品的识别过程是如何实现的?
夏威:简而言之,就是在云端结合传统的 feature based network 和深度神经网络对图片进行分析,通过不同的网络来实现不同的功能,比如人脸检测,关键点定位,属性(表情,年龄,颜值),物体和场景识别等。
机器之心:Google、Facebook 和微软等公司都有从事着 CV 方面的研究,你觉得你们和他们比有哪些优势?
夏威:这其实基本就是创业公司和巨头相比的优缺点,相对巨头来说,创业公司在资源和 PR 方面有着巨大的劣势,比如 Google photos 的开发团队规模是 Phototime 的几百倍,广告预算更是高出 n 个数量级。但是相对巨头来说,创业公司的主要优势在于灵活性,快速迭代性,以及小团队之间沟通的高效性。比如,PhotoTime 早于 Google Photos 大半年发布;在 Microsoft 那个风靡朋友圈 how old.net 之前接近一年,我们就开发出了趣味测年龄和颜值的 Magic Mirror。哪怕在 how old.net 开发出来之后,还有开发者利用我们的 API 开发过恶搞版的 how dude.net 来判断一个人有多 man。
另外一个不同点在于巨头往往有他的战略侧重,还是以照片管理这个应用为例,比如 Google photos 就基本只支持本地和上传到 Google 云端的照片,但从用户的角度来说,他的照片是散布在 Facebook,Instagram,Dropbox,Google 或者 Amazon 等各种云端的。这样为了使用 google photos,用户就得牺牲掉一定的便利性,而创业公司出身的 Phototime 就不存在这种战略考量,可以从用户出发,提供一个所有本地和云端相册的接口,通过视觉识别技术来达到全面智能检索和管理。
机器之心:为何选择做开放平台?
夏威:可以服务更多的客户?哈哈,当然当时还有计算资源的制约,很多识别算法所需要的计算量在当时只有云端能提供。当时希望做 AWS 那样的技术提供商,我们提供 API,把图像识别技术嵌入到任何可以让它发光发热的领域,社交网络,电子商务,市场营销,图片视频整理等等。图像识别的可应用领域太多,光靠我们当然难以穷尽,我们期待跟各领域的开发者一起开拓这些可能性,所以决定做开放平台。
机器之心:如何看待亚马逊的 AI 研究与其他大公司的区别?
夏威:相对 Google 和 Facebook 长期占据科技新闻头条,Amazon 的 AI 研究显得更为低调和务实,这可能和 Bezos 商人出身有关,而 Google 和 Facebook 的创始人都是技术出身。比如,语音识别方面,相对 Google 和 Microsoft 在 research 上的突破,反而是 Amazon 发布了第一款真正卖座的语音智能产品——Echo,Google 反而成了跟随者,今年才刚刚发了一款同类产品,Google Home。
机器之心:为什么最终会选择接受亚马逊的投资?
夏威:最终选择 Amazon,也主要是战略愿景比较吻合吧,如前面所说,我们最早是想做成最好的云端视觉识别平台,而 AWS 恰好又是最大的云平台。
机器之心:怎么看待海外华人创投圈以及谷歌的 CV 创业圈?
夏威:这两年,VC 资本爆发式增长,中国和美国科技圈的融合越来越频繁和紧密。以前都是硅谷海龟回国创业,现在也有越来越多的华人在硅谷创业,比如我们。这背后当然离不开资本和人才这两个因素,海外华人创投圈给这些在海外创业的创业者提供了巨大的资金帮助,同时也能帮助这些公司了解国内市场,我觉得是一个双赢的局面。
当然,相对美国本土 VC 很多都有技术背景外,华人 VC 对技术的理解相对差一点,所以当一个颠覆性的新技术出现的时候,会出现『看不懂』从而出现误判或者盲目跟风的现象。当然,我相信随着创业者和 VC 之间的交流逐渐深入,这种局面会逐渐得到改善。
至于 Google 的 AI 创业圈, 我觉得还是因为 Google 投入 AI 研究的时间比较早,加上 Google 之前注重创新的文化基因,培养了大批掌握了前沿 AI 技术的人才,而这些人意识到行业的爆发迹象而纷纷出来创业也就成了顺理成章的事情。比如我们 CTO 王盟,出门问问的李志飞,格灵深瞳的赵勇都是这方面的典范,而他们都出自 Google。
机器之心:你觉得目前在 CV 的研究有哪些难点?产品在技术上亟待解决的问题有哪些?未来的发展方向是?
夏威:研究方面的话我觉得无监督学习或者弱监督学习就是一个很大的难点。具体到产品中经常遇到的问题是如何获取高质量的训练数据,以及如何用更少的数据或者在噪音很大的数据库中用最快的速度训练出足够好的模型,同时也涉及到大规模 GPU 训练。
未来我觉得 CV 技术本身主要会有两个大的方向,一个是朝云端发展,一个是朝嵌入式发展。复杂计算会在云端实现,而本地的嵌入式系统也能快速处理大量的简单计算,二者的结合能实现很多应用对于及时性和复杂性的双重要求。至于应用的话,我个人比较看好的一个方向是 ADAS,还有智能家居。