相信不少学者在面对艰深的科研课题的时候,心中都有过那么一丝疑惑:这东西何时能实现产业化,真正造福社会?尽管心中的信念不会因此动摇,但疑惑仍然长时间的存在着。一项新技术从在实验室中诞生,到最终投入大规模使用,这其中经历的艰难和磨难会远远多于常人的想象。学术研究和商业化应用可以说是几乎同样困难的两个课题。有人醉心于探索科技最前沿的方向和理论,但也有人更希望自己能帮助将这些技术落地到具体的产品中去,真正的为大家服务。这些人中的很多最后都去到了相关公司的实验室中贡献出自己的一份力量,也有些自己创业,开始了一条属于自己的技术产业化道路。不过这其中的暗坑之多,恐怕只有亲身经历过的人才能理解。雷锋网(公众号:雷锋网)雷锋网
本期雷锋网硬创公开课我们请来了极视角CTO黄缨宁,来为我们解答这个问题。黄缨宁, 毕业于北京大学机器感知与智能实验室,师从长江学者特聘教授查红彬教授。曾作为主要成员参与多个计算机视觉领域的国家自然科学基金项目并发表论文,获得相关专利。
曾在百度进行数据挖掘工作并与大数据部共同发布电影票房预测系统,后获谷歌总部无人驾驶录取。现为极视角CTO,负责计算机视觉相关项目的调研、设计与开发,机器学习及深度学习平台搭建,技术架构的设计与项目开发的管理把控。主导了CK,中国电信,上海公园,华润大疆等CV项目的技术实现。致力于打造中国第一个计算机视觉的PAAS云平台,让CV的从业者能在实际应用中释放自己的洪荒之力,推动计算机视觉技术在生产环境中的落地。
如果你也想跟我们近万学霸精英用户做近距离交流,也想成为我们的产业界首席科学家分享嘉宾,请发邮件至lizongren@leiphone.com
在学校实验室时你的核心研究方向是什么?
实验室里做的主要是计算机视觉,基于计算机视觉的行为分析。做过ADAS,基于行车环境的车速控制,也做一些高阶行为的检测,比如共同关注的识别和质量判断,这对儿童早期自闭症的发现是一个重要参考。计算机视觉,机器学习,模式识别,三维视觉,压缩感知,数值计算与优化等都是一些专业课程。
专业外课程就选择多了,选过心理学,这块还是挺有意思的,很多心理的过程都会在肢体表情和互动中表现出来,而表现出来的这些feature很多都能通过计算机视觉的方法捕捉,换言之,心理学可以提供整体模型思路,而我就是用计算机的语言把这个翻译出来。当时也选了偏生物一点的讲大脑构造和视觉形成的课,那里就有深度学习的思路在。许多科学的发展就是仿生学,所以说要走进自己,了解自己。还选过汉服文化,有段时间没周末都会穿汉服在园子里晃悠,挺有意思的。
第一份工作百度的数据挖掘工程师貌似跟本专业不一样?
做数据挖掘这事是这么考虑的。处理信号的方法论都是一致的,只是说输入的类别不一样,以前做的是基于视觉,但不代表就这套方法论就只能handle视觉。数据挖掘中用也到很多机器学习和模式识别的东西。
到产业界后,做的东西跟之前核心研究方向完全一致吗?
其实不完全一致。当时研究偏高层行为识别与建模一些,但是在真正通用环境下的行为识别和分析还是挺难的。视觉上升到做行为分析经历的环节非常多,检测,跟踪,姿态,识别,场景理解,每一步都是行为分析中的一个模块,搭建起来整个系统的累计噪声不容小觑。
而这些偏中低层一点的视觉任务由于现实环境比实验室环境复杂很多,噪声会大很多,难以达到通用兼商用。 到一些基础的算法能通用的时候,做行为就会简单很多,不然累计的误差太大。
根据你的观察,一般学术界投入产业界的那拨人是在具备了什么条件后才这么做的?
如果加入非科研机构就算投入产业界的话,我觉得这个条件还挺简单的,就是享受做出能被人使用的产品的快感。记得曾经老师让我发Paper,发完后和老师说,我觉得这个不是那么有意义,挺迷茫,感觉做研究就是为了发Paper一样,但看不到一些直接的影响。
老师觉得学界对世界的贡献的多数方式就是有人看到你的研究并推动其边界延伸哪怕一点点,最后反馈到产业界,给这个世界带来实质性的影响。而我个人,更享受这种直接改变带来的快感吧。
你自己毕业后投身产业界(去百度搞大数据挖掘)是下了很大的决心去的吗?
其实也还好,本来就想去的。
现在业内有个说法叫“学而优则商”,这两者之间的转化,我一直有个疑问。是一般成绩好,最佳论文获得者更容易有余力投身产业界;还是有些人天生就喜欢往产业界跑,跟学习好不好无关?
是个很有意思的问题,让我想采样做个相关性分析了。比如Caffe作者的贾扬清,Caffe其实是他博士期间的一个作品,但这个框架非常优秀,不仅在学术界也在工业界收到了广泛的关注,Google和Facebook向他抛橄榄枝也就不奇怪。
而且这样的巨头,能提供的资源是海量的,你可以在里面继续学术研究,会有人把你的技术变现的。所以这是个先后问题,基本在学界做得风生水起的,总会有产业界的人闻香而来。而自主创业的那些,我想他们心里可能和我一样,希望能直接的对这个世界make a little change 。
学不优而投身创业的,需要具备哪些条件?
认识一个架构大神是学医出身的,可能他学医学得不够好,但是不想当首架的程序员不是好医生呀。学习这事并不能让人全面的表现自己,我可能计算机学的不好,但想从事it类创业也不是没机会,关键是发掘自己的闪光点,找到适合自己的岗位。
创业这个事情还真不适合每个人,首先你得有毅力,还得乐观,有自信,其次你得更能吃苦耐劳。如果纯粹是为了财富自由选择创业就还是别来了,你得对自己所创的业认同和热爱,还要具有责任感,能对一起奋斗的兄弟负责。 有这些基本素质,我觉得就差不离能出来试试了,还要记得带上一帮不离不弃和你打拼的兄弟。肯定会有来自各方的压力,也会不断受到来自外界的表扬和批评,但记得要乐观,坚持,有使命感。
在学术界做和产业界做,具体哪里不一样?哪里一样?
我们做研究的时候有时会忽略前置步骤的完成情况,而验证模型创新部分的方法论,证明这个步骤是work的。但产业界没有这样的假设,比如你做人脸识别,那从检测到对齐到特征提取和检索匹配每一步的误差都是需要尽量降低的,这就是工程,人家不会看你中间这个方法多么work和精妙就买单,看的是整体。
再有在imagenet的battle中,你能看到很多学术机构和公司都是会堆机器来拼出这个精度的。但真正做产品不能是这个思路,比如我们公司卖的是云上服务,那服务成本越低,用户越可以接受,毕竟中国的环境本来对软件付费就不太接受,而运算量越大,付给云的成本也会越大,这个会直接反应到服务成本上。
所以我们追求精度的同时必须要尽可能减少运算量。假设有些东西我明明知道能达到四个9准确度,但运算量要翻十倍,我们就会问自己,三个9或者两个9是否也可以接受。
有些人说,在学术界的时候就是做实验,发论文,虽然也辛苦,但基本是一个人的战争,到了产业界有什么变化?
产业界只会更辛苦,要权衡的东西多很多,精度,效率,产品,模式。等于多维限制条件求最优解,没有在学术界那么目标明确的直奔主题,酣畅淋漓吧。但我来到产业界发现一点最大的好处,就是能拿到许多实际场景中的数据。
来了公司之后上了挺多产品的,觉得能通过计算机视觉帮助他们节省人力成本提高效率当然是一件非常开心和有成就感的事情。有一天某公园项目上了我们的客流计数后觉得这个非常实用,比之前上的某品牌靠谱很多,要知道那个厂商也是在这个行业里做得不错的。之前他们都对算法分析出来的数据持怀疑态度,想用不敢全用,经过几期随机实际验证后完全信赖了我们的数据,我知道以后非常开心。这说明我们的产品是落地的,实用的,不是概念或者套着人工智能的花架子。当然,被客户表扬优于竞争对手也非常开心。
从青年科学家到首席科学家(CTO)这条路上,你觉得遇到过什么坑?要避开它有什么方法论?
青年科学家也谈不上,坑也谈不上,方法论谈不上,这几个词都太大,只能说说几点经验之谈吧。
从学界出来,有时对一些东西抠的很深很精细,花费了很多的时间,也不是说这样不好,就是会放慢成长速度。对于初创公司,变化响应一定要快,要创新。对于产品而言不一定要绝对完美再推出,但一定要有特色,要有核心竞争力。在从无到有的这个时期,小细节的把控不如大趋势的把控,避免陷入局部最优难以自拔吧。先有了,才能再打磨精细。
第二个就是在组建团队这一块,以前单兵作战,或者小团伙作战,都是实验室的人,气味相投,合作也愉快。到了公司,有些人可能技术很好但目标不一致,有些人可能非常勤奋但给不了产出,这些都不是合适的队友,调整不好时处理要果决。在人才上要舍得花钱,人才比其他人更知道自己的价值,打造一个高效的团队对公司能创造成几何倍数的价值,而且强者的团队才能培养更多的强者。还要了解每个人的核心诉求,知道如何去激励他们,如何让他们互助的成长起来。
第三个就是建立文化,要形成一定的仪式感。《人类简史》上说,50人以下的社群可以靠口口相传的信息维持起来,50人以上就要一起相信同一个故事,比如我们都相信国家这个概念,于是我们组成了这个国家的公民群体。建立好文化了,很多东西都能自己run起来,人与人之间也有了简历初始信赖的依据。说的比较多是管理层面遇到的挑战吧,技术的不同之前说的比较多了。
一个真正的公司对你作为一枚首席科学家/CTO的需求是怎样的?
CTO其实不是纯技术岗,还是加了很多需求的。
在技术方面,需要把握方向,并且身先士卒的实践。而且要保持自己技术上的先进性,这样才能在分析需求的时候能比较有把握的分析用什么技术路线,其实质是什么,所以到现在为止我还会保持每周都要阅读paper。同时要保持追踪产业界及需求人群的动向。作为CTO,虽然是算法出身,但所有和技术相关的事情都或多或少的需要安排和管理,就是做事无边界,难以像以前一样只做算法了。
管理方面呢,每天到你眼前的信息会有很多,需要明晰事情的紧急性和重要性。还有就是要知人善任,熟悉每个人的优缺点,他们需要什么样的指导帮助或资源,打造高效团队,让团队团结一心,一个队伍工作起来要像一个人。
选择落地产业方向时,如果方向不对怎么调整?
换,尽快换,前提是真的确定这个不work,就快刀斩乱麻。我认识一个人,创业初期换了三个方向,第四次才找到方向,都是尽快试错,不过他们背后资金雄厚,不然全员调整三次以上,基本就没戏了。他们现在很好,已经过C轮奔上市了。
如果没有他们那么雄厚的资金方力撑到底,就不能这么作,要在起航前确定这是不是伪需求,很多公司就死于伪需求。因为创业者的一个特质就是乐观,相信自己,你不相信自己别人怎么相信你,但很多就是盲目乐观,一拍脑袋,我觉得这个能work,就全员开工了,但其实是个伪需求。
最近CV方向的青年科学家投身产业界的非常火,比如孙剑,何凯明分别去了Face++和Facebook,其它领域的没有这么火,是什么原因?
人的获取信息的途径80%以上是通过视觉,图像的信息量非常巨大又复杂。在深度学习以前,学界和产业界一直知道视觉的价值,然而很多东西都只停留在实验室,难以走进市场,达到现实场景下的商用精度。
为什么现在看Paper的时候做什么都要套个深度学习,不仅因为他火,而且因为他实在的把一些算法变成能在现实落地的。只要视觉技术能落地,产业就会在这里喷发,而视觉领域一直没有在业界井喷过,现在火一把也不足为奇了。
遥想当年毕业的时候,没几家公司会招计算机视觉工程师,所以我挺多师兄师姐都去做自然语言处理或者数据挖掘了,当时火的是那一块。
你放弃Google无人驾驶录取,来极视角是基于怎样的考量?
其实没去成还是有点遗憾,但我收获了其他的东西,我的男朋友,现在的老公。
人间处处皆修炼,我曾和他开玩笑说,如果我俩没有任何外界压力,在洱海旁开一个有wifi的小客栈,我们天天在阁楼上读书和coding相信也能做出不错的甚至比现在好的研究。为什么这么说,我觉得当纯粹出于兴趣的去做一件事情,内在的动力驱动能带出来的东西是难以想象的,所以环境很重要,内心更重要。
至于来极视角,其实CEO一直和我有联系,他提出这个paas平台的时候我觉得很有意思。一般有硬件的时候就会有软件的市场,但市场上的摄像头几乎只传输视频数据,没有额外分析能力,这点很奇怪。
世界上70%的硬盘装的是视频数据,这么海量的数据里却没产生相应的海量信息,因为缺少大脑分析这些数据。而paas平台的意思就是做一个计算机视觉的App Store,只要摄像头能连接极视角的平台,我就可以家里有老人的话,安装一个老人摔倒监控的算法,店铺里摄像头可以安装客流的算法,这个就很有意思了,计算机视觉可以解决的问题,深入的场景就多了,这些视频也就不是躺在硬盘里的dead data,能真正的产生意义。
本文作者:宗仁
本文转自雷锋网禁止二次转载,原文链接