1.2 视觉智能的五要素和现状
我们首先回顾一下现在的技术和数据等各方面是不是准备好了。
第一方面,从算法的角度来看,准确率是我们首先关注的目标。我们经常看到这个公司又刷新了一个公测集的记录,包括我们自己最近也刷了一个车辆检测的记录。这是不是说明视觉智能已经很厉害、已经超过人了?在现实的应用当中往往是非常残酷的,公测集上的结果往往只是一个开始,在实际应用中还需要很多非常繁重的工作,才能使得我们的算法在一个行业里做到可用。其次,从覆盖率上来讲,这个问题就更大了,在座的各位可能很多都是学生,我们在写论文时很少有人关注覆盖率这个问题。覆盖率是什么意思?如果从识别的角度来讲,就是识别的范围足够大。这个问题很有意思,例如,ImageNet中1 000类物体场景的识别,我们拿到真正的应用场景里去看,是远远不够的;或者说,实际应用场景感兴趣的常常不是这些类别,也就是说这些还没有覆盖到用户需要的地方。你要覆盖全世界是非常难的事情,但是不见得是不能做的事情。几年前我在微软还尝试做过百万标签识别的问题,这个准确率当然很难做得高,但是在一些场景下也是可以用的,例如搜索。覆盖率在视觉搜索中的体现,例如,能搜衣服,不能搜鞋子不行,不能搜其他东西也不行。用户的使用体验往往与覆盖率有非常大的关系。
第二方面,计算效率。效率决定了这个事情可不可能发生,比如我们要处理城市几十万的摄像头,需要花几十亿就完蛋了,这不是成本的问题,是这个事情可不可能发生的问题。从计算的角度来讲,不仅仅是计算的效率,还有计算的平台,尤其是当你处理大量数据时,不是一两台机器,而是百台、千台、万台时,就需要处理系统和流程的问题,比如说容错、流程的控制等,这就需要一个大的计算平台来支撑。从计算来讲,效率是非常重要的,包括平台的效率、计算节点的效率。例如,一台计算机放多张GPU卡,这些卡如何充分利用起来。还有算法本身运行效率的问题。刚才我忘了说一句,关于算法的一个结论:我们确实有很大的进展,但是还有很长的路要走。对于算法而言,只有把计算的效率发挥到极致,算法的优势才能发挥到极致。
第三方面,数据。这也是争论最多的问题,昨天也有一个论坛讨论数据的问题。大家经常发现数据的威力有时会超过算法,当然如果只是学生作为借口,做不好算法说是数据的问题,那是另外一回事。在昨天的论坛上也一直讨论数据和深度学习算法的问题,实际上数据的使用有两个方面的问题,这个还是一直没有说清楚。数据的作用到底在哪里?我觉得很多时候大家只是关注了数据对算法研发的作用,但是这只是其中一个作用;而数据对智能本身是另外一种作用,而且是很重要的作用。没有数据,就没有从数据产生的智能。至于没有大量数据是不是就没有深度学习算法,这个还可以商量,也许少量的数据也是可以的,但是作为智能,尤其是强人工智能,如果没有大量数据恐怕是不可能的。所以,数据是有两个维度的作用在里面,数据本身是算法研发的原料,同时数据又是产生智能的原料,这是数据的两个作用。数据本身也有很多的困难,数据量大时,包括采集、传输、接入、融合和存储等各方面都不是简单的事情。还有非技术方面的困难,尤其是数据的开放,其实在中国这件事情已经比西方国家好得多了。在中国,大家对数据开放没有那么纠结,这也是人工智能在中国获得更快发展的一个很重要的原因。
第四个方面,刚才讲了人工智能风声水起,视觉计算遍地开花,但是,花开了,能不能得到结果?就是你做的事情是不是个正确的事情,是不是真的事情。有时看起来是个真事情,其实是个伪课题、伪需求。昨天也有人提到伪需求,我们在实际中确实是会碰到的。客户有时提出的需求,仔细想一想可能就是伪需求,也就是说不是一个能够带来真正价值的需求。无论你带来的价值是节省了人力、降低了成本,还是提高了安全性等,这些都是要非常明确的。如果这些不明确,你就没有一个商业的模型和应用,没有明确的商业应用,没有持久的商业应用,这个AI也就不能持久。
总结一下,一共五点:算法是安身立命之本;计算平台保证算法能大规模处理大量数据,也是计算效率的问题;数据,一方面是算法研发的原料,也是产生智能的原料;用户这个要素刚才没有单独分析,但它与商业模式和数据是非常相关的。商业上,有大量的用户使用,或者说用户少,使用的频率比较高也是OK的,而用户本身也能产生数据。例如,搜索引擎就是利用了大量用户的数据,每个人对搜索引擎都是有贡献的。商业刚才讲了,合适的商业模式,保证你做的是正确的事情,不是虚假需求。