华先胜:城市大脑模仿者众多,揭秘阿里原版真正的技术实力-阿里云开发者社区

开发者社区> 新智元> 正文

华先胜:城市大脑模仿者众多,揭秘阿里原版真正的技术实力

简介: 3月29日,阿里巴巴副总裁、达摩院机器智能技术实验室副主任华先胜出席 2018 新智元 AI 产业跃迁峰会,做了题为《深入行业,智创未来》的演讲。华先胜分享了视觉智能技术在阿里巴巴的应用实例,对智能设计、拍照搜索、视觉诊断和城市大脑四个领域做重点介绍。本文带来精彩演讲实录。

70d4df5f82f2b78f4431970a2b9378c24095a3d0

华先胜:非常高兴有机会来到这里分享阿里巴巴在人工智能方面的研发和实践,前不久我们看到美国总结了二十项在未来三十年可能会改变世界的技术,我把前十项列在了这里。可以看到多多少少都和人工智能直接或者间接相关,也就是说人工智能会是将来改变世界的重大动力。

bc260e609ba701a2eacfebfff8bc17436a1f2605

人工智能在历史上有三次黄金时期,前两次被证明人工智能只是一个梦想,今天我们正在经历的是第三次。这一次还是有些不一样的地方,比如深度学习技术的提出、超强计算能力的获取、大量的数据以及不少成功的案例,包括搜索引擎、AlphaGo、安防领域、电商当中的推荐等等。这些领域已经取得了很多的成功,人工智能正在渗透到各行各业,可是要在行业当中取得成功其中一个很关键的要素就是要在商业上取得成功。今天的人工智能可以说是风光无限,常言道“无限风光在险峰,却是容易翻车处”,怎样保证在看上去很风光的这样一条道路上真正获得成功而不至于翻车呢?我觉得很重要的一个因素就是要在商业上获得成功,商业上的成功说白了就是要有人为它买单,但这个单应该由客户来买,而不应该由VC来买。

怎样才能获得商业上的成功呢?刷榜、融资、PR、估值还是为客户带来真正的价值?我想答案应该是显而易见的。怎样才能为客户带来价值?什么样的价值才是真正的价值?解决一个锦上添花的问题还是解决一个雪中送炭的问题?解决一个个人的问题还是解决大量的问题?作为创业公司和作为大公司,这个方面的看法和选择的道路可能也会不太一样。想在商业上取得成功的话绝对不能是昙花一现,要有一定的壁垒才能在一定的时间内都能获得成功,这个壁垒到底是什么?算法、系统、商业模式还是客户关系?今天我想借着刚才IBM总裁讲的课题提出我们要深入行业,这个行业也是可以见到壁垒的。当然,不是指行业的客户关系,而是指深入行业、理解行业、为行业解决实实在在的问题、为用户带来实实在在的价值。

fb69989d0c2abf418da4c1ad94e1622d9a0142e2

今天我想举的是四个比较典型的例子,智能设计和视觉诊断是第一次讲,拍照搜索和城市大脑之前讲得比较多,背后其实还有很多不成功的例子,但今天主要还是讲一讲成功的部分。

智能设计:千人前面,每天自动生成5000万横幅广告

be523832c5d1447b3fdc153c2fcbf538f20c3304

首先是智能设计。这是人工智能还没有太多触及的行业,也有人认为这是有点偏艺术的行业,人工智能和艺术还有一点距离,实际上还是有很多很有意思的事情可以去做。设计行业的从业人员大概有4000万,整个中国市场容量是3000亿元。它的难度在于设计的效率是非常低的,有很多繁琐的体力劳动,因此我们需要设计师的支持。今天我会讲其中的一个平面设计的例子,比如电商的网站上经常可以看到很多的广告图,我们把它叫做Banner,要有商品的名称、推广词和各种各样吸引用户点击购买的词语。这样的Banner过去都是要由人来设计的,大家可能不知道“双11”这一天需要多少Banner,大概是7个多亿的级别,过去都是需要人工来完成的。这里给大家播放一部短视频,看一看这样的设计是不是可以通过机器来完成。

1a0766242c14ba92ec47e2bb490ea44fe002254b

我们有了这种自动设计以后,可以实现千人千面、千货千面,也就是说不同的人看到同一个货物会看到不同的广告,合起来就是千人千货千千面。去年“双11”的时候是有7亿多个的Banner,其中4.1亿是通过算法完成的,几天的时间当中每天产生5000万个Banner,产生以后就上线使用,没有任何人工干预,所以也是有很多的技术难题。

大家可能会觉得很奇怪,我们到底是怎么做出来的?是和设计师合作吗?当然,我们一定要和一流的设计师合作,选择合作伙伴也是非常重要的,一定要选择最顶级的设计师。同时我们提供两种工作模式:一种是像刚才讲的大批量的模式,一下子生成几千万。另一种是交互的模式,提供工具让设计师的工作变得更为便捷和高效,也让他们的饭碗变得更好。

eb527caf537d1bcc07fbf8f48f67820695552feb

另一个例子是拍照搜索,解决的问题就是用不同搜索商品的入口,看到好东西拍照就可以了,不需要输入文字。这个技术以前我也讲过,通过拍照片分析物品的种类,然后识别它的位置,最后突出它的特征,然后在大量的搜索库里面进行检索,最后把结果呈现给大家。

视觉诊断:从电池板瑕疵到列车故障

视觉诊断其实有两类:一类是医疗行业的诊断,我们讲的更多的是机器设备的诊断。这是一个大海捞针的问题,因为需要检测的样本是非常多的,可是有毛病的并不是很多,为了保证把有毛病的找出来不得不挨个去看。我们的技术就是要做到从大海捞针变成桌面找针,这是其中的价值,就是节省了人力,可能也会提升质量、节省成本、增加安全性。

782c76c823a11f9b404d26224a3fc4f6fcf55445

电池板瑕疵的检测、蚕丝瑕疵诊断、列车故障诊断,这些也是比较直观的,但我们要深入理解行业的问题才能为客户解决真正的痛点。现在行业诊断的现状有三种模式:首先是全人力,成本的消耗是非常高的。如果有摄像头,人不需要到实地,但还是要有人在屋子里看,这也是非常繁琐的活,每天对着枯燥的样本看的话会漏掉很多东西。或者它们有一定的智能,但没有达到全自动的目标。

ad787bac3d255b965cdb4c292d90bd113b084592

这里也有很多类似的问题,有些是视觉可做的,比如铁路路轨的松动、电池裂纹、芯片溢胶量等等;有些是比较难做的,但还是比较靠谱的,肉眼能够分辨但有一定困难,比如组件毛发连接、拉链方块断裂,还有一些就不太容易了,比如内胎壁厚薄检测、稻壳含水量计算。之前有个生产线上的问题,就是装肥皂的盒子里面没装,怎么检测出来呢?一堆博士设计了很复杂的方案,包括X光等等,花了很多的钱,最后有个工人在旁边放了个电扇,一吹就把它吹下去了。有些问题不见得要用这么复杂的方法解决,所以我们要选择人工智能可以带来真正价值的问题。

5ab3f274efc4240af783d6d783025dd48b00d372

这是太阳能电池片裂纹的检测,每年在行业当中要花千万级别的人力去做人工检查,今天机器就可以做到非常高精准,基本上没有漏的,误报也是比较低的,误报率将近3%的情况下节省的人力目前还没有达到理想的阶段,大概相当于原来1/10到1/20,再进一步下降的话人力就完全实现自动。

e5fe87e40eb4122f018dfbb8f49ee4b013e04279

列车故障诊断也是一个例子,我们经常坐火车,如果不检查的话是很危险的,其实在列车进站的时候都是会有人检查的,最早的时候是人要到站台检查,后来是拍很多的照片,列车进站的时候拍上万张照片送到一个屋子里面由人来检查,大家就知道这个工作有多么枯燥无味了。现在我们通过算法,人检上报68%,机检上报更多,人的漏检是非常多的,大概是141个,机器可以非常客观地把故障检测出来。

现在我们正在各行各业去试,我们推出一个阿里视觉诊断的引擎,希望能够在各行各业把这些技术总结起来,支撑更多、更好、更便捷的应用场景。

城市大脑:无处不智能

221e2c29882b30e94588ff87d3fd548ee0e134d1

很多人都知道城市大脑这个项目。两年前我们开始这个项目的时候很多人觉得不太靠谱,现在外面的形势发生了很大的变化。解决了什么问题呢?其实解决的就是城市大量数据价值挖掘的问题。每天城市有大量的数据在积累,尤其是视觉的数据,今天视觉的数据可以用来干什么?可能是交通罚款,可能是事后断案,这里巨大的潜力远远没有被挖掘出来,今天AI的技术和计算的能力能不能进一步挖掘这些数据的价值?包括带来城市服务智能化、数据化,实施高效低耗,省人力又便捷的服务,也就是城市治理模式、服务模式和产业发展的突破。

0ea3fa31b529d9cda72eeeca0d0c493b4a9e0800

业界的现状是怎样的?虽然城市有很多的监控,或者说感知的设备,但还是有三个问题:首先是盲人摸象,就是单点的信息,大量的物理设备是损坏的,视频设备还远远没有被利用起来。另外就是灯下黑,设备当中智能的含量是非常少的,即便有智能,它的水准也是值得进一步改进的。在这种情况下,大量的摄像头需要人去看,但人没有这么多精力去看,今天我们是不是可以用技术自动去做全量摄像头的智能分析?雾里看花,已有的感知手段难以发现这些现象,比如不安全因素背后的原因。

b7c208ade332ddb8bbaf6c70058f7570c8ffca20

我们的城市大脑要做的是什么事情呢?目前城市大脑主要有这样几个应用场景:

数据出来以后要对整个城市进行全面、实时、全量的感知,摄像头看到的所有事情,包括人、车、物、事四个要素,全部都要了如指掌。有了这些以后就可以进行决策和优化,比如实时事故的报警、交通信号灯的优化。有了这些以后我们还可以把所有的视觉对象放到搜索引擎里面,就像刚才电商的搜索一样,城市当中的所有目标放到搜索引擎当中,这样可以很容易地找到肇事车辆和丢失的儿童和老人。

0c043051b88c7cf393a3301cb19042549155c83c

虽然我们没有预测每一个人的行为,但我们可以预测群体的趋势,比如预测二十分钟后交通的流量是怎样的。有了这些预测,甚至可以进行更长时间的预测,比如对明天的预测,如果预测的情况不太好的话可以提前干预,不要让不太好的事情发生,比如事故的概率增加、交通拥堵严重等等,进行提前的交通管控和疏导的处理,使得交通不要出那么多的问题。

af2c730e9ac8cce078364f5e3a6a050353c0516b

最早的感知其实叫做无感无知、感而不知和感而略知,今天我们在云上做的城市大脑是要做到感而全面知、感而全量知和感而实时知。因为今天的技术发展和算力的提升可以对整个道路的情况进行更详细、更准确的感知,包括车、人和物,包括各种事件的检测。

c6b4105d1e9c23acdef4be79393322e7d6a5c368

全量实时的感知其实是依赖于系统,我们是建立在阿里云的实时计算系统,建立大规模的实时视频处理系统。这里很重要的就是效力要足够高,当时我们做了很多的工作,其中的一个功能就是用机器替代交警的行为。

f43f5c9bb934d8884b9f20cfbd5a6c7158ee1229

有这么多的球机需要我们去看,杭州一个很小的范围有两百多个球机进行巡逻,可以代替两百多个交警的人力。发生交通事故以后,我们很快就可以判断哪里出了事情,一辆车停在哪里。全天候全面的交通事件感知,不同的天气、不同的光照当中非常小的目标都可以进行精准的检测和事件事故的报警。

如果要对一个地方的事件事故报警进行长期的统计,我们可以看出一些规律,哪里经常有报警就说明有些问题,我们就要进行线下的处理和改善,改善之后报警的情况就会发生变化。

dc3e58b3a90a0cddacbe3b5efaf30df27ed81d9a

我们利用城市大脑既有的监控设备发挥最大的效力,解决了交警的痛点问题,在不增加外场设备、不改变现有链路的情况下,通过视觉云计算、物联网技术迎来了一次新的性能提升。我们也在开始做AI芯片的尝试,使得成本进一步降低。

b73d3f2db951b405d5a3eca2d682cb933e689935

我们不仅是为城市解决这些问题,同时还要构建一个平台,使得城市的计算和场景成为人工智能的开放创新平台。这里黄色的部分其实是留给第三方一起创建城市计算的智能。刚才讲的人工智能是在各行各业,我们必须深入这个行业。

5b77a7258eedd701ed3b0e675d246951e65fd3ae

Intelligence Everywhere是不可替代的趋势,一些复杂的脑力劳动只要是有规律的,也有可能会被替代,更高大上的可能还有空间,但人工智能会成为他们的助力,从业人员如果要人工智能真正落到实处,就要深入行业,去创造一个未来。


原文发布时间为:2018-04-2

本文作者:新智元AI技术峰会

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:华先胜:城市大脑模仿者众多,揭秘阿里原版真正的技术实力

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

官方博客
官网链接