华为在人工智能相关领域的发展路径选择,也许将直接改变中国 AI+ 时代的产业格局和江湖面貌。对于这句话,有些人能迅速心领神会。
过去几年,AI 已经成为华为的重中之重。新智元在和安卓绿色联盟、中科院自动化所合办的 6 月百人会闭门论坛上,特别邀请到华为 CBG 软件工程部 VP、终端智慧工程部部长张宝峰做了专门的讲解。张宝峰 1998 年加入华为,在信息科技领域有超过 18 年的工作经验,目前负责华为终端 AI 软件的开发和交付。他说:“对于手机终端智慧化的未来,我谈谈我的认知和理解,大家可以看看,哪些东西是对的,哪些是错的。”也许,他的认知和理解,正是理解终端智慧化产业方向的一把钥匙。
张宝峰简历:
张宝峰,华为 CBG 软件工程部 VP,终端智慧工程部部长,负责终端AI软件的开发和交付。曾担任华为诺亚方舟实验室副主任,负责数据科学领域的中长期技术研究工作,研究方向为数据挖掘、机器学习和人工智能。中国核高基专家组成员和中国 CCF 大数据专家委员会成员。
张宝峰 1998 年加入华为,在信息科技领域有超18年的工作经验,有丰富的国际/国家标准组织活动经验,曾任国际电信联盟13研究组固定移动融合课题的报告人,中国通信标准化协会网络与交换技术工作委员会副组长。
AI 已成为主驱动力之一——“吓尿”周期变短,影响范围变大
回溯人类发展的变化历程,是一个越来越加速的过程。一百万年前还是茹毛饮血时代的人,到了距今一千年前的农耕时代,见到了农耕生活的烤肉;一千年前农耕时代人去到两百年前,或是那时的人来到现在,看到天上的飞机、使用的手机终端,他们能感受到什么?
这代表了一个非常有意思的“吓尿指数”,未来学家库兹韦尔强调人类历史发展的加速度。如果生活在若干年前的人被带到今天的话,将被现在所谓的科技生活、交通现状、社会本身的现状所震惊。在几千年、几百年的社会发展中,科技进步扮演着非常重要的角色。谈到今天的时代,毫无疑问是人工智能。”
自从计算机在象棋、围棋方面打败人类之后,就再没被击败过。这次柯洁输了之后,估计大家没有太大兴趣再跟机器比谁强谁弱。这个曲线还再继续加速,加速过程中,我们认为未来很可能会超出我们自己的想象。
智慧革命和交互革命是未来驱动整个手机产业改变的两大主线
技术本身是一个虚拟的概念,真正实现变革的是产品,是终端形态的变化。未来终端到底会以什么样的形式交互?我们的技术在其中扮演着什么角色?
手机终端的变革,从最开始的模拟信号,只支持打电话功能,发展到了数字化的信息获取时,手机已经可以代替电脑。而未来会是数字助理,如何给用户真正最佳匹配,找到他自己想要的东西?信息能够更高效、更便捷地驱动手机用户从智能助理得到服务,这是我们真正追求的。
智慧革命和交互革命是未来驱动整个手机产业改变的两大主线,如何真正产生更自然的交互?我们用手机的时候,从以前的按键,到今天的触屏,到现在的语音,一代一代进展。如何用现代的人工智能技术实现“可用”?比如唤醒,这个功能本身很容易,现在有几种智能音箱都要马上上市。但唤醒又很难做。安静环境下,可以非常容易实现比较高的准确率。而到嘈杂环境的时候,比如正在播放音乐,或者有很多人聊天,这时正常唤醒,并且识别是你,就是一个很难的挑战。这是一个新的时代。AI 给终端带来的最大价值在于入口本身越来越精准,越来越人性,也就是越来越便利。
手机是一个现代 IT 技术集大成的设备,里面有大量的传感和交互信息,如语音、文字、视频、传感器,它能带来的一个很大的变化,使现实世界更容易更方便地变成数字化,并且由于手机现在已经毫无疑问成为伴随人每天工作生活时间最长的 IT 设备,它一定会产生非常重要的桥梁作用。
手机终端智慧化的未来——三大需求:理解用户,主动服务,终生学习
对于手机终端智慧化的未来,我谈谈我的认知和理解,大家可以看看,哪些东西是对的,哪些是错的。
第一,理解用户。大量的传感设备或者智能交互设备出现了,包括以前的眼镜、现在的手环,还有手表、手机,这些终端围绕某一个用户,已经在大量刻画所有的生活轨迹。围绕每个用户,有很多种终端同时为你工作的时候,需要真正懂你的代理,帮你代理终端本身的控制和交互。未来的终端里面,终端泛化需要真正懂你的助理。虚拟世界里面强调的是真正对“你”的理解和认知。未来 AI 往前发展,特别是对于消费者设备来说,这是第一个非常基础的需求:如何真正懂你,并且实现多端协同控制。
第二,变被动为主动。现在业务服务都是以 APP 的方式提供给大家,这是标准的智能手机的商业模式。但终端现状存在一些问题,比如一个用户手机平均装了一百个APP,任何一个功能,都有好几个APP能完成。打车有好几个APP,新闻阅读有好多个APP,但是每个APP,都还有一些小众化的需求是需要的。未来的智能助手,建立在用户认知基础上,替用户完成初步筛选,便利的主动推送,真正主动探知用户的需求,让用户一步完成想干的事。这是我们看到的第二个趋势,主动服务。
第三,智能终端的终生学习。终生学习并不是从用户接入开始到用户离开你的服务为止。类似人类从小孩到中年到老年,整个过程都能感知和认知,智能终端能不能在整个事件的生命周期内持续提供服务?比如从深圳来北京的一趟飞机,航班信息非常多,能不能决定一下选哪个?万一有一些意外,能不能提供一个备选方案?包括出行,包括酒店,包括航班,一系列信息其实都是连续的,行程任务很明确,所有的一切是不是能够替我在周期内完成?AI 整个能力部署之后,建立整个学习引擎之后,应该能够提供一个场景化选择适配的能力,能够知道我的用户的场景变化,以最佳的方式来完成我的任务,这里面是持续性的学习过程,不是单次的适应过程。但是本身来讲它是巨大的挑战,如果从完整事件的高度看,这需要聚合各式各样的 AI 能力拼成完整的系统,而这个系统本身的驻留产生终生学习的效果。通过成功完成每次任务,通过各式各样人的群体测试的叠加,它就会越来越智能。这个智能系统才是可持续发展的系统,不是单次型的智能系统,部署完、训练完就完了。这是从消费者解决方案的角度来看,AI 领域能够带来的非常大的变革性的场景化的需求。
终端智慧化的痛点:端侧智能,产品线实测,深度学习
以上三点是比较值得和大家分享的潮流和趋势,下面,我将提出来一些痛点,与行业内的专家们交流。
第一是端侧智能,加盟 CBG (华为消费者 BG)之前,我梦想有一个超级强大的云,一个在云端持续处理的超级强大的大脑。但是我们去年发布 Magic 手机的时候,有一个客户跟我提,用你们的手机正看着一个视频,突然跳出来一个推荐,说苏宁上卖的某个东西比京东上便宜 10 块钱,这是系统不停在分析用户本身的业务需求,客户建议说,你们要控制一下这个。
另外,像输入法这种模型,如果在手机上敲的每个字都要回到云端,从这个角度去想,其实个人感受还是非常不舒适的,不知道未来的人是不是能够适应这样的东西。现阶段社会里面还是有非常多的人比较敏感,他也许会想,我现在敲的每个字都在云端了,不知道你会怎么去用,我交互的一切你都获得了,我很担心。
这里有一个很重要的问题,迟延。今天上传 1028×760 的照片,至少要秒级的时间上传到云端,加上分析的时间,一个来回需要1点几秒甚至2秒以上,这样的体验在用户很多场景下是不可接受的。我当时来到 CBG ,感觉到很大的问题是,不管云侧做得多么准,从体验看过去,消费者真正接收到的其实是速度很慢的、且交互体验还存在很大风险的服务提供模式。”
从今年的产业变化看,各大厂商也意识到了消费者这层心理问题。Google 的大会发布了 TensorFlow Lite。如果放到端侧去,端侧是否能兼容 TensorFlow 的引擎和平台,让模型本身的东西在本地执行,现在还没有到模型的训练阶段。
华为已经在尝试能不能在本地进行简单模型的增强训练,或者简单模型的生成问题。Facebook 提出的 Caffe 2 是一模一样的故事,一样是关于如何能够真正在端侧有一个通路的引擎平台,使大家更方便去运转自己的人工智能复杂模型的问题。
在尝试端侧的过程中,我们遇到的第一个问题是,如何在端侧以用户可以接受成本的情况下,真正执行我们自己的智能体验,真正在端侧智能提供有效简化和信息获取便利的技术,这在所有的 AI 智能交互部分都会有挑战。
为了解决这个问题,我们在今年也会尝试做一款可以支撑人工智能模型在端侧执行效率的芯片。
端侧智能并不绝对代表云侧没有事干,终生学习、感知、认知,其实很多是离不开云的。但端侧智能有客观需求,从用户角度还有做产品的角度都有客观需求。这是今年遇到的挑战和值得尝试的方向。
第二,现阶段衡量人工智能水平非常重要的指标是语音识别,还有图像分类。这两点,大家都鼓吹已经超越人类,但是我们真正在产品线实测的结果还不成熟。
比如有些微信里面往往设计非常花的背景,字体设计五彩斑斓,这种情况下使用 OCR 技术实现真正通用的自然识别准确率,估计是所有的研究团队已经不再做的方向,但这是真正的实际指标。而语音识别在现实中有噪音的识别率是很低的。大家都在宣传人工智能已经成熟,已经超过人类,实际在真正应用场景里面差距蛮大。这是给大家提出一个期望和希望,即能不能真正变成实用、可用的。
别光说理想环境里面某个指标测上去达到百分之九十六、百分之九十七,甚至还在追求百分之九十七点几的精度。能不能真正泛化起来把环境场景做复杂一点,不要做太大的约束,而是变得真正可用。
前面两个指标都是跟端侧有一定的相关性。一周前,我们项目组在讨论一个非常简单的图像分类任务。960 × 960 的图片在端侧做分类不是很复杂的时候有 800 毫秒的时延,对人来说,操作时有感觉,相当于点了之后,顿了一下才会有交互的感觉。
在相机里面叠加一个计算机视觉功能的时候,我们遇到的问题是,多了 200 毫安。大家可能对这个单位不是很有感觉,手机里面如果一个任务超过 1 安培,手机其实是非常容易着火烧起来的。单任务超过 1 安培很危险,2 安培干掉 1/5 的上限。人工智能在计算机视觉里面启动人脸识别、性别识别,一系列任务都搞的话,能源的消耗也是不可接受的。我们希望在实现一个任务时,任何一个单位时延都在百毫秒以下、40 毫安以下。这也是专用手机 AI 芯片追求的技术指标。
我们其实是有约束的,AI 并不是模型越复杂越好,而是在一定情况下,一定考虑成本。我来了产品线之后,真正非常非常重视的是,在云端不是不能跑,而是跑了用不起来,那么做这个技术有什么用?在做今年的整个产品交付时,我面临着很大的压力,正好借这个机会跟大家分享一下。实实在在的指标是可以牵引着人们继续往下一代走,技术上可行了,就需要再多考虑一步,需要在面临场景的复杂度和工程约束时也能做到。这样,我们才认为这个 AI 技术能真正走到产业里来,确实解决了用户痛点的问题。
第三点,深度学习。昨天看微软的刘铁岩在知乎上写了很长的贴子讲,人工智能到了哪儿?他提出一个很好玩的概念:调参黑科技。
现在面试很多学生时,会问他做了什么,用深度学习模型做了多少层的网络,做了多宽的参数选择,用了哪些比较流行的各种各样的层,有点像堆积木。
我不否认这代技术很有用,深度学习客观来讲解决了很多功能上很难解决的问题,包括语音识别还有图像分类。但是这些东西是不是够?既然作为 AI 领域里面研究的先锋或者所谓先行者的话,大家还要考虑一下这个东西够还是不够的问题。
理论上来讲,深度学习的模型确实应该有最强的分析能力,但是深度学习是不是代表着只停留在这样的应用就够了?从产业应用角度,我们确实没有时间去打开看每一层里面有没有优化的空间,以及引入新的人脑科学的东西来去改进所有层的设计。光去搞调参黑科技是不太够的。基于大数据提取出来的问题,没有当时的特定情况,或者没有高频次反应,在现在的训练模型里面很容易把这种信息忽略掉,这意味着理论上来讲有一种 case 肯定会失效,意味着人工智能很多决策系统里面存在不可承受的风险。如何解决在最不可预测情况下保证模型不出灾难性后果的问题,这是非常值得鼓励的研究。
此外,不排除在工程实践里面继续做宽度、深度、广度、变换去解决实际问题,搞调参解决实际问题。如果有时间真正去攻关的话,这类技术的极限在哪里?是不是在产业化应用里面更好?模型可解释性,无外乎三种:树状、回归、网状。其实数量模型做完非常容易解释,例如:针对 30 岁的男性应该推荐某个商品,只要做出这个数量模型告诉大家为什么当时做了这个决策以及给了这个推荐就可以了。网络模型没有一个人能讲清楚到底为什么,反正能用,效果好坏能测出来,为什么从来不知道,这是这代技术的挑战和压力。我们非常希望得到可解释性的东西,包括有了 attention 之后,我们做非常复杂的网络意味着刚才提到的功率、内存所有的压力都不太现实。如果我们能够真正去理解这个模型,就可以做选择、做压缩,做裁剪。大家还是想想,既然做这种方向的研究,一定真正深下去、广下去。
文章转自新智元公众号,原文链接