杨强,香港科技大学计算机科学与工程学系系主任,人工智能领域学术界的领军人物,华人界唯一的国际人工智能协会 (AAAI)councilor,IEEE 大数据期刊主编,ACM 杰出科学家。两次获得国际数据挖掘领域最高级别竞赛 KDD Cup 世界冠军。杨强教授发表论文 400 多篇,被引用超过 20000 次。
但同时,除了扎根科研界,杨强教授还是人工智能领域深入商业应用领域的顶级专家之一。目前,杨强教授担任人工智能技术与服务提供商第四范式的首席科学家,带领这家被广泛看好的人工智能公司不断取得科技突破,近期第四范式在乌镇世界互联网大会上发布了可供大部分互联网公司使用的人工智能公有云产品,也是基于杨强教授与团队「AI for everyone」的共同价值观。日前,极客公园对杨强教授进行了专访。其中,杨强教授不仅向我们介绍了第四范式这家公司的研发方向,还就人工智能领域的很多动向及发展状况做了解答,其中颇有很多值得琢磨的地方。
同时,杨强教授本周也出席了腾讯网媒体高峰论坛,他在现场也就人工智能和媒体行业的关系与发展发表了精彩的演讲。我们将他的演讲实录附在文后,希望能对你有所裨益。
采访实录:
问:作为「迁移学习」这个领域的专家,您觉得它对人工智能产业的影响和作用是什么?能给我们举两个例子吗?
杨强:首先,现在人工智能过多依赖大数据,这是很危险的。危险来自几个方面,首先收集大数据需要很多时间资源,有了数据以后还得去处理数据,之后机器才能学习,在这个处理过程中需要有人参与,而凡是有人工干预的,要求就特别高。迁移学习的思想是,通过发现大数据的模型和小数据问题之间的关联,然后把模型迁移过去,这样一来如果在大数据领域先得到了机器学习模型,在研究下一个相关领域时,只用一部分数据或者小数据就可以完成。利用迁移学习这一特征,我们就不用花大力气去收集资源了,这对人工智能的发展非常关键。比方说新开一个网店卖一种新的糕点,因为没有任何的数据与模型,我们没有办法对用户进行推荐,此外,当我们看到用户购买一种糕点后,也无法预测用户还会买其它哪种糕点;但如果我们知道用户在另外一个领域已经有了很多的数据,例如是用户购买饮品的历史数据,那么利用这些数据建立模型后,根据用户饮品习惯和糕点习惯间的关联性,我们就可以把饮料的推荐模型给成功迁移到糕点领域,成功的推荐给每个用户他们喜欢的糕点。
其次,人的思维是在一个形象的符号空间的思维,而不是深度学习那样的特别细粒度的机器学习思维。符号空间的思维能够归纳、抽象知识,并且在不同领域做关联和联想,能够很自然地进行迁移学习,这是人的思维特点;如果想要机器做到这一点,同样也要做到归纳和迁移,这就是迁移学习的基础理论。此外,还要从大量数据升华到符号空间的逻辑,再通过迁移学习技术做类比,真正做到举一反三,并可以基于此去预测、概述未来发生的事情。迁移学习是人工智能的下一发展阶段——机器不再是就事论事,而是拥有了像人一样的举一反三的能力。
问:有评论认为「作为人工智能实现的核心,算法将成为未来国内人工智能行业最大的竞争门槛。」你觉得就国内的情况来说,算法方面的发展情况怎么样?
杨强:国内的算法现在和国外的差距不大。因为大家已经可以获得大量标注数据,深度学习在语言和图像方面取得很大成功。但除了语音和图像,其他领域公共的数据其实非常有限,所以更商业方面的研究只集中在几个公司,电商数据集中在 BAT,银行业务数据集中在金融机构,在这样较为封闭的环境中,发展就会受到一定影响。
另外,国内机器学习方面的创新还没有国外多,开放的系统也没有国外多。在国内,我们有必要鼓励开放数据、开源系统。第四范式刚刚发布的「先知公有云版」就是面向互联网企业,可部署在公有云上的机器学习平台。它打破了数据、人才和技术的壁垒,让各个阶段的互联网企业都能掌握并受益于人工智能。
问:人工智能的应用在由专业领域向通用领域过渡的过程中,哪些是最需要解决的困难?未来多久我们才能迎来在这方面的突破?
杨强:在通用领域我们已经取得了一些突破,比如亚马逊出了一款叫 Echo 的硬件,可以满足人们在某些场景下的需求,比如在家庭场景,可以让它帮助放音乐,问它今天的新闻是什么,这个产品已经有几百万的用户。Echo 成功的原因是它找到了一个特别好的场景,在家庭中,大家有获取知识和音乐的需求,抓住需求后就把家庭这个场景运用起来了。这种人工智能的做法就是从一个或几个垂直领域的成功,往外扩展,再把它们连成一片。我认为以后类似场景很多,比如工作、开车、出行、教育等。下一个人工智能的突破,应该是在几个场景下有限的通用性,而不是没有限制的通用性,可能先达到的就是这样一个阶段。
问:人工智能如果想进入更高级的水平,您觉得下一个要做的工作是什么?比如说我们人类比较重要的是处理一些隐性的知识,还有情感的问题,下一步人工智能在这个方面会不会有更多的提高?
杨强:情感问题也可以按理性的方式来处理,我们可以去检测处理的效果是否符合人的情感。但其实情感问题并不是机器学习目前的首要问题,首要问题是建立一个通用的机器学习系统。现阶段还没有出现非常强的通用系统,主要原因是现阶段机器学习的成功主要集中在大数据上面,我们知道,大数据比较多的地方是比较垂直的领域,这些领域的特点是范围比较窄,远远没有达到通用性。所以机器学习包括情感计算的瓶颈是,我们如何能把通用领域里用户在系统里的交互行为用数字化的形式留下来。这个瓶颈的解决办法需要传感器网络或者物联网的普及,带来更多的数据的流通。
问:您觉得目前国内人工智能领域的发展情况如何?最大的不足是什么?您对国内人工智能科研人员及创业公司有哪些建议?
杨强:国内目前人工智能发展还是相当乐观的,很多大学都在研究人工智能。但与国外相比,国内的不足之处也比较明显,国内过多去做机器学习,而忽略了人工智能的其他领域,比如逻辑推理、智能规划、机器学习的可解释性和多智能体等前沿领域。
如果是对人工智能科研人员的建议,我觉得国内的人工智能研究不能太跟风,要对自己的研究领域有信心、不断创新,尤其是在大学的研究者,每个大学的教授应该是独树一帜的,自己领先一个子领域,而不是跟着别人去做。其实在科研和工业界都是需要持续创新力的,不过对公司而言,还是要首先考虑生存,也不要以为人工智能可以包罗万象。
问:您目前担任人工智能初创企业第四范式的首席科学家,作为一家人工智能技术提供商,你们提到自己是「全球第一个商用人工智能系统的架构、中国最大的人工智能系统研发和运营」。同时,你们也称自己的产品「先知」也是人工智能领域第一个平台级产品。如何理解「平台级产品」这个概念?
杨强:以前基于云端的机器学习在大众化的应用不多,机器学习大部分都是单机的,缺点是需要客户把大批数据上传,这对于客户来说是一个隐私流失,是很多客户所不希望看到的。为了避免数据流失,一些有条件的客户会做本地的数据中心,这需要非常大的投入,包括资源、资金和人力的投入。但很多客户、尤其是互联网公司,他们真正关心的其实不是建立这样的 IT 小组或者数据中心,而是怎么利用人工智能来提升自己的业务。那么如何帮助他们解决数据上传问题、满足机器学习在业务方面的需求呢?「部署即可用」的平台级产品就变得非常重要。在云上就可以快速完成从问题定义、数据接入、特征工程直至上线应用的整个机器学习流程。第四范式的先知公有云版就是这样一个平台,利用先知公有云版企业不需要再重建机器学习团队,现有团队一个月内就能搭建出自己适用的 AI 系统。这极大降低了机器学习的门槛,同时能使得大家把精力放在自己的业务上。
问:现在有说法说「国内的人工智能产业链将更为明显地分化为以 BAT 为代表的生态平台、以科大讯飞和格灵深瞳为代表的垂直技术解决平台等。」您怎么看人工智能公司的几种不同类型的路线选择?第四范式目前正在走哪种路线?
杨强:第四范式走了第三条路。第四范式不像 BAT 或者电商那么宽泛,要打造自己的生态;同时也没有只追求纵向的专业领域突破,而忽略了横向的业务延展。第四范式在一个垂直领域扎得很深,了解这个领域的痛点和背景,然后基于实战经验与案例来提供一个领域内的通用平台,同时这个平台又在该领域做得比较成功,提供的算法都是特别适用于领域里的。比如大规模的自动特征工程就是一个例子,用很少的人工就可以自动获取大量特征,然后就自动进行机器学习,最终实现人工智能在个性化推荐、精准营销等业务场景中的应用。所以可能用第三个路径来描述第四范式可能更恰当。
问:怎么看目前人工智能技术在 C 端的应用情况,比如智能家居?
杨强:智能家居一直以来都是大家关心的题目,工业界诸如小米、联想等企业都试图在这个领域有所突破。我觉得技术上应该问题不大,但还没有抓住很好的场景。好场景的要求是,可以提供高质量的数据,数据要持续不断地更新,而且场景要一直向客户提供反馈,总的来说就是不断地提供数据和数据反馈标注。所以,如果能够找到一个好的场景,有这样的数据,更大的突破应该是早晚的事。但除非找到这样的场景,否则只能做一个好的框架,没有数据和服务,智能家居很难取得重大突破。
问:您个人这两年在国内参加了很多人工智能方面的创业项目,相比纯粹的科研工作,您会觉得参与企业的创业对这个行业更有帮助吗?
杨强:我觉得这两者一定要结合起来,实验室的工作和接触大规模的工业问题是不可分割的。在实验室工作、参加学术会议或者拜访一些其它的实验室,可以关注整个业界的发展;在工业界,可以解除人工智能在应用上所产生的很多实际问题。现在这个时代离不开数据,在人工智能领域,实验室和工业的结合是双向有益的。
杨强教授本周在 2016 腾讯网媒体高峰论坛现场的演讲速记
大家好!今天我很高兴能够跟大家分享一下我的一些看法,尤其是人工智能的到来和媒体会怎么发展的技术路径。
今年 AlphaGo 是一个大事件,我们现在要问,AlphaGo 为我们带来了什么?从技术和商业上、从未来的发展方向上,能不能从 AlphaGo 的发展看出一些端倪?
首先我们看到在过去人工智能的发展经历了几次大事件。首先是 IBM 深蓝、沃森为我们带来了很大的惊喜,告诉我们计算能力真的是很重要。有了这种计算能力,我们就能够比人搜索的要深,比你回答的要快,能够回答一些尝试性的任务。
但是 AlphaGo 又加了一条,告诉我们原来数据也很重要。不仅如此,高质量的富贵数据更加重要。什么是高质量的数据呢?其实创造 AlphaGo 这个系统是需要几个条件的:
首先就是能够很清楚的认识到那些是我们的目标。这些目标要清楚到什么程度呢?要用数学公式写下来。
其次要清楚认识到数据来自于哪里。这不是一天就可以做好的,比如 AlphaGo 是经历了十几年的时间,才获得了如此高质量的大量的数据。
同时对问题的了解要深入到特征的层面,要从一个问题能够抽取出大量的特征。
最后是要有非常合适的自学习的方法来做这件事。
下面我们来看一下今天具体感兴趣的题目是 A.I. 能够为媒体带来什么,说起媒体就离不开文本和自然语言的分析,什么是文本呢?文本就是小说、新闻这些,我们可以把这些数据认为是非结构化的数据,是一个非常有意思的数据,不枯燥,但是对于机器来说却是一个难题,因为没有结构,是需要我们人去理解它才会有结构。
今天有一种技术叫机器阅读,阅读的成果是中间的理解、表达,这个表达叫做隐式表达。
这种表达通过第二种模型,也就是说我们所说的机器学习、自然语言的生产模型,能够为我们人产生出各种各样的我们所需要的数据。就好像我们旁边有一个助手在我们帮助进行了大量的阅读,然后根据我们每个人的需求可以跟他进行对话来获得他阅读的知识,所以是这样两个过程。一个是机器阅读系统,一个是自然语言的生成系统。
机器阅读有哪些应用呢?比方说在谷歌的邮件中就可以通过模型对大量邮件的阅读形成一个端到端、序列到序列的模型,这个模型通过阅读一个新的用户邮件,自动地产生一个可能的用户反馈,这样用户在给最后一个决策就可以很简洁地恢复邮件,这样就大大提高了用户的体验。
机器翻译就不用说了,这是非常有用。但是最近深度学习的发展,可以让机器能够自动地用算法学习到一种语言到另外一种语言,可以自动对应。这种对应在之前是很少的,但是用机器学习来做就大大增强了。它的效果是可以使注意力机制大大加强,什么叫注意力机制呢?就是在一句话里面哪些部分是关键部分,我们可以拿这些部分来代表整个话的意思,这样可以用聚焦的方式来加强理解。应用了这个以后,比分就大大提高了。
还有一个应用可以让计算机去做很多阅读,阅读的结果可以由我们人来询问。比方说让他看了一个语文的试卷、历史的故事,我们可以问一些关于历史人物、历史事件的问题,计算机可以圆满地做出回答。
还有一种就是我刚才说的注意力机制,可以帮助人描画出哪些文本的部分是我们阅读者应该去注意的,就好像我们学生在上课的时候经常会画一些需要关注的重点,这样我们考试的时候就会有的放矢。机器在今天已经会做到这一点了,这个叫做完形填空的回答。
这个再发展下去,又可以让机器大量地背唐诗,并且可以自己写诗。这里是香港科技大学的图片,图片有山有水,这个模型可以在唐诗里面选择最合适的唐诗来配这副画。同时利用生成式的模型,还可以自动地产生。比方说当输入对联上联的时候,就可以拿它作为输入,这样的生成模型可以自动产生下联,而且通过注意力的机制使上下联对仗非常公正,这在人看来都是一个智慧的象征,但是今天对于机器来说已经是非常简单了。
我说了这么多对智媒的进化预示着哪些呢?首先我对我的观点进行打分,5 分是最高,1 分是最低。我们看看刚才讲到的 5 个必要条件,分别是数据量、边界够不够清晰/问题定义得够不够清楚、外界的反馈够不够好、计算资源是不是足够、有没有跨界人才,以此来判断这个领域的爆发力的指数。
我们先看看在媒体方向上最关心的是能不能用 A.I. 来帮助新闻编辑室做一些人工智能的编辑,机器人的编辑助手来大大提高我们的编辑效率。在这一方面,应该说一个重要的方向是给了一个文章或文本能不能够自动写出一些摘要,给出一个文章,能不能自动地产生一个吸引用户的标题。在过去的做法,这个领域叫做摘要的编辑,摘要编辑过去的做法叫做抽取式的新闻写作。
这里有一个例子,就是在一个足球赛里面,通过对解说词的分析,用解说词来训练一个模型,最后这个模型可以在解说词当中抽取特征。另外是再把这些重要的特征所指出的句子给摘出来,再把他们拼接起来形成一个很短的摘要。这个事已经可以做了,在过去十年、二十年已经做得不错了。但是毕竟不像人一样去读一篇文章,再根据我们的理解重新写出一个摘要,或者是编出一个非常好题目。
如果要做到这一点,我们就需要一个所谓的生成式的模型,这个模型可以做什么呢?可以把每一句话读进来,并且可以对应到输出,这个输出往往是上文对下文的序列到序列的对应。这种对应还不足以产生我们所想要的高质量的摘要。在这个基础上,我们又在上面可以加一层强化学习或者增强学习,使得这样的摘要过程有目的性。也就是说两种学习,一种是序列的深度学习,另外一种是增强学习,这两种加在一起就可以产生基本上跟人差不多水平的一个摘要。比方说这里的一个例子,是对一个新闻的文章产生一句话的摘要。
我们来开一个脑洞,也可以让机器去读小说,比方说有《射雕英雄传》、《笑傲江湖》,可以把这两个小说给合并起来,怎么合并呢?利用模型来合并输出一个新的小说,这个小说是《笑傲英雄传》,这个事是怎么做的?可以用循环的神经网络(RNN)来产生各自的模型。阅读了以后,产生的模型通过迁移学习迁移到一个共同的空间,这个共同的空间就是得什么呢?生成的模型可以使得我们阅读小说。比如说洪七公和令狐冲这样的人物可以进行打斗,可以看得非常通顺。这个跟人的反馈、强化学习、增强学习的机制是分不开的,也是今天大数据的一种结果。
刚刚讲的是第一种新闻编辑和摘要的产生,第二种我认为有希望的方向是信源捕获。什么意思呢?我们可以在一个新的领域利用新的手段获得一些信号,并且把这些信号转变成我们要的新闻内容。在这里举几个例子,首先是假设我们有很多的文章,可以自动地把这些文章给产生成一些问题和答案的配对,也就是问题和答案的集合。这就像我们理解了一些过去某个政治人物或某个著名人物写过的文章或关于他的文章,以后自动产生一些想要问他的一些问题,这个过程是需要人去理解文章,然后产生一些高质量的问题。
今天我们可以用深度学习来做到这一点。这是怎么做到的呢?这是两种信息的结合,一种是知识库,也就是对整个领域的认识。另外一种就是文本。我们把这两种结合起来,就可以自动地生成一些挺不错、质量挺高的一些问题,就好像我们下面就可以去面对这位被访问的人物了。
这也可以延伸到从文字到图片,比如看了一个图片,现在也有一种方法可以利用计算机神经网络抽取出特征,用另外一个模型来产生问题。也就是说对着一个图片,可以产生对于这个图片的问题。这个问题也就变成了这个图片的一个标注,或者可以到外面去邀请别人来回答这样的问题。
假设今天有了很多的传感器,可以把传感器收集的数据、信号自动转变成人可以去读的文章,比方说我有一个学生很热爱骑马,它造了一个传感器可以放在马尾巴上去观察马的健康状况,同时可以把它翻译成人可以读懂的信号,以此来了解整个赛马的成长过程。
进一步就是想把传感器放在宠物的身上,在宠物的日常活动当中和人的交互当中,可以把宠物的行动变成人能读懂的自然语言,就好像宠物在跟你用说话的方式在交流一样。
我还有一个学生在用手机作为传感器来记录用户每一天的行为,到晚上的时候就自动把所有收集的手机信号转成一个自然语言的日记,把这个日记给这个人,可以修改一下,也可以发朋友圈。
还有一个方向是信源可视化的追踪,比方说我们有了很多社会网络,里面有很多的信息的传播、新闻的传播,通过可视化可以观察到这个传播的路径、地点和传播的方式,可以根据人群来细分。同样一个新闻内容,我们就可以对不同的人进行不同的服务。比方说小朋友得到的内容,可以和成年人得到的内容形式不一样,但是基本内容都是一样的。这样可以自动化个性去投放。
还有一个方向是视频和资讯的一种互动,这方面的数据量是庞大的,边界也足够清晰。但是一个重要的问题是跨界的人才特别少,我指的这个资讯和 A.I. 的互动到底是什么呢?比方说很多的视频,能不能有能力让计算机看这种视频,然后用文字的形式告诉我们,给我们一个文字的摘要。像这样的是我们的一个梦想,这样就可以自动地去检索很多的视频,自动地去搜索,可以找到我们想要的视频。
另外一些新闻视频也可以帮助编辑去找到他们人为的高质量的适合编辑内容的视频,这个事在大学的实验室里面已经有很多的尝试了。其中一个方法是把视频通过深度学习转化成特征,然后在通过这些特征再转化成文字。从视频到文字,甚至可以从文字到视频,你可以描述一个像电影的脚本一样,然后自动地一个通过拼接的方法产生一个可能的视频。这方面还有所欠缺,关键点是跨界的人才和用户的反馈还不够多。
大家关心的另外一个方向是智能分发,这个新闻怎么分发到想看这个新闻的用户的手里。在过去这个方向叫做推荐系统,在电商里面已经大量地使用。但是新闻有它的特点,因为新闻是靠内容来取胜,所以一定不能忽略信息的内容。比方说我们人看新闻,是因为我们好奇,对于新闻感兴趣,怎么样能够把好奇的人和好奇的内容给结合起来,怎么能把桥梁给建立起来。比方说一个用户带历史上经常读一些财经的文章,现在又比较关注美国大选,能不能以此来推断他关心的就是特朗普对财经的政策,以此可以推送很多这样的新闻。这种信息既有用户的行为信息,又要有内容的信息,像这种的结合现在已经开始有这方面的研究了。
举个例子,用推荐系统来做基于内容的推荐。这个时候一个特点重要的点是用户的兴趣会随着时间而变的。比如我去年感兴趣的东西,今年不一定感兴趣。今天在上班时候喜欢看的新闻,和我放假时喜欢看的新闻完全不一样。怎么样通过杂乱的信号源发现用户的兴趣点在哪儿,然后能够把变化用模型描述出来,这个是有一个叫做部分可观察的马可夫决策过程。但是应该说数学模型是在的,但是有很多的计算局限,一个局限是高质量的数据,第二个局限是计算能力。随着时间的推演,我觉得数据一定能够收到,计算能力也一定能达到那一天。我觉得我们有能力来预测用户长期的兴趣变化。
还有一点是资讯服务,我们有了资讯怎么把资讯和用户非常顺畅地进行交流。在这一点上,我觉得大家可以关注的是人机对话的系统,也许是用自然语言对话,也许就是人机交互的系统。比方说我们在车里,在这样的一个场景中,但是又特别关心美国大选的结果,所以我就可以问机器人这样的问题。比如问在美国选票情况如何,机器人会告诉我各州开票的情况,这种对话的方式是需要机器人做大量的阅读,去现在的场景。另外对当前的舆情分析也是非常了解,最后根据我的兴趣来做一个总结。
要做到这一点,这个机器人的智能点来自于几个方面。
第一个要能够有对话的基本功能,这个是来自于一个技术,叫做深度神经网络。
第二个要能够完成某种任务,比如信息搜索或者是总结,或者是生成一个对话,这个是需要强化学习的能力。
第三个是一个新的研究方向,叫做迁移学习。它能够做什么呢?可以把一个通用模型给个性化,把一个大数据产生的模型能够在个人的小数据上面给个性化,这样可以产生一个很体贴的机器人。
未来这三种方式都不可缺少,最好的方式是把这三个放到一个统一的通用富贵模型里面。我们期待这样的机器人可以做些什么呢?他们可以跟你闲聊,可以给你推荐信息,可以引导你去学习一些东西,并且可以提醒你该读这样的问题了,该看那样的东西了。
在这里举一个例子,比方说一个任务型的对话系统在读了很多古诗的信息、财经类的信息以后,你就可以跟他对话了。比方你问他 700 的股票现在情况怎么样?这个模型会产生一个侯选集,也就是这里的 A1、A2、A3。根据你的兴趣它可以进行排序,排序的结果就会产生出它对你的回答。比如说它的回答是「你想知道 700 最新的新闻吗?或者你想知道这个股价的走向吗?」这样就是一个很自然的任务型自然语言对话的系统。
总结起来说,我们今天的这种变革应该说确实是一种变革,因为就类似于工业革命。工业革命对应过来就是我们今天所说的智能的革命。当时的工业资本家、金融的资本家今天对应过来,应该是所谓的数据资本家。智能的能力能够建模,可以有跨界的能力、计算的能力、好的反馈、明晰的边界,这些能力的总和是我们所说的智能的能力。这种智能的能力如何能够把它赋予给大众,使得 A.I. for everyone,使得人人可以享受智能的红利,这也是今天我们所要严肃思考的。
因为这样发展下去的一个趋势,是数据有可能聚集在少数人手里,智能和智能的服务也许只有少数人才能够控制所有的发展。我们需要把门槛给降低,使得人人都成为内容的生产者,人人都能够用人工智能来促进他和媒体有机的结合。
我们下面需要思考的内容,包括 A.I. 时代是否还需要内容的生产者呢?是不是还需要人类的编辑?人工智能会带来一个崭新的不一样的内容生产方式吗?如何避免数据寡头的产生?我们如何能够把智能惠及所有的人群,让大家同时进步。这些是我们大家一起需要思考的问题。