演讲嘉宾:苏中
内容概要:
一、人工智能进入三轮同时驱动的时代
二、M6:中文多模态预训练模型
三、M6超大规模预训练模型的应用场景
四、超大规模中文预训练语言模型PLUG
五、大规模预训练模型AliceMind在VQA任务上的突破
六、从弱人工智能(Narrow AI)到通用人工智能(Artificial General Intelligence)
人工智能学习里有一个很大的难点,如果我们希望让计算机认识苹果,可能要给它1万张甚至10万张苹果的图片,它才可能认得清楚。而人有特殊的能力,如果是小朋友,我们可能只需要给Ta一幅很抽象的画可能就足以让Ta辨识出苹果。如果给Ta一个真实的苹果,Ta甚至可以举一反三,这就是本文想阐述的小样本学习在生活中的例子之一。
零样本学习也是人特有的一项能力,我们可以将自己在某个领域里面的经验运用到另外一个领域,比如我原来是在企业的研究院做技术,现在在产业的研究院工作,做的工作跟以前不一样,很多东西就是零样本学习,这项能力是人特有的。
一、人工智能进入三轮同时驱动的时代
有时候人工智能并没有那么智能,我们会说它是人工痴呆,但只要我们能从过去的海量数据里面总结出经验就好。
人工智能有三个轮子,分别是数据、算力和算法。这些年在自然语言领域里预训练的技术,给我们提供了一个特别好的场景,就是可以给机器无穷无尽的数据,不用做标注。比如,我们可以把全世界历史上所有的诗词歌赋全部交给计算机去读。我们还发明了一些很好的技术,比如基于注意力模式有很多方式可以从语言的内容里找到关联,把人类所有的知识融在深度学习模型里,构建出一个非常庞大的语言模型。
我们做了一个简单的统计,在2019年之前,我们的算法模型没有超过10亿参数的。但从2019年以后,从GPT-2开始,出现了10亿以上的模型,接着开始出现千亿、万亿的模型。
在万亿的模型里面,机器好像开始融会贯通学到了一些东西。把这些内容放进去以后,尤其是GPT-2那些看起来非常炫酷的Demo,我们就可以跟它做自由交流了。它可能会通过图灵测试,让我们甚至不知道自己是在跟一个机器交流。
在这个场景下,我们发现通过算力、海量的数据能解决小数据或零样本学习的问题,取得了一定的突破。
二、M6:中文多模态预训练模型
(Multi-Modality to Multi-Modality Multitask Mega-transformer)
阿里在这方面做了一些工作,比如M6。
M6项目于2020年起步,从最初几亿的规模到2021年5月份万亿的规模,最近又突破了十万亿的大关,这个过程经历了很多挑战。为了让几百片显卡能够很好地工作,这里面不光涉及到人工智能的算法,也涉及到很多计算机体系架构,海量计算、绿色计算等的能力。
有了这样的万亿模型,我们能干什么?
三、M6超大规模预训练模型的应用场景
和Google的模型不一样,M6项目组做了多模态,把图片和文本放在一起学习。比如大家去淘宝网站上,可以看到任何产品都会有照片,照片旁边会有一段说明。我们可以把信息放到模型里,机器从当中去抽取一些规律,得到的结果令人惊诧。
上图是模型里的一个真实演示。我们每次都可以得到不同的答案,比如我们输入“男女外套保暖棉袄连帽轻棉衣”,也可以输入任何稀奇古怪的内容,比如乞丐服等等,模型都会生成一个衣服的款式,因为它能在所有的图片里找到与我们输入的文字信息和图片内容之间的关联。
我们输入了棉衣,机器并不理解什么叫棉衣,但它可以从海量的数据里找到棉衣应该具备哪些特征,然后用这种方式来生成一个高清晰度的图,这样的技术未来或许也可以用来做时装设计。
在电商领域还遇到一个挑战,比如有一个新的产品,我们应该用什么样的广告词比较合适呢?
我们可以输入产品的一个图,机器会输出许多文案,你可以从中挑选,甚至跟机器做交互反馈。它相当于把多种模型的能力构建在一起,有些能力可能已经超过普通人,这就是多模态大模型可能带来的一些非凡能力。
四、超大规模中文预训练语言模型PLUG
预训练语言模型PLUG是百亿的参数,可能是中文领域里最大的模型。
预训练语言模型PLUG把这些可以拿到的所有数据,比如把菜谱放进去让机器去学习,学完了以后机器就掌握了一些规律,输入西红柿炒胡萝卜,它就给我们一个菜谱,再点击一下还可以得到其他西红柿炒胡萝卜的菜谱。
预训练语言模型还有一个比较有意思的能力是小说续写,比如我们给它一段红楼梦,它可以往后续写。该模型不光是把语言本身的规律找到了,甚至找到了语言之间的关联,将故事串起来,类似于一个小朋友学会了讲故事,这一点是大模型计算机比普通人强的地方。
如果我们把海量的数据给到模型,它从中找到规律,通过这个规律去扩展,这上面就可以延伸出很多应用。比如让人头疼的各种报告汇报的撰写,在未来也许我们只需要给几个关键词,机器就可以帮我们写得很好。
五、大规模预训练模型AliceMind在VQA任务上的突破
接下来看一下大规模预训练模型AliceMind在VQA任务上最新的进展。
上图是AI在“读图会意”的场景。给计算机一个图,问它一个问题,然后它给一个答案,这就是VQA的场景。这个比赛已经进行了很多年,所以问题还是很复杂的,比如图中下方这个女生的胡子是用什么做的。准确的答案是香蕉,人类回答的正确率大概是80.83%,AliceMind团队的最新结果是81.26%,在这个数据集上它超过了人类的能力。
我们知道,一直以来深度学习在感知的某些方面早已超过了人类,比如在视觉、语音识别等方面,当然它还是跟数据集相关。但人类有些能力仍然特别,比如我从来没听过广东话,但当我到广东的时候还是能听懂一些,而机器如果完全没有听过广东话,那么它得到的结果可能完全不同。但是在非常复杂的数据集上,机器已经可以做到跟人一样,甚至更好。
我们可以设想一个场景,如果有海量的数据,海量多模态之间的关联,用大模型的技术有可能解决认知智能里小样本或无样本学习的场景。
六、从弱人工智能(Narrow AI)到通用人工智能(Artificial General Intelligence)
以前我在研究机构树立的目标是要做通用的人工智能,就是让机器可以像人一样学习思考,解决一些复杂问题,不局限于像电子拍摄违章等场景,而是能帮人做决策,可以像人一样主动发现问题,找到问题,甚至定义问题,最终目标是从感知到认知,真正实现从弱人工智能到通用人工智能。