基于超大规模预训练模型的小样本和零样本学习

简介: -内容概要:一、人工智能进入三轮同时驱动的时代二、M6:中文多模态预训练模型三、M6超大规模预训练模型的应用场景四、超大规模中文预训练语言模型PLUG五、大规模预训练模型AliceMind在VQA任务上的突破六、从弱人工智能(Narrow AI)到通用人工智能(Artificial General Intelligence)

演讲嘉宾:苏中


内容概要:

 

一、人工智能进入三轮同时驱动的时代

二、M6:中文多模态预训练模型

三、M6超大规模预训练模型的应用场景

四、超大规模中文预训练语言模型PLUG

五、大规模预训练模型AliceMindVQA任务上的突破

六、从弱人工智能(Narrow AI)到通用人工智能(Artificial General Intelligence)


人工智能学习里有一个很大的难点,如果我们希望让计算机认识苹果,可能要给它1万张甚至10万张苹果的图片,它才可能认得清楚。而人有特殊的能力,如果是小朋友,我们可能只需要给Ta一幅很抽象的画可能就足以让Ta辨识出苹果。如果给Ta一个真实的苹果,Ta甚至可以举一反三,这就是本文想阐述的小样本学习在生活中的例子之一。

 

零样本学习也是人特有的一项能力,我们可以将自己在某个领域里面的经验运用到另外一个领域,比如我原来是在企业的研究院做技术,现在在产业的研究院工作,做的工作跟以前不一样,很多东西就是零样本学习,这项能力是人特有的。




一、人工智能进入三轮同时驱动的时代

 

有时候人工智能并没有那么智能,我们会说它是人工痴呆,但只要我们能从过去的海量数据里面总结出经验就好。


image.png

人工智能有三个轮子,分别是数据、算力和算法。这些年在自然语言领域里预训练的技术,给我们提供了一个特别好的场景,就是可以给机器无穷无尽的数据,不用做标注。比如,我们可以把全世界历史上所有的诗词歌赋全部交给计算机去读。我们还发明了一些很好的技术,比如基于注意力模式有很多方式可以从语言的内容里找到关联,把人类所有的知识融在深度学习模型里,构建出一个非常庞大的语言模型。


image.png


我们做了一个简单的统计,在2019年之前,我们的算法模型没有超过10亿参数的。但从2019年以后,从GPT-2开始,出现了10亿以上的模型,接着开始出现千亿、万亿的模型。

 

在万亿的模型里面,机器好像开始融会贯通学到了一些东西。把这些内容放进去以后,尤其是GPT-2那些看起来非常炫酷的Demo,我们就可以跟它做自由交流了。它可能会通过图灵测试,让我们甚至不知道自己是在跟一个机器交流。

 

在这个场景下,我们发现通过算力、海量的数据能解决小数据或零样本学习的问题,取得了一定的突破。




二、M6:中文多模态预训练模型

 

(Multi-Modality to Multi-Modality Multitask Mega-transformer)

 

阿里在这方面做了一些工作,比如M6


image.png


M6项目于2020年起步,从最初几亿的规模到20215月份万亿的规模,最近又突破了十万亿的大关,这个过程经历了很多挑战。为了让几百片显卡能够很好地工作,这里面不光涉及到人工智能的算法,也涉及到很多计算机体系架构,海量计算、绿色计算等的能力。

 

有了这样的万亿模型,我们能干什么?



三、M6超大规模预训练模型的应用场景

 

Google的模型不一样,M6项目组做了多模态,把图片和文本放在一起学习。比如大家去淘宝网站上,可以看到任何产品都会有照片,照片旁边会有一段说明。我们可以把信息放到模型里,机器从当中去抽取一些规律,得到的结果令人惊诧。


image.png


上图是模型里的一个真实演示。我们每次都可以得到不同的答案,比如我们输入“男女外套保暖棉袄连帽轻棉衣”,也可以输入任何稀奇古怪的内容,比如乞丐服等等,模型都会生成一个衣服的款式,因为它能在所有的图片里找到与我们输入的文字信息和图片内容之间的关联。

 

我们输入了棉衣,机器并不理解什么叫棉衣,但它可以从海量的数据里找到棉衣应该具备哪些特征,然后用这种方式来生成一个高清晰度的图,这样的技术未来或许也可以用来做时装设计。

 

在电商领域还遇到一个挑战,比如有一个新的产品,我们应该用什么样的广告词比较合适呢?

 

我们可以输入产品的一个图,机器会输出许多文案,你可以从中挑选,甚至跟机器做交互反馈。它相当于把多种模型的能力构建在一起,有些能力可能已经超过普通人,这就是多模态大模型可能带来的一些非凡能力。

 



四、超大规模中文预训练语言模型PLUG

 

预训练语言模型PLUG是百亿的参数,可能是中文领域里最大的模型。


image.png


预训练语言模型PLUG把这些可以拿到的所有数据,比如把菜谱放进去让机器去学习,学完了以后机器就掌握了一些规律,输入西红柿炒胡萝卜,它就给我们一个菜谱,再点击一下还可以得到其他西红柿炒胡萝卜的菜谱。

 

预训练语言模型还有一个比较有意思的能力是小说续写,比如我们给它一段红楼梦,它可以往后续写。该模型不光是把语言本身的规律找到了,甚至找到了语言之间的关联,将故事串起来,类似于一个小朋友学会了讲故事,这一点是大模型计算机比普通人强的地方。

 

如果我们把海量的数据给到模型,它从中找到规律,通过这个规律去扩展,这上面就可以延伸出很多应用。比如让人头疼的各种报告汇报的撰写,在未来也许我们只需要给几个关键词,机器就可以帮我们写得很好。




五、大规模预训练模型AliceMindVQA任务上的突破

 

接下来看一下大规模预训练模型AliceMindVQA任务上最新的进展。


image.png


上图是AI在“读图会意”的场景。给计算机一个图,问它一个问题,然后它给一个答案,这就是VQA的场景。这个比赛已经进行了很多年,所以问题还是很复杂的,比如图中下方这个女生的胡子是用什么做的。准确的答案是香蕉,人类回答的正确率大概是80.83%AliceMind团队的最新结果是81.26%,在这个数据集上它超过了人类的能力。

 

我们知道,一直以来深度学习在感知的某些方面早已超过了人类,比如在视觉、语音识别等方面,当然它还是跟数据集相关。但人类有些能力仍然特别,比如我从来没听过广东话,但当我到广东的时候还是能听懂一些,而机器如果完全没有听过广东话,那么它得到的结果可能完全不同。但是在非常复杂的数据集上,机器已经可以做到跟人一样,甚至更好。

 

我们可以设想一个场景,如果有海量的数据,海量多模态之间的关联,用大模型的技术有可能解决认知智能里小样本或无样本学习的场景。




六、从弱人工智能(Narrow AI)到通用人工智能(Artificial General Intelligence)

 

以前我在研究机构树立的目标是要做通用的人工智能,就是让机器可以像人一样学习思考,解决一些复杂问题,不局限于像电子拍摄违章等场景,而是能帮人做决策,可以像人一样主动发现问题,找到问题,甚至定义问题,最终目标是从感知到认知,真正实现从弱人工智能到通用人工智能。


image.png



相关文章
|
Ubuntu 网络协议 Java
【Android平板编程】远程Ubuntu服务器code-server编程写代码
【Android平板编程】远程Ubuntu服务器code-server编程写代码
|
存储 SQL 关系型数据库
创建并配置RDS实例
在阿里云上创建RDS实例涉及登录控制台、进入RDS管理页面、创建实例、选择数据库引擎和版本、配置实例规格与存储、设定网络与安全组、设置实例信息、确认订单并支付,最后初始化数据库。操作步骤可能因界面更新或数据库引擎不同略有差异。
598 1
|
2月前
|
异构计算 Python
ERROR: pip’s dependency resolver does not currently take into 报错-Python项目依赖冲突的解决方案-优雅草优雅草卓伊凡
ERROR: pip’s dependency resolver does not currently take into 报错-Python项目依赖冲突的解决方案-优雅草优雅草卓伊凡
319 1
|
1月前
|
存储 数据采集 机器学习/深度学习
104_持续预训练与领域适应:大模型专业能力提升指南
在人工智能领域快速发展的今天,大语言模型(LLM)已经成为自然语言处理的核心驱动力。随着GPT系列、PaLM、LLaMA等模型的涌现,大模型的通用能力得到了显著提升。然而,在实际应用中,我们经常面临一个关键挑战:如何使通用大模型更好地适应特定领域的专业知识和任务需求?持续预训练(Continual Pre-training)与领域适应(Domain Adaptation)技术正是解决这一问题的关键路径。
|
机器学习/深度学习 数据采集 人工智能
TÜLU 3:Ai2推出的系列开源指令遵循模型
TÜLU 3是由艾伦人工智能研究所(Ai2)推出的开源指令遵循模型系列,包括8B和70B两个版本,未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本,提供了详细的后训练技术报告,公开数据、评估代码和训练算法。TÜLU 3基于强化学习、直接偏好优化等先进技术,显著提升模型在数学、编程和指令遵循等核心技能上的表现。
376 4
TÜLU 3:Ai2推出的系列开源指令遵循模型
|
机器学习/深度学习 存储 自然语言处理
深度学习之少样本学习
少样本学习(Few-Shot Learning, FSL)是深度学习中的一个重要研究领域,其目标是在只有少量标注样本的情况下,训练出能够很好地泛化到新类别或新任务的模型。
457 2
|
机器学习/深度学习 自然语言处理 计算机视觉
【大模型】小样本学习的概念及其在微调 LLM 中的应用
【5月更文挑战第5天】【大模型】小样本学习的概念及其在微调 LLM 中的应用
|
前端开发 定位技术 数据库
如何自己独立制作网站?
本文介绍了网站建设的三大步骤:网站建设、域名注册、服务器租用。其中,定制建站是传统方式,SAAS平台和独立建站系统则更适合低要求和有建站需求的用户。
454 10
|
存储 自然语言处理 数据库
Python字典操作实现文章敏感词检索
Python字典操作实现文章敏感词检索
208 1
|
机器学习/深度学习 存储 算法
小样本问题
【10月更文挑战第1天
430 0