十问科学家|关于多模态预训练,杨红霞这么说

简介: 多模态预训练将成为下一代人工智能的基础设施,通过超大规模的参数模型和强大的学习能力,有可能为智能制造和搜索带来全新改变。

杨红霞
阿里巴巴达摩院人工智能科学家

杨红霞在达摩院致力于研发新一代人工智能,带领团队开发的“M6超大规模、多模态、低功耗、预训练模型”,稳定地支持了淘宝天猫的搜索和广告、犀牛智造等核心业务场景。

加入阿里巴巴之前,杨红霞曾任IBM Watson全球研发中心研究员,雅虎主任数据科学家。在顶级会议和机器学习国际学术期刊发表论文80余篇,拥有9项美国专利,带领团队获得2019世界人工智能大会最高奖项卓越人工智能引领者(Super AI Leader,简称SAIL奖),2020年国家科学技术进步奖二等奖和2020年杭州市领军型创新团队等荣誉,毕业于美国杜克大学。

Q1: 如何向一个小学生描述你现在正在研究的方向——超大规模、多模态、低功耗、预训练模型?

杨红霞:超大规模、多模态、低功耗、预训练模型, 我们称之为M6,它就是下一代人工智能的基础,可以带来真正的软硬结合的突破,让机器具备类人的认知能力、理解能力和更大的创造力。

Q2: 为什么要做多模态预训练模型?

杨红霞:有几个重要的原因。

首先,模型的承载能力足够大,意味着机器智能化的水平足够强。比如OpenAI的GPT-3拥有1750亿参数(已被微软收购),谷歌Switch Transformer拥有1.6万亿参数,这都已经超过人脑神经元数量了(人脑神经元约1000亿),或许可以具备人脑的能力。

第二,它必须能耗足够低,而且今天也倡导低碳AI。如果靠高能耗,支持人工智能的发展,这其实非常不可持续:当初OpenAI训练一次GPT-3花费1200万美元,能耗相当于一辆车开70万公里,被媒体称之为“富人的游戏”。而人脑的能耗消耗是非常低的,我们在冥思苦想的时候每秒消耗1.5卡路里的热量。

第三,因为上一代人工智能主要以CNN(卷积神经网络,Convolution Neural Network)为主,是一个拟合的能力,缺乏真正意义上的创造力。而M6“更接近于”AGI(Artificial General Intelligence,通用人工智能),但是目前还不能说它“是”AGI,因为我们其实离AGI还有很长的一段路。

第四,在多模态预训练模型出现之后,人工智能的训练路径发生了一个很大的变化。

我们以前是用大数据抽象出大知识,例如,上一代人工智能做图片分类时,可能需要学习几千张图片才能准确判断图上是一只狗还是一只猫。

而多模态预训练的整体构建模式是一个“Pre-train(预训练)&Finetune(微调)”的模式。Pre-train可以认为是一个拥有千亿/万亿参数的模型,是一个超级大脑;Fine-tune由成千上万个下游的任务组成,包括自然语言处理、计算机视觉、分类、预测等,可以通过学习下游的少量样本找到规律,可以做到Zero-shot Learning(零次学习)或者Few-shot Learning(小样本学习)。就像一个3岁的小朋友,他看了两次猫狗,即便下一次狗猫的颜色、大小发生了变化,他是不会判断错的。

最后一点,是它的使用范围将会特别广泛。在李飞飞等斯坦福研究者联合发布的一篇研究中,他们给大规模预训练模型取了一个统一的名字——Foundation Model,他们认为所有的技术都以Transformer为基础进行统一,上层的应用包括自然语言处理、计算机视觉也都做了统一,甚至把隐私等风险也能涵盖和解决,这是真正意义上的“AI大一统”,是一件跨时代的事情,可以把技术、应用、社会性问题全部统一。

Q3: 如何理解M6与深度学习的差异?

杨红霞: 深度学习相比于传统的Machine Learning,开发量减少很多。但“多模态预训练模型”相比于上一代的人工智能,尤其是以CNN为基础的深度学习模型,总体的模型建设上还是有了更高的要求和标准,所以开发量会更少。我们认为它就是下一代AI的基础,尤其是对于我们这些研究算法的人来说,建设这个大模型的过程中,对系统层该怎么做,对算法的优化、网络层的优化,提出了非常多、非常高的要求。并且可以带来真正的软硬结合,原来说所谓的软硬结合联系没有那么紧密,但是今天这个多模态预训练模型的出现,其实是真正的把软硬结合在一起了。

Q4: 目前世界领先的水平是什么样的?

杨红霞:我认为目前业界最高水平就是谷歌的Switch Transformer和微软的OpenAI。

2018 年,谷歌BERT奠定了预训练的开创性地位,虽然它当时的参数不到10亿,但它的出现让整个搜索引擎效率提升了10%,这是一个跨时代的提升。我们自己在做搜索推荐,很清楚在大流量上提升1%,效果都是非常显著的。在今年年初,微软OpenAI的GPT-3则是实现了参数规模达到1750亿,这是一个质的飞跃,最重要的一点是证明了它具有小样本学习的能力。也是在今年年初,谷歌Switch Transformer是第一个超过万亿规模的预训练大模型。

Q5: 目前达摩院取得的主要进展是什么?

杨红霞:我们今年投了三篇论文,分别是关于千亿参数模型、根据文本的图像生成,以及10万亿参数模型的介绍。达摩院的M6现在已经具备了10万亿的参数,而且只需要512张GPU卡;千亿的参数只需要6张GPU卡。

我们可以做一个简单的对比,但不是一个绝对值的比较,这里涉及到机器的配置和GPU/TPU的型号:英伟达使用3072张GPU实现万亿参数、谷歌Switch Transformer使用2048张TPU实现1.6万亿参数大模型,华为盘古实现2000多亿参数使用了2000多张昇腾900。

Q6: 为什么低功耗如此重要?

杨红霞:只有低功耗才能让超大规模多模态预训练模型更普惠,让更多人参与进来,让更多场景使用。比如现在6张GPU卡就可以跑千亿参数模型,那就意味着,学校的实验室就能用得起,中小企业也能投入使用展开研究。

Q7: 多模态预训练模型有哪些深度学习做不到的能力?

杨红霞:比如“文本到图像”的生成能力——就是给一段话就能生成一个对应的图片,在多模态预训练模型出现之前,这个能力是不存在的。

在效果方面,OpenAI生成图片清晰度是256×256,现在达摩院做到了1024×1024。达摩院为什么做到这么高?因为我们是被逼的,M6要直接应用到犀牛智造的商业场景中落地,比如服饰设计、汽车设计、家装设计,需要清晰度足够高的图片,才能投入到生产当中。

Q8: 目前多模态与训练模型实际应用到哪些场景中?

杨红霞:今天真正意义上大规模落地的,只有谷歌和达摩院。谷歌是直接用在搜索引擎上。我们主要是用在阿里巴巴新制造平台“犀牛智造”和淘宝天猫的搜索。

我举两个简单的例子,一个是M6与犀牛智造的合作,犀牛智造是一种非常领先的C2M的模式,但这种模式要上规模、大面积铺开,前提是有非常多有效的设计师稿件来支撑。但人工设计师的数量和速度总是有限的,我们就使用了“文本到图像”的能力,生成非常清晰的服饰图片,直接投入到生产当中。

我们做了个测试,把人工智能生成的图片,与设计师的设计图混在一起,让商家去选择,他们会选那些预计收益比较大的方案投入生产,测试效果非常令人震惊——人工智能设计稿被选中的概率是人工设计师的4倍。

所以这项技术真的有机会改变智能制造业——设计更好。而且现在M6需要学习的打标样本很少,只要传统的深度学习5%的样本量,就可以超过业内平均水平。

另一个应用是搜索引擎,因为消费者有非常多个性化的需求。

今天的搜索引擎,是把输入的关键词去和商品的标题文字做匹配,比如要搜索“日式表面凹凸的咖啡杯”,如果“表面凹凸”这几个词没有被卖家写在商品的标题中,用户是没有办法把商品搜出来的。但是利用多模态预训练模型,即便关键词不写在标题中,系统还是能理解,知道这个杯子是表面凹凸的,用户就可以搜出来。这样一来,搜索引擎的效率会大幅度提高,这也是为什么Google BERT主要用在搜索引擎上的原因。

此外,多模态预训练模型还可以根据商品图片,给卖家推荐描述文字,让他写在标题中。M6很强大,可以抓住图片中非常多的细节,比方“连衣裙、两侧大口袋、北欧风格”,它都可以理解出来。

Q9: 很多人认为,人工智能时代,人类必须学会承担更具创造性、设计性的工作。但听你的分享,未来像设计的工作也会被替代吗?

杨红霞:我觉得技术不会替代人类,而是会催生更高阶的合作方式,就是人机协同。技术不可能把人类抛在一边,但人工智能代替更多的是人类设计师的基础性、重复性的工作,比如通过技术来生成大量基础素材,这对人类设计师会有很大帮助,也会激发他更多的灵感。

不管是设计业,还是其他行业,技术都会给效率带来成倍的提升。人类历史上,技术的确替代了一些工作,但也创造了更高阶的职业,这些更高阶的职业让人类的生活变得更美好了。

Q10: 深度学习一直都有一个很难解决的“算法黑盒子”的问题——数据从进去运算到出来结果,整个路径很难去监测,也很难看到它的逻辑推理。M6会加剧这种情况,还是会解决?

杨红霞: 人类探索脑科学已经这么多年,我们真的理解人脑是怎么工作的吗?其实根本不理解。

深度学习模型,所谓的“Set up”,本身就具有一定的不可解释性。随着不断的探索,比如《自然》或者《科学》杂志上有一些文章,也在尝试做一些分析。

但我觉得可解释性这件事情到底是不是必需的,本身就是一个值得探讨的问题。随着技术不断发展,我们肯定会对这个模型有更深入的理解,但是同时又会带来新的模型架构,比如深度学习现在是以Google Switch Transformer为基础,原来是以CNN为基础,这两个模型架构已经完全不一样了,但Transformer里,就有一个叫自注意力的机制模块,这一点已经和人很像了。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
机器学习/深度学习 人工智能 达摩院
10万亿!达摩院发布全球最大AI预训练模型M6
今天,阿里巴巴达摩院公布多模态大模型M6最新进展,其参数已从万亿跃迁至10万亿,成为全球最大的AI预训练模型。
8665 0
10万亿!达摩院发布全球最大AI预训练模型M6
|
存储 安全 数据安全/隐私保护
Token 是什么?全面解析身份认证中的 Token 机制
本文全面解析Token在身份认证中的核心机制,涵盖JWT、Session Token、OAuth等类型,深入讲解其工作原理、安全性策略、生命周期管理及实际应用场景,助力开发者构建安全高效的现代Web应用认证体系。
1530 3
|
供应链 数据建模 BI
打开阿里|阿里巴巴数字化的关键时刻
阿里巴巴如何跨越从信息化(IT)到数字化(DT)转型的关键时刻?
2047 0
打开阿里|阿里巴巴数字化的关键时刻
|
6月前
|
数据挖掘 计算机视觉 Windows
Origin2024 汉化安装专业解析|企业级部署教程+批量激活解决方案
Origin是一款由OriginLab开发的科学绘图与数据分析软件,支持Windows系统,提供丰富的2D/3D图形模板和强大的数据分析功能,如统计、信号处理、图像处理等。本文详细介绍Origin2024的下载与安装步骤,包括解压文件、运行安装程序、输入序列号、安装路径设置及破解方法,帮助用户快速完成软件安装与激活。
1212 21
Origin2024 汉化安装专业解析|企业级部署教程+批量激活解决方案
|
人工智能 API 决策智能
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
16840 134
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
|
存储 安全 网络协议
渗透测试基础(全)(2)
渗透测试基础(全)
231 1
|
小程序 API Android开发
微信小程序使用蓝牙通信协议连接硬件整理总结(蓝牙连接、获取设备UUID、开水器notify及关闭蓝牙)
微信小程序使用蓝牙通信协议连接硬件整理总结(蓝牙连接、获取设备UUID、开水器notify及关闭蓝牙)
5288 0
微信小程序使用蓝牙通信协议连接硬件整理总结(蓝牙连接、获取设备UUID、开水器notify及关闭蓝牙)
|
机器学习/深度学习 人工智能 自然语言处理
未来数据观|从大模型到AIGC:人工智能新范式
人工智能经历70余年的探索和发展,如今到了大模型时代并出现现象级AI产品。这不仅是人类研究积累的厚积薄发,也是数字时代下大数据、大模型、大算力发展到了一定阶段的必然结果。在大模型的加持下,AIGC(AI Generated Content,人工智能生成内容)有望助力内容生成跨越新时代,并开启人工智能应用的新浪潮。
1708 1
|
Prometheus Cloud Native Docker
docker 安装 prometheus、grafana 和 alertmanager
docker 安装 prometheus、grafana 和 alertmanager
700 0