十问科学家|关于多模态预训练,杨红霞这么说-阿里云开发者社区

开发者社区> 王舒坦> 正文

十问科学家|关于多模态预训练,杨红霞这么说

简介: 多模态预训练将成为下一代人工智能的基础设施,通过超大规模的参数模型和强大的学习能力,有可能为智能制造和搜索带来全新改变。
+关注继续查看

杨红霞
阿里巴巴达摩院人工智能科学家

杨红霞在达摩院致力于研发新一代人工智能,带领团队开发的“M6超大规模、多模态、低功耗、预训练模型”,稳定地支持了淘宝天猫的搜索和广告、犀牛智造等核心业务场景。

加入阿里巴巴之前,杨红霞曾任IBM Watson全球研发中心研究员,雅虎主任数据科学家。在顶级会议和机器学习国际学术期刊发表论文80余篇,拥有9项美国专利,带领团队获得2019世界人工智能大会最高奖项卓越人工智能引领者(Super AI Leader,简称SAIL奖),2020年国家科学技术进步奖二等奖和2020年杭州市领军型创新团队等荣誉,毕业于美国杜克大学。

Q1: 如何向一个小学生描述你现在正在研究的方向——超大规模、多模态、低功耗、预训练模型?

杨红霞:超大规模、多模态、低功耗、预训练模型, 我们称之为M6,它就是下一代人工智能的基础,可以带来真正的软硬结合的突破,让机器具备类人的认知能力、理解能力和更大的创造力。

Q2: 为什么要做多模态预训练模型?

杨红霞:有几个重要的原因。

首先,模型的承载能力足够大,意味着机器智能化的水平足够强。比如OpenAI的GPT-3拥有1750亿参数(已被微软收购),谷歌Switch Transformer拥有1.6万亿参数,这都已经超过人脑神经元数量了(人脑神经元约1000亿),或许可以具备人脑的能力。

第二,它必须能耗足够低,而且今天也倡导低碳AI。如果靠高能耗,支持人工智能的发展,这其实非常不可持续:当初OpenAI训练一次GPT-3花费1200万美元,能耗相当于一辆车开70万公里,被媒体称之为“富人的游戏”。而人脑的能耗消耗是非常低的,我们在冥思苦想的时候每秒消耗1.5卡路里的热量。

第三,因为上一代人工智能主要以CNN(卷积神经网络,Convolution Neural Network)为主,是一个拟合的能力,缺乏真正意义上的创造力。而M6“更接近于”AGI(Artificial General Intelligence,通用人工智能),但是目前还不能说它“是”AGI,因为我们其实离AGI还有很长的一段路。

第四,在多模态预训练模型出现之后,人工智能的训练路径发生了一个很大的变化。

我们以前是用大数据抽象出大知识,例如,上一代人工智能做图片分类时,可能需要学习几千张图片才能准确判断图上是一只狗还是一只猫。

而多模态预训练的整体构建模式是一个“Pre-train(预训练)&Finetune(微调)”的模式。Pre-train可以认为是一个拥有千亿/万亿参数的模型,是一个超级大脑;Fine-tune由成千上万个下游的任务组成,包括自然语言处理、计算机视觉、分类、预测等,可以通过学习下游的少量样本找到规律,可以做到Zero-shot Learning(零次学习)或者Few-shot Learning(小样本学习)。就像一个3岁的小朋友,他看了两次猫狗,即便下一次狗猫的颜色、大小发生了变化,他是不会判断错的。

最后一点,是它的使用范围将会特别广泛。在李飞飞等斯坦福研究者联合发布的一篇研究中,他们给大规模预训练模型取了一个统一的名字——Foundation Model,他们认为所有的技术都以Transformer为基础进行统一,上层的应用包括自然语言处理、计算机视觉也都做了统一,甚至把隐私等风险也能涵盖和解决,这是真正意义上的“AI大一统”,是一件跨时代的事情,可以把技术、应用、社会性问题全部统一。

Q3: 如何理解M6与深度学习的差异?

杨红霞: 深度学习相比于传统的Machine Learning,开发量减少很多。但“多模态预训练模型”相比于上一代的人工智能,尤其是以CNN为基础的深度学习模型,总体的模型建设上还是有了更高的要求和标准,所以开发量会更少。我们认为它就是下一代AI的基础,尤其是对于我们这些研究算法的人来说,建设这个大模型的过程中,对系统层该怎么做,对算法的优化、网络层的优化,提出了非常多、非常高的要求。并且可以带来真正的软硬结合,原来说所谓的软硬结合联系没有那么紧密,但是今天这个多模态预训练模型的出现,其实是真正的把软硬结合在一起了。

Q4: 目前世界领先的水平是什么样的?

杨红霞:我认为目前业界最高水平就是谷歌的Switch Transformer和微软的OpenAI。

2018 年,谷歌BERT奠定了预训练的开创性地位,虽然它当时的参数不到10亿,但它的出现让整个搜索引擎效率提升了10%,这是一个跨时代的提升。我们自己在做搜索推荐,很清楚在大流量上提升1%,效果都是非常显著的。在今年年初,微软OpenAI的GPT-3则是实现了参数规模达到1750亿,这是一个质的飞跃,最重要的一点是证明了它具有小样本学习的能力。也是在今年年初,谷歌Switch Transformer是第一个超过万亿规模的预训练大模型。

Q5: 目前达摩院取得的主要进展是什么?

杨红霞:我们今年投了三篇论文,分别是关于千亿参数模型、根据文本的图像生成,以及10万亿参数模型的介绍。达摩院的M6现在已经具备了10万亿的参数,而且只需要512张GPU卡;千亿的参数只需要6张GPU卡。

我们可以做一个简单的对比,但不是一个绝对值的比较,这里涉及到机器的配置和GPU/TPU的型号:英伟达使用3072张GPU实现万亿参数、谷歌Switch Transformer使用2048张TPU实现1.6万亿参数大模型,华为盘古实现2000多亿参数使用了2000多张昇腾900。

Q6: 为什么低功耗如此重要?

杨红霞:只有低功耗才能让超大规模多模态预训练模型更普惠,让更多人参与进来,让更多场景使用。比如现在6张GPU卡就可以跑千亿参数模型,那就意味着,学校的实验室就能用得起,中小企业也能投入使用展开研究。

Q7: 多模态预训练模型有哪些深度学习做不到的能力?

杨红霞:比如“文本到图像”的生成能力——就是给一段话就能生成一个对应的图片,在多模态预训练模型出现之前,这个能力是不存在的。

在效果方面,OpenAI生成图片清晰度是256×256,现在达摩院做到了1024×1024。达摩院为什么做到这么高?因为我们是被逼的,M6要直接应用到犀牛智造的商业场景中落地,比如服饰设计、汽车设计、家装设计,需要清晰度足够高的图片,才能投入到生产当中。

Q8: 目前多模态与训练模型实际应用到哪些场景中?

杨红霞:今天真正意义上大规模落地的,只有谷歌和达摩院。谷歌是直接用在搜索引擎上。我们主要是用在阿里巴巴新制造平台“犀牛智造”和淘宝天猫的搜索。

我举两个简单的例子,一个是M6与犀牛智造的合作,犀牛智造是一种非常领先的C2M的模式,但这种模式要上规模、大面积铺开,前提是有非常多有效的设计师稿件来支撑。但人工设计师的数量和速度总是有限的,我们就使用了“文本到图像”的能力,生成非常清晰的服饰图片,直接投入到生产当中。

我们做了个测试,把人工智能生成的图片,与设计师的设计图混在一起,让商家去选择,他们会选那些预计收益比较大的方案投入生产,测试效果非常令人震惊——人工智能设计稿被选中的概率是人工设计师的4倍。

所以这项技术真的有机会改变智能制造业——设计更好。而且现在M6需要学习的打标样本很少,只要传统的深度学习5%的样本量,就可以超过业内平均水平。

另一个应用是搜索引擎,因为消费者有非常多个性化的需求。

今天的搜索引擎,是把输入的关键词去和商品的标题文字做匹配,比如要搜索“日式表面凹凸的咖啡杯”,如果“表面凹凸”这几个词没有被卖家写在商品的标题中,用户是没有办法把商品搜出来的。但是利用多模态预训练模型,即便关键词不写在标题中,系统还是能理解,知道这个杯子是表面凹凸的,用户就可以搜出来。这样一来,搜索引擎的效率会大幅度提高,这也是为什么Google BERT主要用在搜索引擎上的原因。

此外,多模态预训练模型还可以根据商品图片,给卖家推荐描述文字,让他写在标题中。M6很强大,可以抓住图片中非常多的细节,比方“连衣裙、两侧大口袋、北欧风格”,它都可以理解出来。

Q9: 很多人认为,人工智能时代,人类必须学会承担更具创造性、设计性的工作。但听你的分享,未来像设计的工作也会被替代吗?

杨红霞:我觉得技术不会替代人类,而是会催生更高阶的合作方式,就是人机协同。技术不可能把人类抛在一边,但人工智能代替更多的是人类设计师的基础性、重复性的工作,比如通过技术来生成大量基础素材,这对人类设计师会有很大帮助,也会激发他更多的灵感。

不管是设计业,还是其他行业,技术都会给效率带来成倍的提升。人类历史上,技术的确替代了一些工作,但也创造了更高阶的职业,这些更高阶的职业让人类的生活变得更美好了。

Q10: 深度学习一直都有一个很难解决的“算法黑盒子”的问题——数据从进去运算到出来结果,整个路径很难去监测,也很难看到它的逻辑推理。M6会加剧这种情况,还是会解决?

杨红霞: 人类探索脑科学已经这么多年,我们真的理解人脑是怎么工作的吗?其实根本不理解。

深度学习模型,所谓的“Set up”,本身就具有一定的不可解释性。随着不断的探索,比如《自然》或者《科学》杂志上有一些文章,也在尝试做一些分析。

但我觉得可解释性这件事情到底是不是必需的,本身就是一个值得探讨的问题。随着技术不断发展,我们肯定会对这个模型有更深入的理解,但是同时又会带来新的模型架构,比如深度学习现在是以Google Switch Transformer为基础,原来是以CNN为基础,这两个模型架构已经完全不一样了,但Transformer里,就有一个叫自注意力的机制模块,这一点已经和人很像了。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
6907 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
2841 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4479 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
7751 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
5456 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
9424 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
2138 0
+关注
14
文章
2
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载