十问科学家｜关于多模态预训练，杨红霞这么说-阿里云开发者社区

杨红霞
阿里巴巴达摩院人工智能科学家

杨红霞在达摩院致力于研发新一代人工智能，带领团队开发的“M6超大规模、多模态、低功耗、预训练模型”，稳定地支持了淘宝天猫的搜索和广告、犀牛智造等核心业务场景。

加入阿里巴巴之前，杨红霞曾任IBM Watson全球研发中心研究员，雅虎主任数据科学家。在顶级会议和机器学习国际学术期刊发表论文80余篇，拥有9项美国专利，带领团队获得2019世界人工智能大会最高奖项卓越人工智能引领者（Super AI Leader，简称SAIL奖），2020年国家科学技术进步奖二等奖和2020年杭州市领军型创新团队等荣誉，毕业于美国杜克大学。

Q1: 如何向一个小学生描述你现在正在研究的方向——超大规模、多模态、低功耗、预训练模型？

杨红霞：超大规模、多模态、低功耗、预训练模型, 我们称之为M6，它就是下一代人工智能的基础，可以带来真正的软硬结合的突破，让机器具备类人的认知能力、理解能力和更大的创造力。

Q2: 为什么要做多模态预训练模型？

杨红霞：有几个重要的原因。

首先，模型的承载能力足够大，意味着机器智能化的水平足够强。比如OpenAI的GPT-3拥有1750亿参数（已被微软收购），谷歌Switch Transformer拥有1.6万亿参数，这都已经超过人脑神经元数量了（人脑神经元约1000亿），或许可以具备人脑的能力。

第二，它必须能耗足够低，而且今天也倡导低碳AI。如果靠高能耗，支持人工智能的发展，这其实非常不可持续：当初OpenAI训练一次GPT-3花费1200万美元，能耗相当于一辆车开70万公里，被媒体称之为“富人的游戏”。而人脑的能耗消耗是非常低的，我们在冥思苦想的时候每秒消耗1.5卡路里的热量。

第三，因为上一代人工智能主要以CNN（卷积神经网络，Convolution Neural Network）为主，是一个拟合的能力，缺乏真正意义上的创造力。而M6“更接近于”AGI（Artificial General Intelligence，通用人工智能），但是目前还不能说它“是”AGI，因为我们其实离AGI还有很长的一段路。

第四，在多模态预训练模型出现之后，人工智能的训练路径发生了一个很大的变化。

我们以前是用大数据抽象出大知识，例如，上一代人工智能做图片分类时，可能需要学习几千张图片才能准确判断图上是一只狗还是一只猫。

而多模态预训练的整体构建模式是一个“Pre-train（预训练）&Finetune（微调）”的模式。Pre-train可以认为是一个拥有千亿/万亿参数的模型，是一个超级大脑；Fine-tune由成千上万个下游的任务组成，包括自然语言处理、计算机视觉、分类、预测等，可以通过学习下游的少量样本找到规律，可以做到Zero-shot Learning（零次学习）或者Few-shot Learning（小样本学习）。就像一个3岁的小朋友，他看了两次猫狗，即便下一次狗猫的颜色、大小发生了变化，他是不会判断错的。

最后一点，是它的使用范围将会特别广泛。在李飞飞等斯坦福研究者联合发布的一篇研究中，他们给大规模预训练模型取了一个统一的名字——Foundation Model，他们认为所有的技术都以Transformer为基础进行统一，上层的应用包括自然语言处理、计算机视觉也都做了统一，甚至把隐私等风险也能涵盖和解决，这是真正意义上的“AI大一统”，是一件跨时代的事情，可以把技术、应用、社会性问题全部统一。

Q3: 如何理解M6与深度学习的差异？

杨红霞：深度学习相比于传统的Machine Learning，开发量减少很多。但“多模态预训练模型”相比于上一代的人工智能，尤其是以CNN为基础的深度学习模型，总体的模型建设上还是有了更高的要求和标准，所以开发量会更少。我们认为它就是下一代AI的基础，尤其是对于我们这些研究算法的人来说，建设这个大模型的过程中，对系统层该怎么做，对算法的优化、网络层的优化，提出了非常多、非常高的要求。并且可以带来真正的软硬结合，原来说所谓的软硬结合联系没有那么紧密，但是今天这个多模态预训练模型的出现，其实是真正的把软硬结合在一起了。

Q4: 目前世界领先的水平是什么样的？

杨红霞：我认为目前业界最高水平就是谷歌的Switch Transformer和微软的OpenAI。

2018 年，谷歌BERT奠定了预训练的开创性地位，虽然它当时的参数不到10亿，但它的出现让整个搜索引擎效率提升了10%，这是一个跨时代的提升。我们自己在做搜索推荐，很清楚在大流量上提升1%，效果都是非常显著的。在今年年初，微软OpenAI的GPT-3则是实现了参数规模达到1750亿，这是一个质的飞跃，最重要的一点是证明了它具有小样本学习的能力。也是在今年年初，谷歌Switch Transformer是第一个超过万亿规模的预训练大模型。

Q5: 目前达摩院取得的主要进展是什么？

杨红霞：我们今年投了三篇论文，分别是关于千亿参数模型、根据文本的图像生成，以及10万亿参数模型的介绍。达摩院的M6现在已经具备了10万亿的参数，而且只需要512张GPU卡；千亿的参数只需要6张GPU卡。

我们可以做一个简单的对比，但不是一个绝对值的比较，这里涉及到机器的配置和GPU/TPU的型号：英伟达使用3072张GPU实现万亿参数、谷歌Switch Transformer使用2048张TPU实现1.6万亿参数大模型，华为盘古实现2000多亿参数使用了2000多张昇腾900。

Q6: 为什么低功耗如此重要？

杨红霞：只有低功耗才能让超大规模多模态预训练模型更普惠，让更多人参与进来，让更多场景使用。比如现在6张GPU卡就可以跑千亿参数模型，那就意味着，学校的实验室就能用得起，中小企业也能投入使用展开研究。

Q7: 多模态预训练模型有哪些深度学习做不到的能力？

杨红霞：比如“文本到图像”的生成能力——就是给一段话就能生成一个对应的图片，在多模态预训练模型出现之前，这个能力是不存在的。

在效果方面，OpenAI生成图片清晰度是256×256，现在达摩院做到了1024×1024。达摩院为什么做到这么高？因为我们是被逼的，M6要直接应用到犀牛智造的商业场景中落地，比如服饰设计、汽车设计、家装设计，需要清晰度足够高的图片，才能投入到生产当中。

Q8: 目前多模态与训练模型实际应用到哪些场景中？

杨红霞：今天真正意义上大规模落地的，只有谷歌和达摩院。谷歌是直接用在搜索引擎上。我们主要是用在阿里巴巴新制造平台“犀牛智造”和淘宝天猫的搜索。

我举两个简单的例子，一个是M6与犀牛智造的合作，犀牛智造是一种非常领先的C2M的模式，但这种模式要上规模、大面积铺开，前提是有非常多有效的设计师稿件来支撑。但人工设计师的数量和速度总是有限的，我们就使用了“文本到图像”的能力，生成非常清晰的服饰图片，直接投入到生产当中。

我们做了个测试，把人工智能生成的图片，与设计师的设计图混在一起，让商家去选择，他们会选那些预计收益比较大的方案投入生产，测试效果非常令人震惊——人工智能设计稿被选中的概率是人工设计师的4倍。

所以这项技术真的有机会改变智能制造业——设计更好。而且现在M6需要学习的打标样本很少，只要传统的深度学习5%的样本量，就可以超过业内平均水平。

另一个应用是搜索引擎，因为消费者有非常多个性化的需求。

今天的搜索引擎，是把输入的关键词去和商品的标题文字做匹配，比如要搜索“日式表面凹凸的咖啡杯”，如果“表面凹凸”这几个词没有被卖家写在商品的标题中，用户是没有办法把商品搜出来的。但是利用多模态预训练模型，即便关键词不写在标题中，系统还是能理解，知道这个杯子是表面凹凸的，用户就可以搜出来。这样一来，搜索引擎的效率会大幅度提高，这也是为什么Google BERT主要用在搜索引擎上的原因。

此外，多模态预训练模型还可以根据商品图片，给卖家推荐描述文字，让他写在标题中。M6很强大，可以抓住图片中非常多的细节，比方“连衣裙、两侧大口袋、北欧风格”，它都可以理解出来。

Q9: 很多人认为，人工智能时代，人类必须学会承担更具创造性、设计性的工作。但听你的分享，未来像设计的工作也会被替代吗？

杨红霞：我觉得技术不会替代人类，而是会催生更高阶的合作方式，就是人机协同。技术不可能把人类抛在一边，但人工智能代替更多的是人类设计师的基础性、重复性的工作，比如通过技术来生成大量基础素材，这对人类设计师会有很大帮助，也会激发他更多的灵感。

不管是设计业，还是其他行业，技术都会给效率带来成倍的提升。人类历史上，技术的确替代了一些工作，但也创造了更高阶的职业，这些更高阶的职业让人类的生活变得更美好了。

Q10: 深度学习一直都有一个很难解决的“算法黑盒子”的问题——数据从进去运算到出来结果，整个路径很难去监测，也很难看到它的逻辑推理。M6会加剧这种情况，还是会解决？

杨红霞：人类探索脑科学已经这么多年，我们真的理解人脑是怎么工作的吗？其实根本不理解。

深度学习模型，所谓的“Set up”，本身就具有一定的不可解释性。随着不断的探索，比如《自然》或者《科学》杂志上有一些文章，也在尝试做一些分析。

但我觉得可解释性这件事情到底是不是必需的，本身就是一个值得探讨的问题。随着技术不断发展，我们肯定会对这个模型有更深入的理解，但是同时又会带来新的模型架构，比如深度学习现在是以Google Switch Transformer为基础，原来是以CNN为基础，这两个模型架构已经完全不一样了，但Transformer里，就有一个叫自注意力的机制模块，这一点已经和人很像了。

十问科学家｜关于多模态预训练，杨红霞这么说

云栖战略参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件