杨红霞
阿里巴巴达摩院人工智能科学家
杨红霞在达摩院致力于研发新一代人工智能,带领团队开发的“M6超大规模、多模态、低功耗、预训练模型”,稳定地支持了淘宝天猫的搜索和广告、犀牛智造等核心业务场景。
加入阿里巴巴之前,杨红霞曾任IBM Watson全球研发中心研究员,雅虎主任数据科学家。在顶级会议和机器学习国际学术期刊发表论文80余篇,拥有9项美国专利,带领团队获得2019世界人工智能大会最高奖项卓越人工智能引领者(Super AI Leader,简称SAIL奖),2020年国家科学技术进步奖二等奖和2020年杭州市领军型创新团队等荣誉,毕业于美国杜克大学。
Q1: 如何向一个小学生描述你现在正在研究的方向——超大规模、多模态、低功耗、预训练模型?
杨红霞:超大规模、多模态、低功耗、预训练模型, 我们称之为M6,它就是下一代人工智能的基础,可以带来真正的软硬结合的突破,让机器具备类人的认知能力、理解能力和更大的创造力。
Q2: 为什么要做多模态预训练模型?
杨红霞:有几个重要的原因。
首先,模型的承载能力足够大,意味着机器智能化的水平足够强。比如OpenAI的GPT-3拥有1750亿参数(已被微软收购),谷歌Switch Transformer拥有1.6万亿参数,这都已经超过人脑神经元数量了(人脑神经元约1000亿),或许可以具备人脑的能力。
第二,它必须能耗足够低,而且今天也倡导低碳AI。如果靠高能耗,支持人工智能的发展,这其实非常不可持续:当初OpenAI训练一次GPT-3花费1200万美元,能耗相当于一辆车开70万公里,被媒体称之为“富人的游戏”。而人脑的能耗消耗是非常低的,我们在冥思苦想的时候每秒消耗1.5卡路里的热量。
第三,因为上一代人工智能主要以CNN(卷积神经网络,Convolution Neural Network)为主,是一个拟合的能力,缺乏真正意义上的创造力。而M6“更接近于”AGI(Artificial General Intelligence,通用人工智能),但是目前还不能说它“是”AGI,因为我们其实离AGI还有很长的一段路。
第四,在多模态预训练模型出现之后,人工智能的训练路径发生了一个很大的变化。
我们以前是用大数据抽象出大知识,例如,上一代人工智能做图片分类时,可能需要学习几千张图片才能准确判断图上是一只狗还是一只猫。
而多模态预训练的整体构建模式是一个“Pre-train(预训练)&Finetune(微调)”的模式。Pre-train可以认为是一个拥有千亿/万亿参数的模型,是一个超级大脑;Fine-tune由成千上万个下游的任务组成,包括自然语言处理、计算机视觉、分类、预测等,可以通过学习下游的少量样本找到规律,可以做到Zero-shot Learning(零次学习)或者Few-shot Learning(小样本学习)。就像一个3岁的小朋友,他看了两次猫狗,即便下一次狗猫的颜色、大小发生了变化,他是不会判断错的。
最后一点,是它的使用范围将会特别广泛。在李飞飞等斯坦福研究者联合发布的一篇研究中,他们给大规模预训练模型取了一个统一的名字——Foundation Model,他们认为所有的技术都以Transformer为基础进行统一,上层的应用包括自然语言处理、计算机视觉也都做了统一,甚至把隐私等风险也能涵盖和解决,这是真正意义上的“AI大一统”,是一件跨时代的事情,可以把技术、应用、社会性问题全部统一。
Q3: 如何理解M6与深度学习的差异?
杨红霞: 深度学习相比于传统的Machine Learning,开发量减少很多。但“多模态预训练模型”相比于上一代的人工智能,尤其是以CNN为基础的深度学习模型,总体的模型建设上还是有了更高的要求和标准,所以开发量会更少。我们认为它就是下一代AI的基础,尤其是对于我们这些研究算法的人来说,建设这个大模型的过程中,对系统层该怎么做,对算法的优化、网络层的优化,提出了非常多、非常高的要求。并且可以带来真正的软硬结合,原来说所谓的软硬结合联系没有那么紧密,但是今天这个多模态预训练模型的出现,其实是真正的把软硬结合在一起了。
Q4: 目前世界领先的水平是什么样的?
杨红霞:我认为目前业界最高水平就是谷歌的Switch Transformer和微软的OpenAI。
2018 年,谷歌BERT奠定了预训练的开创性地位,虽然它当时的参数不到10亿,但它的出现让整个搜索引擎效率提升了10%,这是一个跨时代的提升。我们自己在做搜索推荐,很清楚在大流量上提升1%,效果都是非常显著的。在今年年初,微软OpenAI的GPT-3则是实现了参数规模达到1750亿,这是一个质的飞跃,最重要的一点是证明了它具有小样本学习的能力。也是在今年年初,谷歌Switch Transformer是第一个超过万亿规模的预训练大模型。
Q5: 目前达摩院取得的主要进展是什么?
杨红霞:我们今年投了三篇论文,分别是关于千亿参数模型、根据文本的图像生成,以及10万亿参数模型的介绍。达摩院的M6现在已经具备了10万亿的参数,而且只需要512张GPU卡;千亿的参数只需要6张GPU卡。
我们可以做一个简单的对比,但不是一个绝对值的比较,这里涉及到机器的配置和GPU/TPU的型号:英伟达使用3072张GPU实现万亿参数、谷歌Switch Transformer使用2048张TPU实现1.6万亿参数大模型,华为盘古实现2000多亿参数使用了2000多张昇腾900。
Q6: 为什么低功耗如此重要?
杨红霞:只有低功耗才能让超大规模多模态预训练模型更普惠,让更多人参与进来,让更多场景使用。比如现在6张GPU卡就可以跑千亿参数模型,那就意味着,学校的实验室就能用得起,中小企业也能投入使用展开研究。
Q7: 多模态预训练模型有哪些深度学习做不到的能力?
杨红霞:比如“文本到图像”的生成能力——就是给一段话就能生成一个对应的图片,在多模态预训练模型出现之前,这个能力是不存在的。
在效果方面,OpenAI生成图片清晰度是256×256,现在达摩院做到了1024×1024。达摩院为什么做到这么高?因为我们是被逼的,M6要直接应用到犀牛智造的商业场景中落地,比如服饰设计、汽车设计、家装设计,需要清晰度足够高的图片,才能投入到生产当中。
Q8: 目前多模态与训练模型实际应用到哪些场景中?
杨红霞:今天真正意义上大规模落地的,只有谷歌和达摩院。谷歌是直接用在搜索引擎上。我们主要是用在阿里巴巴新制造平台“犀牛智造”和淘宝天猫的搜索。
我举两个简单的例子,一个是M6与犀牛智造的合作,犀牛智造是一种非常领先的C2M的模式,但这种模式要上规模、大面积铺开,前提是有非常多有效的设计师稿件来支撑。但人工设计师的数量和速度总是有限的,我们就使用了“文本到图像”的能力,生成非常清晰的服饰图片,直接投入到生产当中。
我们做了个测试,把人工智能生成的图片,与设计师的设计图混在一起,让商家去选择,他们会选那些预计收益比较大的方案投入生产,测试效果非常令人震惊——人工智能设计稿被选中的概率是人工设计师的4倍。
所以这项技术真的有机会改变智能制造业——设计更好。而且现在M6需要学习的打标样本很少,只要传统的深度学习5%的样本量,就可以超过业内平均水平。
另一个应用是搜索引擎,因为消费者有非常多个性化的需求。
今天的搜索引擎,是把输入的关键词去和商品的标题文字做匹配,比如要搜索“日式表面凹凸的咖啡杯”,如果“表面凹凸”这几个词没有被卖家写在商品的标题中,用户是没有办法把商品搜出来的。但是利用多模态预训练模型,即便关键词不写在标题中,系统还是能理解,知道这个杯子是表面凹凸的,用户就可以搜出来。这样一来,搜索引擎的效率会大幅度提高,这也是为什么Google BERT主要用在搜索引擎上的原因。
此外,多模态预训练模型还可以根据商品图片,给卖家推荐描述文字,让他写在标题中。M6很强大,可以抓住图片中非常多的细节,比方“连衣裙、两侧大口袋、北欧风格”,它都可以理解出来。
Q9: 很多人认为,人工智能时代,人类必须学会承担更具创造性、设计性的工作。但听你的分享,未来像设计的工作也会被替代吗?
杨红霞:我觉得技术不会替代人类,而是会催生更高阶的合作方式,就是人机协同。技术不可能把人类抛在一边,但人工智能代替更多的是人类设计师的基础性、重复性的工作,比如通过技术来生成大量基础素材,这对人类设计师会有很大帮助,也会激发他更多的灵感。
不管是设计业,还是其他行业,技术都会给效率带来成倍的提升。人类历史上,技术的确替代了一些工作,但也创造了更高阶的职业,这些更高阶的职业让人类的生活变得更美好了。
Q10: 深度学习一直都有一个很难解决的“算法黑盒子”的问题——数据从进去运算到出来结果,整个路径很难去监测,也很难看到它的逻辑推理。M6会加剧这种情况,还是会解决?
杨红霞: 人类探索脑科学已经这么多年,我们真的理解人脑是怎么工作的吗?其实根本不理解。
深度学习模型,所谓的“Set up”,本身就具有一定的不可解释性。随着不断的探索,比如《自然》或者《科学》杂志上有一些文章,也在尝试做一些分析。
但我觉得可解释性这件事情到底是不是必需的,本身就是一个值得探讨的问题。随着技术不断发展,我们肯定会对这个模型有更深入的理解,但是同时又会带来新的模型架构,比如深度学习现在是以Google Switch Transformer为基础,原来是以CNN为基础,这两个模型架构已经完全不一样了,但Transformer里,就有一个叫自注意力的机制模块,这一点已经和人很像了。