演讲人:贾扬清
演讲主题:人工智能,当梦想走进现实
活动:2022云栖大会-阿里灵杰人工智能论坛
今年在技术主论坛上,我们发布了开源的模型共享社区ModelScope,也和大家简单地介绍了AI平台在联通创造力和生产力的时候的一些工作。今天的分论坛,咱们从技术,工程,产品的角度,来聊一聊从实验室到产业的这些事情。
大家可能都还记得去年最流行的一个概念,叫做大模型。今年流行的概念变了一下,是AIGC。在这些不断出现的新的梦想和可能性的背面,相信大家也都看到了不少的挑战。我们把它总结成效率、规模、易用性这三个问题。
首先,今天模型变得更大。今天的大模型,GPT-3,M6等等,很容易就上到上亿、十亿级别的规模。虽然我们算法的效果在提升,这些模型的成本可能会提升地更快。用学术一点的话说,“单位计算的价值在下降”。怎么办?这是一个效率问题。
其次,今天为了更好的算法,数据的体量在一直变大。今天像自动驾驶,搜推广,AI for Science 都在产生更大的数据,怎么用更大的计算,更成熟的数据平台来承接,这是一个规模的问题。
最后,我们今天从AI业界的大环境也能看到,落地是关键。但是术业有专攻,怎么让不同领域的专家能够更直观地找到模型,用好算法,做好应用,这是一个平台需要来解决的易用性的问题。
我来向大家详细讲一个故事,达摩院上云。为什么要拿这个举例子呢?是因为达摩院不仅仅是一个研究院,同时也担负着AI算法服务落地的效果。
最初的时候一直是采取算法科学家们自己搭建的的工具来支撑自己的开发的模式。几年前大家一定在学校实验室或者公司研究院都搭过这样的infra。今天AI到了这样的规模之后,我们就会发现,假如可以开始逐渐的分工,逐渐的标准化,我们可以把开发效率提升得很高。
简单来说的话,研发流程无外乎开发、训练、部署这三部分。那么达摩院以前怎么做,现在怎么做的。
首先是开发。之前的时候我们可能每个团队都会有一个小集群,然后自己管理一个镜像,然后上面布Jupyter Notebook,把自己要的一些存储、网络等资源打通。今天,达摩院整体用PAI的Notebook服务DSW来解决一系列的问题:一方面我们完全兼容Jupyter的环境,另一方面,我们把很多的重复性劳动都做完了:打通底层的NAS,OSS等存储,建立多租的环境,复用底层的计算资源,协同管理多个团队的软件环境等等,让开发做的更容易。
其次是训练。只要团队在协同,就会产生出现有非常多的训练的任务,经常会出现的问题是,从用户侧,我的任务找不到资源跑不起来;从系统侧,我的资源利用率又很低,尤其是不同团队的资源池有硬分隔的情况下。那么,我们把这个问题下推给PAI的云原生训练服务DLC:一个大池子,调度的时候,可以考虑分布式训练需要的问题,同时也可以考虑不同团队任务的优先级、公平性等问题,来把计算资源的水位明显提升上去,让每个用户找资源的时候都能找的到。
最后是部署。今天最简单的部署一个模型的方式,就是拉起一个web server,拿flask或者其他框架,搭一个restful api。但是,一个成熟的服务就会需要有像是推理优化、蓝绿部署、模型混部、版本控制等一系列的需求。我们说一云多芯,有其他硬件上来的时候我们怎样可以去自动化地寻找最高性价比的软硬件配置,等等。这一系列可以通过PAI EAS的服务给达摩院提供能力。
今天我们把93%的达摩院的开发训练部署都在云上支撑起来了,可以达到开发、训练、推理服务效率的大大提升。举一个推理服务的例子,OCR:OCR是一个很细碎的服务,各种定制化的模型很多,但是同时每个模型调用量也许又不是特别高:通过上到PAI的推理服务,我们今天可以通过混部、优化等方式把OCR的推理服务效率提升超过80%。
那么从一个简单架构的角度,我们通过一个云原生,高效的AI平台PAI,就在支撑算法团队从规模、效率和易用性上面不断突破。从规模上,我们支撑了10万亿参数的预训练大模型;从易用性上,ModelScope作为开放的模型共享的平台会将达摩院的绝大多数模型开源贡献出来,并且在PAI上无缝地衔接从模型到部署的链路;从效率上,我们通过AI开放服务平台OpenMind已经服务这日均1万亿次左右的调用,这还是一个非常大的体量。
从一个系统架构师的角度,我们今天通过支撑达摩院上云和云商的客户,总结出来实现AI工程化的关键,无外乎是提升下面几个效率。
我们以前经常说,AI三要素是算力算法数据。今天,效率就体现在这三个角度上。
算力的角度,回答很简单:通过云原生的方式,来管理和调度计算的资源。当然里面有很多很有意思的事情,例如如何做好针对AI的K8s调度器?如何来做大模型的分布式切片,等等,然后把它作为一个标准的云服务提供给大家。
算法的角度,今天Notebook这样的研发范式深入人心,一方面作为一个AI平台是保持这样的易用的交互体验,另一方面是把底座做好,打通计算,存储,网络的同时,打通Notebook的开发到分布式训练到部署,这些组件能够打通,让算法工程师关注在效率上。
数据的角度,今天AI最终还是离不开数据。尤其是涉及到传统机器学习,以及多模态的训练,我们经常会需要将AI计算和传统的数仓,数据湖的体系打通,在推理的时候需要将它和实时计算、OLAP分析、向量化检索等体系打通。
去年在云栖大会上,我们发布了灵杰这一个大数据AI一体化的品牌。今年我们在这各个层面上都有长足的进步:从最底层的资源上,倚天710给我们提供了一个新的硬件形态;中间的大数据和ai一体化平台,除了我刚才讲的一些能力之外,接下去我的同事们和合作伙伴们会做更加深入的介绍。在这个平台上面,我们也孵化出OpenMind AI开放服务,和OpenTrek产业智能引擎等和业务更加紧密的解决方案,来解决AI落地最后一公里的问题。
在前面一年当中通过这样一个AI工程化体系,我们服务了非常多的云上的客户,从传统的城市大脑,到今年创新不断的自动驾驶和AI科研,到互联网行业的本行就是内容的搜索推荐,等等。
那我们今天是一个工程化的论坛,所以我想最合适的,可能是实际向大家展示一下,在PAI平台上,从一个基础模型开始,如何来做模型的探索,验证,finetune,并最后将自定义的这个模型发布成为一个实际可用的服务的过程。接下来为大家演示一个demo,请大家注意的是,这是一个单个工程师的视角,在同一时刻,经常会有整一个团队都在同时做这些工作- 平台解决了底层的调度协同等问题,让我们关注在实际的工作上面,而不是系统、调度等脏活累活上面。
设置标签demo演示
希望通过demo大家能够对PAI有更深入的了解,后续希望和大家有更多的交流,一起探索、联通AI的创造力和生产力,谢谢大家。
了解更多关于阿里灵杰:https://ai.aliyun.com/