贾扬清演讲实录:人工智能,当梦想走进现实丨2022云栖阿里灵杰人工智能论坛

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 贾扬清在阿里灵杰人工智能论坛上分享从技术,工程,产品的角度,讲述从实验室到产业的这些事情。

演讲人:贾扬清

演讲主题:人工智能,当梦想走进现实

活动:2022云栖大会-阿里灵杰人工智能论坛


今年在技术主论坛上,我们发布了开源的模型共享社区ModelScope,也和大家简单地介绍了AI平台在联通创造力和生产力的时候的一些工作。今天的分论坛,咱们从技术,工程,产品的角度,来聊一聊从实验室到产业的这些事情。


大家可能都还记得去年最流行的一个概念,叫做大模型。今年流行的概念变了一下,是AIGC。在这些不断出现的新的梦想和可能性的背面,相信大家也都看到了不少的挑战。我们把它总结成效率、规模、易用性这三个问题

771B1E16-B196-4742-9A8E-3C3F4E502814.png

首先,今天模型变得更大。今天的大模型,GPT-3,M6等等,很容易就上到上亿、十亿级别的规模。虽然我们算法的效果在提升,这些模型的成本可能会提升地更快。用学术一点的话说,“单位计算的价值在下降”。怎么办?这是一个效率问题。


其次,今天为了更好的算法,数据的体量在一直变大。今天像自动驾驶,搜推广,AI for Science 都在产生更大的数据,怎么用更大的计算,更成熟的数据平台来承接,这是一个规模的问题。


最后,我们今天从AI业界的大环境也能看到,落地是关键。但是术业有专攻,怎么让不同领域的专家能够更直观地找到模型,用好算法,做好应用,这是一个平台需要来解决的易用性的问题


我来向大家详细讲一个故事,达摩院上云。为什么要拿这个举例子呢?是因为达摩院不仅仅是一个研究院,同时也担负着AI算法服务落地的效果。


最初的时候一直是采取算法科学家们自己搭建的的工具来支撑自己的开发的模式。几年前大家一定在学校实验室或者公司研究院都搭过这样的infra。今天AI到了这样的规模之后,我们就会发现,假如可以开始逐渐的分工,逐渐的标准化,我们可以把开发效率提升得很高。


简单来说的话,研发流程无外乎开发、训练、部署这三部分。那么达摩院以前怎么做,现在怎么做的。


首先是开发。之前的时候我们可能每个团队都会有一个小集群,然后自己管理一个镜像,然后上面布Jupyter Notebook,把自己要的一些存储、网络等资源打通。今天,达摩院整体用PAI的Notebook服务DSW来解决一系列的问题:一方面我们完全兼容Jupyter的环境,另一方面,我们把很多的重复性劳动都做完了:打通底层的NAS,OSS等存储,建立多租的环境,复用底层的计算资源,协同管理多个团队的软件环境等等,让开发做的更容易。


其次是训练。只要团队在协同,就会产生出现有非常多的训练的任务,经常会出现的问题是,从用户侧,我的任务找不到资源跑不起来;从系统侧,我的资源利用率又很低,尤其是不同团队的资源池有硬分隔的情况下。那么,我们把这个问题下推给PAI的云原生训练服务DLC:一个大池子,调度的时候,可以考虑分布式训练需要的问题,同时也可以考虑不同团队任务的优先级、公平性等问题,来把计算资源的水位明显提升上去,让每个用户找资源的时候都能找的到。


最后是部署。今天最简单的部署一个模型的方式,就是拉起一个web server,拿flask或者其他框架,搭一个restful api。但是,一个成熟的服务就会需要有像是推理优化、蓝绿部署、模型混部、版本控制等一系列的需求。我们说一云多芯,有其他硬件上来的时候我们怎样可以去自动化地寻找最高性价比的软硬件配置,等等。这一系列可以通过PAI EAS的服务给达摩院提供能力。


今天我们把93%的达摩院的开发训练部署都在云上支撑起来,可以达到开发、训练、推理服务效率的大大提升。举一个推理服务的例子,OCR:OCR是一个很细碎的服务,各种定制化的模型很多,但是同时每个模型调用量也许又不是特别高:通过上到PAI的推理服务,我们今天可以通过混部、优化等方式把OCR的推理服务效率提升超过80%。


那么从一个简单架构的角度,我们通过一个云原生,高效的AI平台PAI,就在支撑算法团队从规模、效率和易用性上面不断突破。从规模上,我们支撑了10万亿参数的预训练大模型;从易用性上,ModelScope作为开放的模型共享的平台会将达摩院的绝大多数模型开源贡献出来,并且在PAI上无缝地衔接从模型到部署的链路;从效率上,我们通过AI开放服务平台OpenMind已经服务这日均1万亿次左右的调用,这还是一个非常大的体量。


从一个系统架构师的角度,我们今天通过支撑达摩院上云和云商的客户,总结出来实现AI工程化的关键,无外乎是提升下面几个效率。

A7E232EB-A0D1-467a-8029-3B4D00643704.png

我们以前经常说,AI三要素是算力算法数据。今天,效率就体现在这三个角度上


算力的角度,回答很简单:通过云原生的方式,来管理和调度计算的资源。当然里面有很多很有意思的事情,例如如何做好针对AI的K8s调度器?如何来做大模型的分布式切片,等等,然后把它作为一个标准的云服务提供给大家。


算法的角度,今天Notebook这样的研发范式深入人心,一方面作为一个AI平台是保持这样的易用的交互体验,另一方面是把底座做好,打通计算,存储,网络的同时,打通Notebook的开发到分布式训练到部署,这些组件能够打通,让算法工程师关注在效率上。


数据的角度,今天AI最终还是离不开数据。尤其是涉及到传统机器学习,以及多模态的训练,我们经常会需要将AI计算和传统的数仓,数据湖的体系打通,在推理的时候需要将它和实时计算、OLAP分析、向量化检索等体系打通。

AAB90274-4F20-4006-BFE6-69452E8840D5.png

去年在云栖大会上,我们发布了灵杰这一个大数据AI一体化的品牌。今年我们在这各个层面上都有长足的进步:从最底层的资源上,倚天710给我们提供了一个新的硬件形态;中间的大数据和ai一体化平台,除了我刚才讲的一些能力之外,接下去我的同事们和合作伙伴们会做更加深入的介绍。在这个平台上面,我们也孵化出OpenMind AI开放服务,和OpenTrek产业智能引擎等和业务更加紧密的解决方案,来解决AI落地最后一公里的问题。


在前面一年当中通过这样一个AI工程化体系,我们服务了非常多的云上的客户,从传统的城市大脑,到今年创新不断的自动驾驶和AI科研,到互联网行业的本行就是内容的搜索推荐,等等。


那我们今天是一个工程化的论坛,所以我想最合适的,可能是实际向大家展示一下,在PAI平台上,从一个基础模型开始,如何来做模型的探索,验证,finetune,并最后将自定义的这个模型发布成为一个实际可用的服务的过程。接下来为大家演示一个demo,请大家注意的是,这是一个单个工程师的视角,在同一时刻,经常会有整一个团队都在同时做这些工作- 平台解决了底层的调度协同等问题,让我们关注在实际的工作上面,而不是系统、调度等脏活累活上面。

image.png

设置标签demo演示


希望通过demo大家能够对PAI有更深入的了解,后续希望和大家有更多的交流,一起探索、联通AI的创造力和生产力,谢谢大家。


了解更多关于阿里灵杰:https://ai.aliyun.com/

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里通义千问大语言模型在人工智能教育领域的应用探索
阿里通义千问,阿里集团的大型预训练语言模型,应用于AI教育,实现个性化教学、自适应学习系统和智能答疑。通过AIGC,它生成个性化内容,适应不同学生需求,优化教育资源配置,推动教育创新。在教育场景中,模型提供实时反馈,定制学习路径,促进教学质量提升。随着技术进步,AI在教育领域的应用将更加深入,但也需关注伦理与安全。
1830 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在现实世界中的应用:从理论到实践
【10月更文挑战第8天】人工智能在现实世界中的应用:从理论到实践
68 0
|
3月前
|
机器学习/深度学习 人工智能 大数据
人工智能:从梦想到现实
20世纪初,计算机科学先驱艾伦·图灵提出“图灵测试”,探讨机器是否能展现与人类无异的智能行为,激发了人工智能(AI)的无限想象。1956年的达特茅斯会议标志着AI研究的开端,历经起伏,至80年代专家系统与机器学习的出现推动了AI进入新阶段。21世纪以来,大数据、云计算及深度学习等技术的飞速发展使AI应用广泛,从智能家居到医疗诊断等多个领域发挥重要作用。尽管如此,AI的发展亦伴随着隐私保护、就业及伦理等社会议题,需相关政策引导以确保其健康发展。
|
11月前
|
存储 机器学习/深度学习 人工智能
【2023云栖】黄博远:阿里云人工智能平台PAI年度发布
本文根据2023云栖大会阿里云计算平台事业部资深产品专家、阿里云人工智能平台PAI产品负责人-黄博远演讲实录整理而成,演讲主题:阿里云人工智能平台PAI年度发布
【2023云栖】黄博远:阿里云人工智能平台PAI年度发布
|
6月前
|
人工智能 自然语言处理 算法
魔搭城市行 | 南京站 · 「阿里巴巴人工智能大模型&魔搭开源社区交流论坛」成功举办
2024年1月11日下午,阿里巴巴人工智能大模型及魔搭开源社区交流沙龙 · 南京站在南京软件谷云密城L栋成功举办!
|
机器学习/深度学习 人工智能 安全
|
人工智能 自动驾驶 机器人
|
机器学习/深度学习 传感器 人工智能
走进人工智能|自主无人系统 从概念到现实的飞跃1
序言 AUS的现有应用 从概念到现实的飞跃
263 0
|
机器学习/深度学习 传感器 人工智能
生成式人工智能能否使数字孪生在能源和公用事业行业成为现实?
数字孪生是物理资产的数字表示形式。它使用真实世界的数据(实时和历史)与工程、模拟或机器学习 (ML) 模型相结合,以增强运营并支持人类决策。
106 0