4月 7 日,阿里大语言模型“通义千问”官宣邀测引发热议,国内大模型一触即发。今天在2023阿里云峰会上,阿里云智能首席技术官周靖人正式发布“通义千问”。阿里所有产品未来将接入通义千问进行全面改造,钉钉、天猫精灵率先接入测试,将在评估认证后正式发布新功能,用户通过简单的文字或语音交互便科技完成丰富的指令需求。未来,该模型将结合阿里系产品,全面重塑办公、语音助手、电商、导航、搜索、文娱等场景体验。令人惊喜的是,企业还可基于“通义千问”来打造自身专属大模型,享受大模型浪潮带来的科技红利。除了释放大模型能力外,峰会还重磅推出“飞天免费试用计划”,全栈云产品开放免费体验!50多款核心产品免费试用,时长最多可达3个月,这是国内开放全栈云产品免费试用规模最大的一次!此外,为进一步降低开发者和企业的用云成本,推出ECS最新主售U实例,比以往同类产品降价高达40%!为什么阿里云这么“大手笔”?“通义千问”背后还有哪些布局计划?大模型时代,开发者如何面对编程范式的全新变革?CSDN创始人&董事长,极客帮创投创始合伙人蒋涛与阿里云智能首席技术官周靖人从阿里云峰会的重磅发布谈起,深入探讨如何用云更好地支撑 AI 发展,如何用云更好地支持开发者,以及背后的布局思路。
大模型无法一蹴而就,厚积薄发成“通义千问”
蒋涛:周老师好,去年我们在云栖大会期间聊魔搭社区、聊“Model as a Service”( MaaS,模型即服务)理念,才过去短短的几个月时间里,大模型发展已风起云涌。周靖人:本次聊的“通义千问”,其实是 MaaS 的延展。
蒋涛:“通义千问”是基于去年发布的通义大模型发展而来,还是全新研发?周靖人:通义大模型本身不代表某种模型或某项技术,它代表系列模型的演进路线。整体而言,它朝着多模态能力接近于人类智慧的模型智能体方向演进,“通义千问”作为该模型系列的重要部分。蒋涛:“通义千问”从开始研发到邀测用了多长时间,中间过程有哪些关键节点?是否和 ChatGPT 的发布有关?周靖人:不是在 ChatGPT 推出后,阿里才开始研究大模型。早在 2019 年,阿里开始尝试各类预训练大模型的研究,是国内较早一批研究大模型的企业之一。技术演进路线从最初的 StructBERT 到多模态(2021年推出国内第一个预训练的百亿参数多模态中文大模型M6),再到 PLUG 系列多模态模型以及最新的 Composer 视觉模型。尽管在外界看来,“通义千问”以对话方式的形态来展示大模型的能力,但它作为阿里大模型演进史上的一个成果,是阿里多年研究和创新积累的体现。蒋涛:自从“通义千问”开始邀试后,大家将它和GPT、“文心一言”相对比,引发热议。在您看来,当前“通义千问”处于什么级别?与 ChatGPT 有多大差距?周靖人:客观而言,GPT-4 不管在核心技术还是在产品上,均具有领先地位。这是正常科技创新的发展过程,过去我们在一些领域做得好,今天它可能在大模型上有不错的领导地位。目前大家看到的是过程中某个现象,而不是终态,在技术上,处于“你追我赶”阶段,这将促进各家取长补短,不断创新与迭代。蒋涛:语言大模型选择语料库是非常重要的,请问“通义千问”是如何选择的?周靖人:一直以来,人们看到的视觉模型、多模态模型以及语言模型都从不同的角度来学习人类的智慧。语言作为知识沉淀的重要载体,不同语种例如从中英文获取的知识,其语言描述和发音均不同,但中间的知识能力是互通的。在训练“通义千问”模型时,不仅需要中文语料,还要跨语种的Multilingual模型,从不同语言里学习对知识的理解。不管用英文还是用中文,均可表达同样的知识逻辑。通过各个语言知识语料的学习,我们可以把各语言知识的体系丰满起来。因此,“通义千问”既能做机器翻译,也能自动切换各语种,它本身是多语种的智慧体。从 ChatGPT 的兴起,让大家关注到大模型,但大模型的发展并不是一蹴而就的。几个月前当我们谈到大模型时,很多人尚不理解它的能力,如今人们对大模型有一定的认知。预训练大模型的技术路线持续演进,“通义千问”是技术演进过程中的一个产品,未来不仅从语言角度,还将释放更多的多模态能力。就像人类一样,获取知识的途径不仅从自然语言,还从视觉、听觉等获取。大模型从对语言的理解,慢慢变成对图片、视觉的融合理解,不断加强智能体的丰富性以及完整性。蒋涛:我理解您的意思是,“通义千问”仅是刚刚开始,未来结合多模态,还有许多想象的空间。周靖人:从模型的研发而言,目前我们处于中间态,从语言模型到多模态模型的逐步发展;从模型的应用而言,处于开始阶段,“通义千问”是基于对话的产品形态,未来还有各行各业的模型应用。这背后离不开阿里云对技术的探索和商业尝试,解锁更多可能性。蒋涛:随着用户量的增加,“通义千问”会自主进化吗?是正向的飞轮效应还是需要做训练和调优来完成?周靖人:通过正式推出“通义千问”来让大家体验,希望能得到大家的反馈。在内部,我们一直在做技术研发,每一天模型都在进步,不断突破技术边界,可以说“士隔三日,当刮目相看”,“通义千问”经过一两周时间有不一样的体验。蒋涛:“通义千问”预计什么时候达到 GPT-4的能力?周靖人:我们不以GPT-4 作为目标,就像我们最初也不是因为 ChatGPT 才开始研究大模型的,我们根据自己的技术路径和规划在前进,回过头来看,我们之前所做的判断是准确的、有前瞻性的,未来将持续在模型上不断创新和突破。蒋涛:微软在生产力工具上深耕多年,其技术产品带来巨大变革,这次发布的“通义千问”已应用在钉钉、天猫精灵等场景上,带来哪些影响?周靖人:阿里内部许多业务团队未来将接入“通义千问”大模型,通过不同的方式来做不同的业务场景探索。“通义千问”不仅以网页对话的界面给大家尝试,未来还将推出API调用,只要简单的ModelID、API Key就能接入到系统里,让更多开发者使用该模型落地应用。蒋涛:未来行业大模型如何发展?是基于通用大模型的基础上做,还是私有化设计?周靖人:刚才我们聊了很多通用大模型的话题,但企业有自己特殊的业务场景,需要定制化设计。在峰会上,我们宣布企业可基于通义千问来打造专属大模型,企业可在阿里云保障数据隐私安全的专属空间中,上传企业知识库等,并获得针对企业私数据定制的个性化语言大模型。通过为企业打造专属大模型,让更多企业参与到模型的训练里来,让模型在各行各业有更真实、更完善的落地方案。蒋涛:已经有行业客户参与进来了吗?周靖人:目前有不少客户和我们共创,在本次大会上,我们宣布了和OPPO安第斯智能云合作,联合打造OPPO的大模型基础设施。吉利汽车、智己汽车、奇瑞新能源、毫末智行、太古可口可乐、波司登、掌阅科技等多家企业也表示,将和阿里云在大模型场景展开技术合作的探索。
构建智能世界的云底座,释放大模型红利
蒋涛:众所周知,大模型的训练成本很高,ChatGPT 背后有微软云 Azure 做支撑,阿里云本身作为云计算厂商,训练出来的大模型是否做一些优化让算力开销变得更少?周靖人:大模型是计算机科学全方位技术的集成,这不仅是表现在某个产品上、某个模型算法设计上,还包含背后云计算的方方面面。这正是 OpenAI 和 Azure 相互依赖的原因。我们也不例外, “通义千问”的成功诞生和阿里云本身云智能的计算能力密不可分。之前当我们谈“模型即服务”理念时,很多人觉得这个概念很新,但很欣喜看到现在大家接受这个概念并推崇它。阿里云一直围绕 MaaS 理念来规划云计算产品,其中一个重要的点是围绕模型来实现 AI 开发范式的变革。这背后需要强有力的基础设施做支撑,例如 MaaS 下有 IaaS、PaaS 提供支持。从基础算力来看,模型训练需要很多 GPU 卡或者算力,但这个说法只提到了其中一部分。大模型的训练往往需要几千张甚至上万张卡来完成,如何连接卡与卡、连接机器与机器,提供高效的网络等都是重要的环节。如果没有这些环节,仅凭借GPU 卡是很难跑出大规模的模型体系。在基础设施建设上,多年来阿里云有长足的投入,这正是为什么我们能从2019年开始做大模型的原因,每次核心模型的发布都依赖云计算的进步。与阿里云基础设施团队联合创新,通过RDMA网络、自研网络协议来实现高吞吐、低延时的网络连接,同时还能智能化调度和优化,来减少网络的拥塞,以提高模型训练效率。训练模型需要大量数据,例如“通义千问”涉及语料数据,视觉模型、多模态的模型训练还涉及到多模态、图片、视频的数据,这些数据需要有高效的存储系统,而阿里云的存储系统每秒达到 20TB 的吞吐量,通过数据cache来降低每次读取数据的延迟。只有具备这些基础设施能力后,才有可能说训练高质量的模型。不仅需要这样的硬件能力,还需要有软件能力。另外,当成千上万的机器协同工作时,如何并行化实现模型训练,这里面存在诸多挑战。阿里云经过超大规模的模型训练的考验,技术实现全球领先。2021年,阿里发布国内首个超百亿参数的多模态大模型M6,从最开始的百亿的参数规模,到最高达10万亿参数规模。阿里云扛住过训练10万亿参数规模的模型能力,经历系统、网络、调度、编译等考验,因此强大的云基础设施能力也是我们能快速推出“通义千问”语言大模型的核心基础。然而大家往往容易忽略的是当模型训练后,如何快速让模型服务线上线下的应用?这和云基础设施强关联。我们在做模型服务时,各个区域可能需要机器,作为国内第一全球第三的阿里云有独特优势,全球有 28 个 Region,方便模型快速部署在全国乃至全球的各个区域,为企业的业务场景提供广泛的服务能力。
大模型变革编程范式
蒋涛:您如何看待开源大模型的发展?周靖人:这是健康的发展趋势,阿里云正在开源一些模型。在去年云栖大会发布的魔搭社区,才过去几个月时间,魔搭社区已成为中国最大AI模型社区,其发展速度超出我们的预期。目前,有超过上百万的开发者来魔搭社区里使用模型,累计超过1600万的模型下载和使用,社区模型数量从最开始的300多个到现在超过800个。值得一提的是,其中很多开源模型不是由阿里达摩院提供的,而是由其他创业公司和科研单位所提供的。开源促进科技创新,我们持续以开放的心态,积极参与社区建设,通过魔搭社区不断对外开源模型。蒋涛:未来编程是否会开发出大量基于大模型的LM APP?基于大模型的应用时代开发是否来临?不同的大模型之间的编程是否相通?当多家大模型并存时,开发者应用生态将会产生哪些变化?周靖人:今天我们讨论的所有问题是围绕 MaaS 来做进一步解释。语言模型只是科技创新的一个节点,今后还有更多模型涌现并成为MaaS 的重要部分,甚至可以说 MaaS 变成云的重要应用场景。我有感而发,今天和蒋总讨论的这些问题,和几个月前我们聊天的内容是十分一致的,并进一步梳理了当时相对模糊的概念。大模型将变成开发范式的重要元素,未来很多应用围绕模型做开发应用,有很多创业公司将利用这些模型来做行业定制或者二次开发,这将形成相互依赖的关系。这和企业专属大模型的概念一致,通用模型具备通用的能力,在具体落地时,还要针对具体场景做微调、做Prompt Engineering。专属大模型进一步降低模型、推理服务带来的成本,还可更精准解决行业需要解决的真实业务场景问题。因此未来将有更多开发者围绕模型服务在云上做 AI Native 开发,也就是说更多开发者利用云的能力、模型的能力做二次开发,为各行各业产生深远的影响,其发展趋势已越来越清晰。蒋涛:未来关于LUI(自然语言用户界面)应用将会是大的发展趋势?周靖人:基于模型服务做智能化开发这个趋势是可以预见的,其他技术领域的发展逻辑也在朝这方向演进。如上世纪七十年代,开发者用汇编语言写排序,现在简单调用一个方法就能实现。但是现在的编程体系越来越抽象,大家更关注更高阶的问题。未来,人工智能有更多抽象的过程,不是所有的人都从底层的语言模型一步步训练开始,也可以基于模型能力进行二次开发,调优模型,来发挥自己的潜力。
大模型时代下,开发者如何拥抱?
蒋涛:在本次峰会上,我们看到阿里云为降低开发门槛做了不少工作。周靖人:对,阿里云希望提供丰富的技术产品,技术创新来降低技术使用的门槛,不断降低云使用成本。我们欣慰地看到,过去一段时间,云上业务开发得到突飞猛进的发展,越来越多的开发者从线下开发转入到云上开发,再到云原生开发,让所有的开发环节都在云上,这样的开发范式的转变已处于加速的过程。云上创新逐渐腾飞起来,云计算已经成为技术创新重要的元素和核心基础能力。从IaaS、PaaS、MaaS,阿里云拥有完整的产品体系。特别在PaaS层,我们希望进一步让更多产品升级 Serverless,让大家更关注的解决业务问题本身。在数据库、大数据、机器学习、函数计算等方面推出 Serverless 服务,来降低云的使用门槛,让开发者像用电一样来使用云平台来解决实际问题。在IaaS层,今天推出新款ECS云服务器U实例来降低企业级云产品的门槛,开发者无需选择具体哪款CPU,U实例将让系统自动选择通用计算实例。主售企业级实例还将降价40%,进一步降低使用的成本,让更多开发者享受到随手可得的算力。在存储上,发布对象存储预留空间产品OSS-RC,降低存储费用,让开发者触及技术发展的红利,不断让开发者在云上进行高性价比的应用开发。
蒋涛:一些CSDN用户看到大模型的迅速发展,他们既焦虑又兴奋,您认为开发者在大模型新时代还有哪些机会?有哪些建议给我们开发者?周靖人:我认为应该是兴奋而不是焦虑。在MaaS理念下,开发范式正发生变革,带来科技和业务等系列变革。同时也让我们获得更多机会,开发者要学习和拥抱这个变革,学习如何和模型共同工作,学习如何应用预训练大模型。但大模型并不能做所有的事情,还需要开发者不断创新,让模型发挥更大的价值。这里面蕴含巨大机遇,期待广大开发者和阿里云一起不断学习、共同进步,阿里云不断为科技创新提供坚实的基础。蒋涛:大家要跟模型共存,用好模型。周靖人:开发者对阿里云来说十分重要,我们高度重视开发者社区的建设。我们观察到在大模型时代,大家需要学习使用云、学习使用模型、学习使用新技术,我们推出“飞天启航计划”,所有主力性的产品可免费试用,让开发者无需成本,尽情体验阿里云产品。相信这对开发者快速进入到云原生开发里起到积极的支持作用。阿里云期望为中国人工智能的发展提供坚实的基础,通过毫无保留地将各种能力向开发者开放,期待开发者和企业在阿里云提供的平台上积极创新,在大模型全方位竞争的市场下能够脱颖而出。蒋涛:这真是开发者的大好时代,谢谢。