《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。
本文根据阿里云副总裁、行业解决方案研发部总经理曾震宇(花名:舟牧)的访谈整理
大模型时代,软件工程迎来新范式
大模型是一种开始表现出AGI(General Artificial Intelligence,通用人工智能)能力的人工智能技术;未来,大模型会变成促进软件工程生态发生巨大变化的推动力量。
以往的软件工程,可以把软件做得非常复杂。比如,操作系统就是一个非常典型的复杂软件,Windows/Linux系统可能有几千万甚至上亿行代码。我们感知到的软件所表现出来的点状智能化能力或者复杂逻辑能力,其实都是一行行代码编写出来的,其智能是相对有限的。有一些借助深度学习技术在某些局部领域(如推荐、搜索)做出来的专业模型,我们称之为Narrow AI(狭隘人工智能),如下围棋的AlphaGo,确实可以表现出一些还不错的能力,但这离真正的通用智能还有很大差距。
在过去,软件工程本质上还是白盒化的模式。也就是说,软件虽然可以写得很复杂,但其内部结构很清晰,就如精密的瑞士手表一样。即使手表内部的结构再复杂,每一个齿轮转动也都是由人工设计的,由于其结构清晰可见,它的工作原理也就能被清楚的理解。如果软件出现问题,也可以清楚的知道如何对其进行修正和改动。这是以前传统软件工程的特点。
在大模型出现之后的AI新时代,软件工程或许会发生一个非常大的变化。因为LLM(Large Language Model,大语言模型)的存在,在未来的一些软件开发中,其核心的智能化能力可能不再和以前一样仅仅基于规则与人工编码的方式来做,而是可能由LLM作为软件工程底层的智能化“大脑”来支撑,其上层则将是各种各样的业务和应用。当用户跟业务交互时,业务系统会跟大模型产生若干轮的交互。正如最近涌现的一系列多模态通用大模型的出现,而这项技术还在往前发展,它的智能化能力也会越来越强。
大模型本身浓缩了各种各样的World Knowledge,包括Common Sense、语法知识、数学医学等专项领域的知识。同时,它又可以跟本地数据库、本地文档或搜索引擎API等周边系统进行沟通,最终将完整的结果返回给用户。这种模式,可能会成为未来许多业务软件的新范式。
与以往基于白盒的软件工程范式相比,这种方式有很大不同。LLM本质上是一个黑盒,它所表现出来的智能化能力,是由上百亿、上千亿甚至未来更大的模型参数展现出来的。换句话说,要改变一个模型的行为,可能只有不断“喂”它更多数据,进行精调和对齐,才行得通。
如果将以前的软件工程称为机械论,那么在软件工程白盒化的时候,即使问题再复杂,也可以通过Debug某些代码来改变行为。而新范式更偏向于有机论,它是一个完整的有机体,是通过数据和训练所形成的智能化“大脑”,其表现出的智能也无法再像以前一样,仅通过单独修改一行代码就能让自动化行为发生变化。因此,这种方式意味着软件工程的整个范式将会发生巨大变化。
在这个过程中,越早拥抱变化的人,未来其业务所展现的智能化能力就会越强。
总体来看,我们正在朝着更智能化、全能化的方向发展。大模型作为未来应用的智能化核心中枢或“大脑”,一定是未来演进的趋势和方向,也必定导致整个行业的软件范式发生变化。终态会是什么样,现在还言之过早,但这种变化的浪潮已经来了。至于浪潮会被推得多高、推成什么样,还需要所有AI从业人员共同实践探索。
与行业结合,是发展大模型“更成功的方式”
大模型的深层化能力可以应用于众多业务场景,它可以作为一个Central Brain(中央大脑),与周边系统进行交互。许多以前很难实现的深层次任务,在有了大模型介入之后,都会变得可解。
以金融行业的研报分析师这一特殊群体为例,他们的主要工作是研究行业和企业,有些人还会研究宏观经济。在过去,他们使用的数字化工具是万得数据库,以此获取各种金融相关的数据,并将这些数据导入本地系统,进行各种分析,最后形成观点假设。
例如,在研究TMT行业或半导体行业时,分析师通过对一批行业和企业的数据进行分析后,可能得出这样的观点:短期内,由于一些外部因素对高端芯片产生影响,但对中低端芯片也许是利好。接着,他们会根据数据和观点撰写研究报告——这是他们的基本工作流程。其身份首先是数据分析师,先要理解数据,才能支撑观点,才能形成假设。换句话说,分析师在研究分析过程中起着非常核心的作用,是像智能体一样的存在。
如果我们将这个场景想象成大模型的工作方式,那么未来分析师的工作将会发生什么变化呢?
仍以研究半导体行业为例,分析师可以基于后台接入的第三方数据库(如万得)、券商本地数据、过往研报,以及从艾瑞、IDC等购买的各种研报数据,直接跟大模型进行交互、提出问题,例如:在过去的半年或一年里,中国大陆的半导体行业发生了怎样的变化?
大模型接到任务后,会对分析师的Prompt进行语义理解,从而调用后台数据库实现相应的SQL查询和数据提取,同时还会访问本地文件、过往研报,以及第三方购买的市场分析数据,并将相关信息进行汇总。大模型具备抽象总结能力,可以根据这些信息形成初步的观点,如“半导体行业在过去发生了怎样的变化,其依据来自……”分析师可以基于这些观点与大模型进行多轮对话、持续交流,如继续跟大模型讨论半导体行业的中低端芯片产业、发展情况等。这种工作模式将分析师之前需要进行的分析和调研工作转变为与大模型的交流,通过多轮交流,大模型可以最终帮助分析师形成完整的研报。在过去,这是难以想象的。
这只是发生在金融或半导体行业中的一个场景,在未来也可能成为一种常态。
再以政府行业为例。政府需要处理很多大小公共服务相关事件,例如垃圾倾倒、渣土车泄露、共享单车乱停乱放、交通事故、火灾、夏季台风等等,以往处理这些事件的方式是按照规范定义好的责权清单来进行。有了大模型的介入,处理人员就不再是根据责权清单去查找处理方法,而是与大模型进行交流。大模型经过训练,对城市事件有足够的了解后,就会告诉处理人员某事件由谁管,并自动将事件进行流转;甚至,有些事件的处理可以完全不需要人工参与,大模型会自动指派任务并进行分类处理。
此外,当用户向政府相关部门提交办事需求时,以往可能需要人工处理材料,或者由机器人根据关键词索引给出千篇一律的回答。未来,大模型可以自动从材料中提取相关信息,了解用户的办事需求,并自动为之办理。如果材料不足,大模型还可以提示用户补充材料。这种交互方式实现了“一边聊,一边就把事情给办了”。如果换作以往依赖传统的基于规则和人工的方式,这很难或根本无法做到。
大模型未来在行业中会有非常多的应用场景,而这些场景下的做事方法因为和现在不一样,所以我们需要在每个行业里挖掘新的方式去做以往偏人工和规则驱动的业务。
也许有人担心,传统的软件工程在未来有可能被各种大模型替代。实际上,大模型不会百分百替代传统的软件工程,因为业务系统与用户之间的交互仍然存在。但是,以往的传统软件架构完全是由白盒子软件构成,其中间最核心的那部分智能化能力未来可能会被大模型取代,周边的其他组件则与大模型进行交互,完成以前的业务流程。因此,在整个架构中,大模型将成为一个非常重要且不可或缺的角色。
基础大模型不是必选项,行业大模型也会是种好选择
众所周知,相较于训练基础大模型,行业大模型的训练成本要低得多。基础大模型的训练难度、复杂度和时间成本大约高出行业大模型训练近两个数量级。
就成本而言,训练基础大模型一定是最费钱、最费计算资源、最费人力成本和最费数据的。通常需要训练数万亿个Token,才能得到一个还算可用的模型,其单次训练费用至少在千万级人民币以上,而且这是一项有着较高技术门槛的任务。因此,并非所有企业都能够负担得起基础大模型的打造。
好在模型具有共通性,大部分工作量在基础大模型训练阶段就能完成。对于很多企业用户而言,好处在于他们根本不需要训练基础大模型,只需要在其所在行业或领域的模型基础上进行业务打通。把业务流程建立在基础大模型之上,成本会低很多。
例如,用于模型训练的计算资源由云计算厂商提供,用户可以直接享受基础大模型的调用服务。从这个角度看,成本已经是公摊之后的成本。调用基础大模型,可能还需要做一些简单的SFT(Supervised Fine-tuning,监督微调),但它耗费的计算资源要远远小于训练基础大模型所需的资源。
随着时间推移,相对更成熟的行业大模型肯定也会出现。未来,当行业大模型发展到一定程度之后,用户可能都无需自行训练模型了,而是将已有的行业大模型作为公共服务进行调用,通过一些插件就可以访问本地数据和文档。至此,模型的维护工作就交给云计算厂商或其他模型服务提供商来完成。这就相当于阿里云提出的“模型即服务”,即MaaS(Model as a Service)。模型变成了一种随手可得的服务,就像用户不需要拥有云计算资源一样,他们无需维护自己的IDC(数据中心),只需根据自己的实际需求,随时按量调用云服务,如ECS、存储、网络等云资源,就能完成他们的业务应用搭建。
构建行业大模型,并非完全只能由云计算厂商去做,还有另一种可能,就是其他行业内的成熟模型玩家基于阿里云提供的云底座去构建行业大模型。只要他们能够向用户提供高性价比的服务,那如阿里云一样的云计算厂商只要可以做好IaaS层的算力支撑即可。换句话说,无论是直接还是间接,未来这些大模型都会在云上高效运行。
百炼,云上的一站式大模型服务平台
除了在云上使用模型服务商提供的大模型以外,企业也可以通过大模型服务和工具,根据自己的需求来快速构建自己的大模型应用。
“百炼”,是基于通义千问、开源模型等大模型能力,结合企业专属数据,通过全链路大模型开发工具所打造的一站式大模型服务平台。可以为企业客户提供完整的模型训练、微调、评估等产品工具,通过预置丰富的应用插件,提供便捷的集成方式,让行业客户基于“百炼”就能快速完成属于自己的大模型应用的构建。
基于“百炼”所提供的模型服务,“百炼”也具备灵活的应用集成能力,包括官方预置数据管理插件、流程插件等能力,支持自定义业务插件的开发。基于LangChain的理念,通过可拖拽的画布形式,快速基于大模型及插件进行应用的构建,提升应用编排的能力。同时,通过提供预置Prompt模版及优化能力,提升了模型的应用效果,以及百炼预置了文档问答、应用写作、搜索增强等开箱即用的应用能力,让企业快速可得。
从训练、服务和AI应用开发角度,“百炼”可以全方位帮助企业和行业降低使用AI的门槛,释放AI价值。
在AI时代,阿里云的核心角色是做好大模型时代的算力服务提供者,将继续服务企业或行业用户打通业务智能化的“最后一公里”。
本文摘自《云栖战略参考》2023年10月刊
扫码限时申领纸质版
↓↓