《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。
本文根据通义实验室自然语言智能团队负责人黄非的访谈整理
10月31日,阿里云正式发布千亿级参数大模型通义千问2.0;与此同时,基于通义大模型训练的八大行业模型组团发布。随着大模型的迅速发展,阿里云已与60多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等垂直领域的应用落地。
大模型应用场景的抉择逻辑
在大模型应用场景的抉择考量上,可以用四个字来简单概括:有用、有趣。
首先是“有用”。大模型在市场上的应用空间到底如何,需要具体考量市场规模和用户规模,以及大模型能为用户带来的实际价值。无论是法律行业,还是医疗、编程等领域,都存在着大量的需求和广阔的市场空间。
其次是“有趣”。例如,在文艺或娱乐类的大模型中(如通义星尘),通过创意的内容、互动的对话等形式,可以为用户带来新鲜有趣的体验,让用户在使用过程中感到愉悦和满足,增强用户的参与度和忠诚度。
如果用营销领域的行话来讲,就是所谓的痛点和痒点。在大模型的开发和应用过程中,不论是用户痛点还是用户痒点,只要能解决其中一点,就值得一试。如果都能解决,自然更好。
具体到To C和To B的应用场景,其对于大模型能力的要求又各有不同。
对于To C应用场景,最为重要的是两点:个性化和通用性。一方面,大模型要能够了解和满足用户的个性化需求,包括他们的偏好和行为特点。另一方面,大模型要具有广泛的适用性,能满足大多数用户的基本需求。简言之,这样的模型就像用户的个人百宝箱、智能助理或万能助手。
对于To B应用场景,大模型需要提供特定行业的专业能力。这意味着大模型必须深入学习和理解相关行业知识,以具备专家级的支持能力。同时,B端用户通常都有自己的行业知识库或者知识图谱,应当结合大模型充分利用这些现有数据资源和领域知识,为行业场景带来独特价值。
大模型产品形态的落地思考
如今,大模型在应用落地方面正处于积极探索的阶段,但这些模型在业务流程和实际场景中的应用还有很大的发展空间。
以上下文窗口扩展为例。今年上半年,人工智能初创公司Anthropic官方宣布,其旗舰文本生成AI模型Claude的上下文窗口已从9千个token扩大到10万个token。随着大模型的上下文窗口正变得越来越大,摆在我们面前的问题是:上下文窗口越长越好,是否“卷”错了方向?
在理想情况下,大模型应该能够记录所有历史信息,并随时调用这些信息来精准回答用户当前的问题。随着大模型的上下文窗口越来越长,我们确实看到大模型在应答能力上有所提升。然而,由于技术和工程化上的限制,现有模型虽然做得很大,但却无法记忆足够长的内容。以《三国演义》为例,这部文学作品的篇幅之长,远超现有模型的记忆窗口能够处理的范围。因此,未来的技术探索不仅是扩展大模型上下文窗口,更关键的是如何更有效地表示和记忆历史信息,让模型可以根据需要动态地调取必要的信息来回答问题。
再如Plugin(插件),也是较早出现的落地大模型应用的产品形态之一。3月24日,OpenAI发布了ChatGPT Plugins(ChatGPT插件系统),它可以将第三方应用程序纳入到GPT之中一同为用户提供服务。但同时OpenAI也坦言这类插件在短期内可能不会得到广泛采用,这在一定程度上反映了一个现实问题:插件类应用似乎尚未在产品和市场之间找到比较好的契合点。对此现象,不妨从技术和应用的角度一窥一二。
从技术角度看,现如今大模型的训练目标主要是预测下一个词。然而,当涉及插件时,大模型不仅要对于用户意图进行理解,对任务进行拆解,还需要能够决定如何调用合适的插件满足不同的任务。这意味着大模型训练的目标需要进行调整,在技术层面需要进一步探索。
在应用角度,则涉及插件的多样性和适用性。在大模型中,已经有一些插件(如检索工具和计算器)能够较好地发挥作用,可以支持用户查询天气预报、股市价格等,但更多类别的插件还需要进一步开发。这个开发过程必须与应用场景紧密结合,因为不同的场景可能需要不同的插件来解决大模型无法处理的问题。换句话说,需要根据不同场景和行业的需求来决定应该使用哪些插件来弥补大模型的短板。这是一个需要持续探索和研发的过程。
此外,以AI Agent(AI智能体)作为落地大模型应用的产品形态最近也备受关注,众多业界人士对其寄予厚望,甚至有一种声音认为——AI Agent是“大模型下一场战事”“最后的杀手产品”。就现实情况而言,AI Agent既是一种趋势,同时也有很长一段路要走。
究其根本,有两大核心关键需要探索与迭代。
其一是AI Agent之间的有效协同。大模型需要学会如何进行任务拆解,如何区分不同AI Agent的能力,并决定哪些问题应由大模型自己回答,哪些问题应交由专业的AI Agent来处理。
其二是自组织能力。在今年8月份,斯坦福和谷歌的研究人员以《模拟人生》游戏为灵感,构建并开源了一个名为Smallville的“虚拟小镇”,25个AI Agent(AI智能体)在小镇上工作生活,每个智能体都有自己的性格和背景故事,可以进行各种交互和决策。该项目最初只是定义了几个原生的AI Agent,它们之间的交互和协同能力是在这个小型社会中逐渐发展出来的,类似于人类社会的发展模式。像这样的自组织能力,也是需要不断迭代的。
然而,人类对于大模型的野望远不止于此。随着大模型从单模态走向多模态,从文本到图像再到物理世界的交互,由大模型和机器人相结合的具身智能,被认为有望在未来成为大模型的终极应用场景。
具身智能可大可小。短期内,具身智能的实现可以从较小的范围开始,例如通过自然语言交互来进行代码生成或数据库查询,在2023云栖大会现场发布的通义灵码(智能编码助手),以及通义实验室和钉钉合作开发的ChatBI智能化产品,均属此类。这是目前能够看到的具身智能已经落地的方向。如果进一步发展,未来也许可以支持商业分析和决策。
从长远角度来看,大模型与机器人的交互拥有更广阔的发展空间。随着机器人应用场景的不断发展,再加上大模型的语义理解和组织规划等能力,有望通过自然语言交互的方式让机器人像真人一样执行任务,并将结果反馈给大模型。这是一个值得期待的新方向,通过这种方式,人机协同可以极大提高工作效率、做出更好的决策。
也许有人会问,通用型具身智能和更聚焦于场景的具身智能,谁会更早到来?关于这一问题,目前更为乐观的看法是场景驱动下的具身智能会有优势。原因在于,问题往往先从实际场景中被出现、被解决,再逐渐被抽象成通用性问题。
大模型在刚出现时,人们只是对其强大的能力感到震惊。至于如何落地、如何真正创造价值,即从有趣到有用,经过几个月的快速迭代,其应用方向已经逐渐明晰起来。我们有理由相信,未来会有越来越多的大模型能够创造巨大商业价值的应用场景逐渐涌现。
综上所述,如果要阶段性总结大模型落地方法论,或许可以概括成四字诀:一纵一横。
所谓一纵,指的是如何让通用大模型融合特定行业的专业知识,使其能够为行业提供类似于专家级的价值。这种深度融合至关重要,因为只有当大模型能够理解并处理行业特定问题时,才能在该行业中具有真正的价值。
所谓一横,指的是把大模型的能力做宽,在其原有能力基础上进行拓展和强化,以提供更广泛的功能和服务。以知识学习为例,大模型需要从各类文档中提取信息,并通过检索增强RAG等方式融合到大模型生成的结果中。这涉及PDF文件、Word文档等多种格式。在这个过程中,大模型如何识别与解析文本,需要集成像OCR(光学字符识别)和文档解析这样的通用能力,以及利用检索和Agent等能力把相关信息输入给大模型进行融合输出。
一纵一横,一是往深了做,一是往开了做。只有这样,才能够确保大模型技术顺利发展,同时活跃生态系统,并促进更多的实际应用场景得到有效落地。
大小模型协同才是未来趋势
2023年,是大模型层出不穷的一年。我们见证了模型从数亿参数到数百亿,乃至千亿甚至万亿参数规模的惊人增长。随着模型越来越大,它们在处理数据和执行任务时的能力确实得到了显著提升。与此同时,也带来了一系列挑战。
一方面,根据实际应用的需求,用户可能需要大模型在推理和通识方面的能力,然而,通用大模型的训练成本很高,对于需要特定知识的场景,使用训练成本较低的小模型往往更为适合。另一方面,许多知识和数据等信息不是公开可用的,尤其是某些企业特有的信息。大模型无法直接学习到这些私有信息,因为它们通常只存在于企业的私有环境或专属模型中。
面对这类挑战,一个更为有效的策略是大模型扮演中控角色,负责分解任务,决定哪些工作交给小模型处理,小模型再将处理结果反馈给大模型生成最终输出。所以,大模型和小模型协同作业一定是未来趋势。在成本可控的框架之下,让大小模型各司其职,这种方式能够将不同模型的能力快速应用在不同的场景和行业中。
展望未来,甚至可以畅想这样一种可能:随着时间推移,每个人和大模型的交互越来越多,大模型也更加深入了解这个人的性格特点、生活习惯和兴趣爱好。最终,这可能会慢慢演化出一个高度个性化、专属于个人的小模型,从而提供更为精准和个性化的服务。
大模型揭开了智能时代的序幕,对于技术范式和人类社会的发展都会产生极大影响,这种未来已来的趋势是显而易见的。我们应当对科技进步保持乐观态度,为未来充满信心,与此同时,也谨慎地走好脚下的路。