飞天技术观丨大模型如何真正在应用环节产生价值

简介: 大模型揭开了智能时代的序幕,其技术发展日新月异,创新成果不断涌现。可即便如此,最终不可避免地要回答一个问题:大模型如何真正实现商业化应用落地?

云栖战略参考 2023版头_副本.png

《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。

本文根据通义实验室自然语言智能团队负责人黄非的访谈整理

10月31日,阿里云正式发布千亿级参数大模型通义千问2.0;与此同时,基于通义大模型训练的八大行业模型组团发布。随着大模型的迅速发展,阿里云已与60多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等垂直领域的应用落地。

大模型应用场景的抉择逻辑

在大模型应用场景的抉择考量上,可以用四个字来简单概括:有用、有趣。

首先是“有用”。大模型在市场上的应用空间到底如何,需要具体考量市场规模和用户规模,以及大模型能为用户带来的实际价值。无论是法律行业,还是医疗、编程等领域,都存在着大量的需求和广阔的市场空间。

其次是“有趣”。例如,在文艺或娱乐类的大模型中(如通义星尘),通过创意的内容、互动的对话等形式,可以为用户带来新鲜有趣的体验,让用户在使用过程中感到愉悦和满足,增强用户的参与度和忠诚度。

如果用营销领域的行话来讲,就是所谓的痛点和痒点。在大模型的开发和应用过程中,不论是用户痛点还是用户痒点,只要能解决其中一点,就值得一试。如果都能解决,自然更好。

具体到To C和To B的应用场景,其对于大模型能力的要求又各有不同。

对于To C应用场景,最为重要的是两点:个性化和通用性。一方面,大模型要能够了解和满足用户的个性化需求,包括他们的偏好和行为特点。另一方面,大模型要具有广泛的适用性,能满足大多数用户的基本需求。简言之,这样的模型就像用户的个人百宝箱、智能助理或万能助手。

对于To B应用场景,大模型需要提供特定行业的专业能力。这意味着大模型必须深入学习和理解相关行业知识,以具备专家级的支持能力。同时,B端用户通常都有自己的行业知识库或者知识图谱,应当结合大模型充分利用这些现有数据资源和领域知识,为行业场景带来独特价值。

大模型产品形态的落地思考

如今,大模型在应用落地方面正处于积极探索的阶段,但这些模型在业务流程和实际场景中的应用还有很大的发展空间。

以上下文窗口扩展为例。今年上半年,人工智能初创公司Anthropic官方宣布,其旗舰文本生成AI模型Claude的上下文窗口已从9千个token扩大到10万个token。随着大模型的上下文窗口正变得越来越大,摆在我们面前的问题是:上下文窗口越长越好,是否“卷”错了方向?

在理想情况下,大模型应该能够记录所有历史信息,并随时调用这些信息来精准回答用户当前的问题。随着大模型的上下文窗口越来越长,我们确实看到大模型在应答能力上有所提升。然而,由于技术和工程化上的限制,现有模型虽然做得很大,但却无法记忆足够长的内容。以《三国演义》为例,这部文学作品的篇幅之长,远超现有模型的记忆窗口能够处理的范围。因此,未来的技术探索不仅是扩展大模型上下文窗口,更关键的是如何更有效地表示和记忆历史信息,让模型可以根据需要动态地调取必要的信息来回答问题。

再如Plugin(插件),也是较早出现的落地大模型应用的产品形态之一。3月24日,OpenAI发布了ChatGPT Plugins(ChatGPT插件系统),它可以将第三方应用程序纳入到GPT之中一同为用户提供服务。但同时OpenAI也坦言这类插件在短期内可能不会得到广泛采用,这在一定程度上反映了一个现实问题:插件类应用似乎尚未在产品和市场之间找到比较好的契合点。对此现象,不妨从技术和应用的角度一窥一二。

从技术角度看,现如今大模型的训练目标主要是预测下一个词。然而,当涉及插件时,大模型不仅要对于用户意图进行理解,对任务进行拆解,还需要能够决定如何调用合适的插件满足不同的任务。这意味着大模型训练的目标需要进行调整,在技术层面需要进一步探索。

在应用角度,则涉及插件的多样性和适用性。在大模型中,已经有一些插件(如检索工具和计算器)能够较好地发挥作用,可以支持用户查询天气预报、股市价格等,但更多类别的插件还需要进一步开发。这个开发过程必须与应用场景紧密结合,因为不同的场景可能需要不同的插件来解决大模型无法处理的问题。换句话说,需要根据不同场景和行业的需求来决定应该使用哪些插件来弥补大模型的短板。这是一个需要持续探索和研发的过程。

此外,以AI Agent(AI智能体)作为落地大模型应用的产品形态最近也备受关注,众多业界人士对其寄予厚望,甚至有一种声音认为——AI Agent是“大模型下一场战事”“最后的杀手产品”。就现实情况而言,AI Agent既是一种趋势,同时也有很长一段路要走。

究其根本,有两大核心关键需要探索与迭代。

其一是AI Agent之间的有效协同。大模型需要学会如何进行任务拆解,如何区分不同AI Agent的能力,并决定哪些问题应由大模型自己回答,哪些问题应交由专业的AI Agent来处理。

其二是自组织能力。在今年8月份,斯坦福和谷歌的研究人员以《模拟人生》游戏为灵感,构建并开源了一个名为Smallville的“虚拟小镇”,25个AI Agent(AI智能体)在小镇上工作生活,每个智能体都有自己的性格和背景故事,可以进行各种交互和决策。该项目最初只是定义了几个原生的AI Agent,它们之间的交互和协同能力是在这个小型社会中逐渐发展出来的,类似于人类社会的发展模式。像这样的自组织能力,也是需要不断迭代的。

然而,人类对于大模型的野望远不止于此。随着大模型从单模态走向多模态,从文本到图像再到物理世界的交互,由大模型和机器人相结合的具身智能,被认为有望在未来成为大模型的终极应用场景。

具身智能可大可小。短期内,具身智能的实现可以从较小的范围开始,例如通过自然语言交互来进行代码生成或数据库查询,在2023云栖大会现场发布的通义灵码(智能编码助手),以及通义实验室和钉钉合作开发的ChatBI智能化产品,均属此类。这是目前能够看到的具身智能已经落地的方向。如果进一步发展,未来也许可以支持商业分析和决策。

从长远角度来看,大模型与机器人的交互拥有更广阔的发展空间。随着机器人应用场景的不断发展,再加上大模型的语义理解和组织规划等能力,有望通过自然语言交互的方式让机器人像真人一样执行任务,并将结果反馈给大模型。这是一个值得期待的新方向,通过这种方式,人机协同可以极大提高工作效率、做出更好的决策。

也许有人会问,通用型具身智能和更聚焦于场景的具身智能,谁会更早到来?关于这一问题,目前更为乐观的看法是场景驱动下的具身智能会有优势。原因在于,问题往往先从实际场景中被出现、被解决,再逐渐被抽象成通用性问题。

大模型在刚出现时,人们只是对其强大的能力感到震惊。至于如何落地、如何真正创造价值,即从有趣到有用,经过几个月的快速迭代,其应用方向已经逐渐明晰起来。我们有理由相信,未来会有越来越多的大模型能够创造巨大商业价值的应用场景逐渐涌现。

综上所述,如果要阶段性总结大模型落地方法论,或许可以概括成四字诀:一纵一横。

所谓一纵,指的是如何让通用大模型融合特定行业的专业知识,使其能够为行业提供类似于专家级的价值。这种深度融合至关重要,因为只有当大模型能够理解并处理行业特定问题时,才能在该行业中具有真正的价值。

所谓一横,指的是把大模型的能力做宽,在其原有能力基础上进行拓展和强化,以提供更广泛的功能和服务。以知识学习为例,大模型需要从各类文档中提取信息,并通过检索增强RAG等方式融合到大模型生成的结果中。这涉及PDF文件、Word文档等多种格式。在这个过程中,大模型如何识别与解析文本,需要集成像OCR(光学字符识别)和文档解析这样的通用能力,以及利用检索和Agent等能力把相关信息输入给大模型进行融合输出。

一纵一横,一是往深了做,一是往开了做。只有这样,才能够确保大模型技术顺利发展,同时活跃生态系统,并促进更多的实际应用场景得到有效落地。

大小模型协同才是未来趋势

2023年,是大模型层出不穷的一年。我们见证了模型从数亿参数到数百亿,乃至千亿甚至万亿参数规模的惊人增长。随着模型越来越大,它们在处理数据和执行任务时的能力确实得到了显著提升。与此同时,也带来了一系列挑战。

一方面,根据实际应用的需求,用户可能需要大模型在推理和通识方面的能力,然而,通用大模型的训练成本很高,对于需要特定知识的场景,使用训练成本较低的小模型往往更为适合。另一方面,许多知识和数据等信息不是公开可用的,尤其是某些企业特有的信息。大模型无法直接学习到这些私有信息,因为它们通常只存在于企业的私有环境或专属模型中。

面对这类挑战,一个更为有效的策略是大模型扮演中控角色,负责分解任务,决定哪些工作交给小模型处理,小模型再将处理结果反馈给大模型生成最终输出。所以,大模型和小模型协同作业一定是未来趋势。在成本可控的框架之下,让大小模型各司其职,这种方式能够将不同模型的能力快速应用在不同的场景和行业中。

展望未来,甚至可以畅想这样一种可能:随着时间推移,每个人和大模型的交互越来越多,大模型也更加深入了解这个人的性格特点、生活习惯和兴趣爱好。最终,这可能会慢慢演化出一个高度个性化、专属于个人的小模型,从而提供更为精准和个性化的服务。

大模型揭开了智能时代的序幕,对于技术范式和人类社会的发展都会产生极大影响,这种未来已来的趋势是显而易见的。我们应当对科技进步保持乐观态度,为未来充满信心,与此同时,也谨慎地走好脚下的路。

相关文章
|
2月前
|
人工智能 自然语言处理 开发工具
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
本文介绍统一多模态 Transformer(UMT)在跨模态表示学习中的应用与优化,涵盖模型架构、实现细节与实验效果,探讨其在图文检索、图像生成等任务中的卓越性能。
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
|
5月前
|
人工智能 前端开发 搜索推荐
利用通义灵码和魔搭 Notebook 环境快速搭建一个 AIGC 应用 | 视频课
当我们熟悉了通义灵码的使用以及 Notebook 的环境后,大家可以共同探索 AIGC 的应用的更多玩法。
605 124
|
3月前
|
自然语言处理 前端开发 Java
JBoltAI 框架完整实操案例 在 Java 生态中快速构建大模型应用全流程实战指南
本案例基于JBoltAI框架,展示如何快速构建Java生态中的大模型应用——智能客服系统。系统面向电商平台,具备自动回答常见问题、意图识别、多轮对话理解及复杂问题转接人工等功能。采用Spring Boot+JBoltAI架构,集成向量数据库与大模型(如文心一言或通义千问)。内容涵盖需求分析、环境搭建、代码实现(知识库管理、核心服务、REST API)、前端界面开发及部署测试全流程,助你高效掌握大模型应用开发。
378 5
|
3天前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
19 4
|
4月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
4月前
|
人工智能 自然语言处理 小程序
蚂蚁百宝箱 3 分钟上手 MCP:6 步轻松构建 Qwen3 智能体应用并发布小程序
本文介绍如何用6个步骤、3分钟快速构建一个基于Qwen3与蚂蚁百宝箱MCP的智能体应用,并发布为支付宝小程序。通过结合Qwen3强大的语言理解和生成能力,以及支付宝MCP提供的支付功能,开发者可轻松打造具备商业价值的“数字员工”。案例以“全球智能导游助手”为例,支持119种语言,不仅提供旅行建议,还能收取用户打赏。文章详细说明了从登录百宝箱、创建应用、添加插件到配置角色、发布上架及手机端体验的完整流程,同时提醒当前支付功能仅适用于测试环境。适合希望探索AI应用变现潜力的开发者尝试。
685 14
|
5天前
|
人工智能 算法 数据挖掘
AI Agent工作流实用手册:5种常见模式的实现与应用,助力生产环境稳定性
本文介绍了五种AI Agent结构化工作流模式,帮助解决传统提示词方式在生产环境中输出不稳定、质量不可控的问题。通过串行链式处理、智能路由、并行处理、编排器-工作器架构和评估器-优化器循环,可提升任务执行效率、资源利用和输出质量,适用于复杂、高要求的AI应用。
114 0
AI Agent工作流实用手册:5种常见模式的实现与应用,助力生产环境稳定性
|
1月前
|
存储 人工智能 Serverless
AI Agent 运行时相比传统应用有什么不同:百家企业 AI 实践观察(二)
本文深入探讨了AI Agent运行时的核心挑战及解决方案,分析了AI Agent从理论走向实践过程中所面临的动态推理、资源成本与安全风险等问题,并详细介绍了阿里云函数计算FC如何作为AI Agent运行时及沙箱环境(Sandbox),有效应对脉冲式计算需求、突发性负载、数据隔离与会话亲和性等挑战。同时,文章结合典型场景,展示了函数计算FC在编码式与流程式AI Agent构建中的优势,涵盖Chat AI Agent、营销素材组装、仿真训练等应用,为AI Agent的高效、安全运行提供了完整的技术路径。
220 2

热门文章

最新文章