本文来源于阿里云社区电子书《百炼成金-大金融模型新篇章》
2、AI 原生应用实施路径
大模型技术仍在飞速发展,国内外大模型厂商的产品快速推陈出新,在商业化大模型和开源大模型社区,每个月、每周、甚至每天都有新的模型和框架出现。同时,算力资源短期内将持续紧张,大规模应用的铺开,直接导致对模型推理资源的需求持续上涨,而金融机构不仅要解决资源的供给问题,还需要持续提升算力的使用效率,支撑企业大模型场景的全面落地。
金融机构一直是 IT 技术的先行者,在数字化转型和技术创新方面不断寻求突破。如何能跟上大模型技术的快速发展,不掉队,客观理解新技术,快速识别合适场景,验证大模型的技术与业务价值,成为了企业面临的首要问题。“百舸争流,奋楫者先”,我们提出一条可行的路径,在解决算力资源短缺的同时,又能保障金融机构用上最新的大模型技术,为业务与客户带去价值。
“云上试航”:快速完成大模型可行性与价值验证
大语言模型横空出世,带来的不仅仅是单点技术的创新,更是全套技术栈的革新。GPU服务器、大模型全周期管理平台、推理加速框架、RAG 知识增强、Multi-Agent 智能体,这些新的事物在不停地刷新技术从业者的认知。以上种种技术,要在客户 IDC 完整搭建一套,难度极高成本极大,尤其是在大模型的价值尚未被完全验证与挖掘的前提下。
这个阶段,金融云成为了企业的最佳选择。算力层面,云厂商资源储备充足,为客户提供了多样化的算力选择,且弹性按需付费;模型层面,主流云厂商不仅提供商业化大模型,还提供业界优秀的开源大模型服务,客户可按需自由选择,以 MaaSAPI 的方式调用;平台工具层面,更是为客户提供了极大的选择空间,从大模型全周期管理平台到智能体应用,从检索引擎到向量数据库,以上这些,企业都可以灵活组合使用,快速验证新技术的价值,避免前期无谓的投入和时间浪费。
“小步快跑”:大模型应用试点的选择与落地
过去一年,大模型在金融机构的应用,也经历了快速的发展。最初期的尝鲜者们,都从RAG 知识问答场景开始,通过构建企业级知识库,引入大模型技术,充分感受其在语言理解与生成上的能力。随着大模型自身变得更加成熟,以及从业者对大模型的技术掌控力增强,大模型的应用已经从最初的“问答机器人”,开始渗透到金融行业的核心业务流程当中,并开始扮演 Copilot(辅助驾驶)的角色,提升员工工作效率,提升客户服务效果。
在银行行业智能客服领域,大模型被用于识别客户意图和情绪,为客服人员提供话术辅助与推荐;在证券行业投研投顾领域,大模型被用于读取海量的研报、资讯,以自然语言的方式提供观点问答和内容摘要等服务;在保险行业核保领域,大模型被用于理解复杂的核保政策,针对客户提交的材料做合规性审核与保险计划生成。这些被验证过的场景,都适合处于大模型建设初期的金融机构作参考,选择 2-3 个相对有容错性、投入产出比高的作为试点。
在这个阶段,可暂不考虑太多平台化的事情,宜采用“以用带建”的思路,选定场景后,引入一个经过验证的商业化大模型,提供持续稳定的服务和安全合规方面的保障。工程上可以在大模型应用层面,选择轻量化的 RAG、Agent 产品,配合商业化大模型,对外提供 MaaSAPI 的调用以及 Workflow 编排能力,快速支撑业务场景的落地。
“平台筑基”:建设 LLMOps 技术栈,实现中台化管理
走过试点阶段后,企业内大模型应用将会全面铺开,这时就不再适合从某几个应用出发单独建设了,技术团队需要在平台层面做整体规划,基于业界领先的 LLMOps 理念,围绕大模型的构建与应用流程,构建大模型全周期管理平台,实现基础能力的中台化管理与服务,支撑大模型在多业务场景的快速落地。
具体来讲,大模型全周期管理平台主要包含两个部分。模型中心,主要承载模型层面相关工作,语料管理、模型微调、推理加速、模型评测等;应用中心,在模型之上,提供 RAG 知识库、Multi-Agent 框架、Prompt 工程、Workflow 编排等能力,支撑业务快速基于大模型的能力,构建起应用链路。
企业在小步快跑阶段会使用一些主流开源框架做快速落地,例如:LlamaIndex、OpenAI的 AssistantsAPI。到了平台化阶段,不仅要考虑低代码大模型开发范式的支持,同时要考虑全代码开发范式,面向技术人员提供高效的开发与集成框架,并兼容主流开源框架,实现原有应用的平滑迁移到平台上。
“云端融合”:大模型混合云架构,充分利用云上资源
随着大模型应用全面铺开,场景从服务内部为主,转向直面外部 C 端客户,对大模型推理资源的需求会呈指数级增加。从当前大模型技术发展趋势和落地案例来看,未来推理服务会成为大模型资源需求的绝对主力。
正如前文例子,部署一个 72B 大模型推理实例,需要 3 张 A100(80G)的资源。当业务上需要 50 并发时,需要的 GPU 卡的数量在 200 张左右 A100(80G)。无论从供给资源还是采购成本来讲,这都是一笔不小的成本。在这个阶段,算力资源会再度成为制约企业全面拥抱 AI 大模型的瓶颈。通过构建混合云架构,在安全合规的前提下,把本地算力作为固定资源池,同时把云上充足的弹性资源使用起来,成为金融机构在大模型时代的最佳选择。