本文来源于阿里云社区电子书《百炼成金-大金融模型新篇章》
AI 技术在金融行业中扎根生长并深入应用,必须严格遵循金融行业的业务规则与标准,这就催生了专为金融领域打造的金融级 AI 原生。综合考虑金融级行业要求、AI 原生核心技术,我们将金融级 AI 原生总结为如下 6 大要素:
要素 1:可靠性和稳定性
当前金融行业随着数字化、智能化的转型,越来越多的金融级 AI 原生应用涌现,大规模智算资源的统筹管理和编排调度,对于确保金融基础设施的连续性与稳定性成为至关重要的能力基石。下面从训练态和推理态两个方面来说明智算平台需要提供怎样的能力来保证应用的可靠性和稳定性。
训练态:
智算平台需要大规模集群调度管理,洞察集群状态与性能变化,掌控系统全貌。通过训练引擎自动容错来屏蔽底层错误,提升任务稳定性和鲁棒性。通过实时保存模型文件,大幅度提高训练任务的整体效率。通过云原生性能测试平台,完成一键测试系统性能,及时发现隐藏的瓶颈。
推理态:
目前大模型的推理部署还没有一个事实标准,一方面不断有新的模型发布,另一方面也不断有新的训练和推理方法被提出,再者国产化 GPU 硬件和软件生态也在快速迭代,这给大模型推理服务生产上落地带来不小挑战。为了应对上述挑战在模型准备和部署阶段,我们建议遵从以下原则:
分层设计:由于模型本身文件较大,模型加载和启动时间往往以分钟甚至小时计。在模型准备阶段,将运行依赖环境、模型文件、推理代码分层设计统一验证并推送到合适的存储服务层;在模型部署阶段,通过云平台存算分离,共享挂载、缓存加速等方式实现模型的快速部署和加速启动;
统一调度:基于 K8S对 IaaS云服务或者客户IDC内各种异构的计算(如 CPU,GPU,NPU)、存储(OSS,NAS,CPFS,HDFS)、网络(TCP,RDMA)资源进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。
云化部署:借助 K8S 调度框架和云化基础设施,实现对大模型应用的多实例高可用部署和故障自动切换。
要素 2:低延时与高并发
大模型在实现低延时和高并发处理方面是 AI 原生应用的重大挑战之一,尤其是在需要实时响应和服务大量用户的应用场景中。
实时交易的场景下,系统需要几乎实时地处理和响应用户的查询或请求。如银行行业客户通话的场景中,需要应用大模型实时识别用户意图,并实时反馈相应的话术,这个场景对大模型的时延要求非常高,需要在很短的时间来做出相应的应答。同样在保险行业中,利用大模型处理车险、健康险等理赔案件,需要迅速分析上传的图片、视频及其他证据材料,快速准确地完成初步定损工作。当前,推理优化、加速主要有几种方式,如模型架构(使用 MoE 架构)优化、模型本身(剪枝、量化、知识蒸馏等)优化,和利用多机多卡环境进行数据并行、模型并行,分散模型负载,加速计算过程。
高并发场景是指在短时间内有大量用户请求涌入系统,要求系统能快速响应并处理这些请求,保证服务的稳定性和用户体验。如红包发放的促销活动期间,大量用户同时进行请求,在红包领取的同时需要应用大模型做实时推荐。高并发可以通过调度优化来支撑,调度系统可以根据请求状态的动态变化对调度决策进行适应性调整,并以此实现如负载均衡、碎片整理、请求优先级、高效的实例扩缩容等一系列调度特性和优化。
我们来看一个实际的案例:一家互联网金融企业,在外呼过程中,通过大模型识别客户意愿,完成多轮客户对话交互。
从当前业务模式观察,存在显著的忙闲周期:在需求高峰时段,必须确保充足计算能力以维持业务运营,确保客户享受到优质的外呼体验;而到了低谷期,则需释放这些资源,以便供给其他业务利用。然而,当这些释放的计算资源无其他业务承接时,便会造成极大的资源闲置。专为某特定业务保有大量计算资源是不切实际的,因为通常情况下,这些资源的使用效率极低,仅能达到约 10%。因此,寻找一种既能应对峰值需求,又能高效利用资源的策略显得尤为重要。而混合云架构可以较好地解决这个问题,利用金融云的弹性资源来满足波峰波谷的业务需求。
《百炼成金-大金融模型新篇章》––10.金融级AI原生的六大要素(2):https://developer.aliyun.com/article/1539485