《百炼成金-大金融模型新篇章》––10.金融级AI原生的六大要素(1)

简介: 百炼必定成金,新质生产力会催生新质劳动力,谨以此文抛砖引玉,希望与业内的各位朋友一同探讨如何积极拥抱并运用大模型技术,以应对和驾驭不断变化的市场环境,实现科技金融持续稳定的提质增效和创新发展,携手开启金融大模型未来新篇章。

本文来源于阿里云社区电子书《百炼成金-大金融模型新篇章》


AI 技术在金融行业中扎根生长并深入应用,必须严格遵循金融行业的业务规则与标准,这就催生了专为金融领域打造的金融级 AI 原生。综合考虑金融级行业要求、AI 原生核心技术,我们将金融级 AI 原生总结为如下 6 大要素:


image.png


要素 1:可靠性和稳定性


当前金融行业随着数字化、智能化的转型,越来越多的金融级 AI 原生应用涌现,大规模智算资源的统筹管理和编排调度,对于确保金融基础设施的连续性与稳定性成为至关重要的能力基石。下面从训练态和推理态两个方面来说明智算平台需要提供怎样的能力来保证应用的可靠性和稳定性。


训练态:


智算平台需要大规模集群调度管理,洞察集群状态与性能变化,掌控系统全貌。通过训练引擎自动容错来屏蔽底层错误,提升任务稳定性和鲁棒性。通过实时保存模型文件,大幅度提高训练任务的整体效率。通过云原生性能测试平台,完成一键测试系统性能,及时发现隐藏的瓶颈。


image.png


image.png

推理态:


目前大模型的推理部署还没有一个事实标准,一方面不断有新的模型发布,另一方面也不断有新的训练和推理方法被提出,再者国产化 GPU 硬件和软件生态也在快速迭代,这给大模型推理服务生产上落地带来不小挑战。为了应对上述挑战在模型准备和部署阶段,我们建议遵从以下原则:


image.png


分层设计:由于模型本身文件较大,模型加载和启动时间往往以分钟甚至小时计。在模型准备阶段,将运行依赖环境、模型文件、推理代码分层设计统一验证并推送到合适的存储服务层;在模型部署阶段,通过云平台存算分离,共享挂载、缓存加速等方式实现模型的快速部署和加速启动;


统一调度:基于 K8S对 IaaS云服务或者客户IDC内各种异构的计算(如 CPU,GPU,NPU)、存储(OSS,NAS,CPFS,HDFS)、网络(TCP,RDMA)资源进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。


云化部署:借助 K8S 调度框架和云化基础设施,实现对大模型应用的多实例高可用部署和故障自动切换。


要素 2:低延时与高并发


大模型在实现低延时和高并发处理方面是 AI 原生应用的重大挑战之一,尤其是在需要实时响应和服务大量用户的应用场景中。


实时交易的场景下,系统需要几乎实时地处理和响应用户的查询或请求。如银行行业客户通话的场景中,需要应用大模型实时识别用户意图,并实时反馈相应的话术,这个场景对大模型的时延要求非常高,需要在很短的时间来做出相应的应答。同样在保险行业中,利用大模型处理车险、健康险等理赔案件,需要迅速分析上传的图片、视频及其他证据材料,快速准确地完成初步定损工作。当前,推理优化、加速主要有几种方式,如模型架构(使用 MoE 架构)优化、模型本身(剪枝、量化、知识蒸馏等)优化,和利用多机多卡环境进行数据并行、模型并行,分散模型负载,加速计算过程。


高并发场景是指在短时间内有大量用户请求涌入系统,要求系统能快速响应并处理这些请求,保证服务的稳定性和用户体验。如红包发放的促销活动期间,大量用户同时进行请求,在红包领取的同时需要应用大模型做实时推荐。高并发可以通过调度优化来支撑,调度系统可以根据请求状态的动态变化对调度决策进行适应性调整,并以此实现如负载均衡、碎片整理、请求优先级、高效的实例扩缩容等一系列调度特性和优化。


我们来看一个实际的案例:一家互联网金融企业,在外呼过程中,通过大模型识别客户意愿,完成多轮客户对话交互。


image.png


从当前业务模式观察,存在显著的忙闲周期:在需求高峰时段,必须确保充足计算能力以维持业务运营,确保客户享受到优质的外呼体验;而到了低谷期,则需释放这些资源,以便供给其他业务利用。然而,当这些释放的计算资源无其他业务承接时,便会造成极大的资源闲置。专为某特定业务保有大量计算资源是不切实际的,因为通常情况下,这些资源的使用效率极低,仅能达到约 10%。因此,寻找一种既能应对峰值需求,又能高效利用资源的策略显得尤为重要。而混合云架构可以较好地解决这个问题,利用金融云的弹性资源来满足波峰波谷的业务需求。


《百炼成金-大金融模型新篇章》––10.金融级AI原生的六大要素(2):https://developer.aliyun.com/article/1539485

相关文章
|
2月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
1701 120
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1457 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
270 120
|
3月前
|
设计模式 机器学习/深度学习 人工智能
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
588 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
3月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
339 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
3月前
|
存储 人工智能 安全
云栖热词:AI 原生
阿里云智能资深技术专家简志在“云栖大会- AI 基础设施进化论坛”分享了团队的实践感悟,包括从云原生到 AI 原生的演进路线,AI 原生所包含的关键要素,以及未来的发展方向,希望对参与 AI 建设的所有同行者们有所启发。
|
3月前
|
人工智能 Cloud Native 中间件
划重点|云栖大会「AI 原生应用架构论坛」看点梳理
本场论坛将系统性阐述 AI 原生应用架构的新范式、演进趋势与技术突破,并分享来自真实生产环境下的一线实践经验与思考。
|
机器学习/深度学习 人工智能 测试技术
【自定义插件系列】0基础在阿里云百炼上玩转大模型自定义插件
本文介绍了如何在阿里云百炼平台上创建大模型自定义插件,以增强AI模型功能或适配特定需求。通过编程接口(API)或框架设计外部扩展模块,开发者可在不修改底层参数的情况下扩展模型能力。文章以万相文生图V2版模型为例,详细说明了创建自定义插件的五个步骤:新建插件、创建工具、测试工具、复制第二个工具及最终测试发布。同时,提供了官方文档参考链接和具体参数设置指导,帮助用户轻松实现插件开发与应用,推动AI技术在各行业的广泛应用。
1755 0

热门文章

最新文章