数禾科技 AI 模型服务 Serverless 容器化之旅

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 数禾科技 AI 模型服务 Serverless 容器化之旅

作者:周伟鹏、魏文哲、元毅


“使用阿里云容器服务 Knative 和 ECI 虚拟节点配合部署,在保证线上模型应对突发流量的稳定性大幅提升的同时,又使资源利用效率获得了显著的提高,极大的节约了资源成本。”

-- 数禾科技 AI 实验室

AI 平台负责人 周伟鹏

“数禾 DevOps 平台 BetterCDS 集成了阿里云容器服务 Knative,支持模型服务的多版本运行和弹性伸缩,在降低运行成本的同时,也提升了服务的可用性,极大地方便了运维人员和开发人员。”

-- 数禾科技基础架构研发部

工程效率组负责人 邓志


背景


数禾科技以大数据和技术为驱动,为金融机构提供高效的智能零售金融解决方案,服务银行、信托、消费金融公司、保险、小贷公司等持牌金融机构,业务涵盖消费信贷、小微企业信贷、场景分期等多个领域,提供营销获客、风险防控、运营管理等服务。数禾科技通过自主开发的消费信贷产品,连接金融机构与普罗大众,赋能金融机构数字化转型,迎接中国消费升级的大潮。

image.png

遇到问题


在风险管理业务中,根据公司的风险容忍度、风险偏好波动以及阶段性业务目标需要针对公司客户进行风险属性的调整,这其中包括用户额度、定价、可借期限等相关要素。那么这不可避免的需要应用批量数据处理能力通过计算规则来对大量用户做调额、调价等,当然,模型作为风险管理的重要组成部分也必不可少的会被运用至批量处理的动作中来。因此对于模型的计算能力就提出了很高的要求,包括计算速度、计算结果准确性、计算数据实时性等。


而当前的困扰所在是支撑模型计算的底层应用资源无法灵活且快速的根据请求量来智能化调整机器资源支持运算能力,这也是当前业务快速发展过程中亟待解决的痛点。同时,随着模型在线推理服务数量的增加,数禾的模型服务也变得越来越庞大、臃肿,难以管理。这种状况不仅导致了资源浪费,还增加了维护和升级的成本。


基于以上的各种情况,我们开始寻求新的技术架构方案,希望新方案可以具备随流量高效使用资源,降低模型服务成本,同时最好具备版本管理功能,可以实现多版本同时提供服务,较小响应的运维成本。


解决方案


经过内部的沟通与调研,我们最终选择了基于 Knative 的 Serverless 服务方案,它具备根据请求的扩缩容能力、允许 pod 缩容到 0 的冷启动能力以及多版本的管理能力。与此同时,由于数禾本身的技术架构都是部署在阿里云的底层资源上,而阿里云 ACK 又对 Knative 做了组件集成,可以支持一键部署,极大的减小了我们部署调试的时间成本

image.png

客户价值


通过对内部模型部署的 pipeline 进行改造后,目前数禾的所有新增模型均已通过 ACK + Knative 方式部署在线上提供服务,得益于 Knative 的多版本管理能力,我们快速解决了模型的灰度发布和多版本并存的问题。同时加之基于请求的自动扩缩容能力,在多个版本并存的情况下,并没有对资源产生额外的消耗,而且对晚上的谷时资源继续了很好的节约。


下图是我们一个模型服务的资源消耗与请求量的对比图,上图为 Pod 资源数量,下图为服务请求量。由下图对比可以看出,整个服务资源的使用情况于服务请求量保持高度一致,使用效率非常高。

image.png

查看大图:

https://img.alicdn.com/imgextra/i4/O1CN01uHrVr51sc2SJ76y4x_!!6000000005786-0-tps-2559-1341.jpg

对于上文提到的批量作业任务,虽然我们已经具备了 Knative 的扩缩容能力,但依然需要在底层准备好足够的资源池来供模型进行扩容。但是在一天的大部分场景中这部分资源又是浪费的,对于这个问题,我们通过在 Knative 中使用 ECI 虚拟节点来得到了很好的解决。


我们对上线之后的模型服务进行了持续监控,对比使用之前的方案,模型服务在应对突发批量流量的稳定性获得大幅提升,同时资源的使用效率也获得了显著提高,节约成本约 60%。


关于 Serverless


众所周知,Serverless 是一种云原生的开发模型,客户只需构建和运行应用、而无需管理托管应用所在的服务器。在实际实现上,IT 架构里还是有服务器的,只是对从客户应用研发不可见了,服务器由云厂商托管和维护,用户只需要将代码打包成容器即可。随着云原生技术的演进,以应用为中心,资源按需使用的 Serverless 技术逐渐成为主流。Gartner 预测,2025 年将有 50% 以上的全球企业部署 Serverless。


Knative 是基于 Kubernetes 之上提供的一款开源 Serverless 应用框架,其目标就是制定云原生、跨平台的 Serverless 容器编排标准,帮助您部署和管理现代化的 Serverless工作负载,打造企业级 Serverless 容器平台。Knative 于 2021 年 11 月 2 日正式发布 1.0 版本,达到了一个重要的里程碑,随着 2022 年 3 月 2 日加入到 CNCF,越来越多的开发者拥抱 Knative 。


阿里云容器服务从 Knative 早期版本开始产品化集成,持续跟进 Knative 社区功能迭代,并与容器服务 ACK、消息、存储、网络等云产品进行了全方位的融合,提供了生产级别的 Knative 能力。


点击此处了解更多阿里云 Knative 产品相关信息

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
61 2
|
10天前
|
人工智能 算法 新制造
走进北京科技大学,通义灵码与企业高校共筑 AI 创意课堂
近日,通义灵码有幸参与到一场由伊利集团主办的 AIGC 生态创新大赛路演舞台,与高校专家、企业代表、青年学子共同探讨 AIGC 创意应用,交流企业在数智领域转型、青年开发者科技创新的思路和落地实践。
|
1月前
|
存储 消息中间件 人工智能
ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用
本文整理自2024年云栖大会阿里云智能集团高级技术专家金吉祥的演讲《ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用》。
|
27天前
|
Serverless 数据安全/隐私保护 前端开发
大模型代码能力体验报告之贪吃蛇小游戏《一》:Claude.ai篇 - 生成、预览和快速部署的serverless一条龙
本文介绍了通过Claude.ai生成并优化Web版贪吃蛇游戏的过程,展示了其强大的代码生成功能及用户友好的界面设计。从初始版本的快速生成到根据用户反馈调整游戏速度,再到提供多种实用工具如文件管理、版本控制和一键部署,Claude.ai不仅是一个代码助手,更像是一个全面的serverless开发平台。文中还呼吁国内厂商关注此类技术的发展。
|
18天前
|
人工智能 Anolis 开发者
|
1月前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
2月前
|
人工智能 运维 Serverless
Serverless + AI 让应用开发更简单,加速应用智能化
2024 云栖大会开幕,在大会第一天,阿里云正式发布全新产品——云应用开发平台 CAP。CAP 拥有丰富的场景化应用模板,可以极速体验,并且具备更低的成本优势以及灵活组装等特点,成为广大开发者与企业必备的一站式应用开发平台,让应用开发更简单。
184 12
|
1月前
|
人工智能 运维 Serverless
Serverless + AI 让应用开发更简单
随着云计算和人工智能(AI)技术的飞速发展,企业对于高效、灵活且成本效益高的解决方案的需求日益增长。本文旨在探讨 Serverless 架构与 AI 技术的结合,如何通过 Serverless 函数计算和 AI 开发平台,助力企业简化应用开发流程,减少企业 AI 业务试错成本,加速业务创新,为企业业务发展提供无限可能。
|
3月前
|
人工智能 运维 自然语言处理
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
【8月更文挑战第10天】从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
|
2月前
|
云安全 安全 Serverless
Serverless 安全新杀器:云安全中心护航容器安全
Serverless 安全防护能力除了支持目前既定的等保合规(漏洞扫描、入侵检测、基线检测等)、安全隔离的能力外还支持 WAF 防火墙、支持通信加密、操作审计、权限管控等能力,也正是有了这些能力的加持,SAE 才能很好的服务了金融、政企、医疗等行业的客户;Serverless(SAE)未来还计划规划更多安全能力为企业保驾护航,包括:代码安全扫描、加密、堡垒机、最小权限、身份与访问管理、以及更多的攻击防护等能力的建设。

热门文章

最新文章