日前,在 ICT 中国·2023 高层论坛-云原生产业发展论坛上,由阿里云容器服务提供技术支持的“数禾科技”和“智联招聘”两大案例以及阿里云云原生 AI 套件、云原生 FinOps 成本分析套件两大产品技术方案,共同获得 2023 年度云原生应用实践先锋——云原生技术服务优秀案例。
云原生是一种基于容器化、微服务等技术的应用开发和部署模式,它可以帮助企业快速构建和部署应用程序,提高应用的可靠性、弹性和可扩展性,让企业可以更加敏捷地响应市场需求,快速上线新产品和服务,提高数字化转型的效率和速度,利用云原生技术架构和理念构建数字化新底座正在成为各行各业数字创新的实践重点。
本次获得年度云原生应用优秀案例奖的数禾科技和智联招聘,正是充分利用云原生架构的先进性,实现应用的快速部署和更新,以响应业务的快速变化,同时借助云原生架构的可扩展性和可靠性,有效保障了系统在高并发和突发峰值情况下的稳定性。
数禾科技 AI 模型 Serverless 容器化
数禾科技以大数据和技术为驱动,为金融机构提供高效的智能零售金融解决方案,服务银行、信托、消费金融公司、保险、小贷公司等持牌金融机构,业务涵盖消费信贷、小微企业信贷、场景分期等多个领域,提供营销获客、风险防控、运营管理等服务。
随着业务的快速发展,风控模型对 AI 的需求也随之井喷。如何打造更敏捷的 AI 计算服务,支撑业务高速增长,同时节省资源成本,是摆在数禾科技面前的一大难题。
经过调研,数禾科技与阿里云云原生团队深度合作,联合打造全新的数禾 AI 推理服务平台,整个平台基于阿里云 Serverless 容器服务 ASK 构建,无需购买任何 K8s 节点即可直接部署推理服务容器应用,也无需对 K8s 集群进行节点维护和容量规划。同时,根据推理服务的实时请求量动态创建和销毁POD,资源成本大幅下降,服务的可用性也得到了很好的提升。此外,通过 ASK Knative 服务,有效解决了数禾模型的灰度发布和多版本并存问题,大幅提升了模型迭代上线的效率。
目前,该系统已上线部署数百个 AI 模型服务,每天能够提供数亿次查询决策服务,ASK的实时弹性扩展能力帮助数禾节约资源成本约 60%,同时平稳地应对了诸多运营活动等突发峰值场景,整个云原生部署和发布系统将数禾的平均部署周期由之前的1天缩短至 0.5天,有效加速了商业化应用的迭代进程,为金融业务的拓展增长提供了强有力的支撑。
智联招聘升级为云原生架构,释放 Serverless 技术红利
智联招聘是中国人力资本生态价值链领导者,成立于1994年,累计服务超过1176万家企业客户和3.21亿职场人用户,月活跃用户达到5127万。作为一家人力资本生态价值链平台,对于招聘业务的特点、规律有着深刻的认识和思考,应用系统也伴随着业务发展更新迭代,期间也经历了传统应用升级缓慢、架构臃肿、不能快速迭代的阶段。
在2018年初,智联已经开始了容器化改造,最终实现了业务的快速迁移和扩展等能力。在2021年智联继续深度思考,以自身业务特点出发结合云原生技术优势,确定了Serverless容器混合云是系统进一步演进的最佳技术方案。
智联招聘在业内率先完成全面容器化改造,并与阿里云联合设计“分布式云容器平台 ACK One +IDC 统一调度方案”。在应对春招期间高峰流量阶段,通过ACK One 统一集群管理,IDC 容器集群结合云上资源以及统一可观测性能力、秒级弹性能力,同时兼容线下调度器策略达到成本最优解,有效解决春招期间面临的系统稳定性、资源量预估困难、运维难度大等问题。
使用混合云的方式作为计算平台,不必因为业务突发增长的需求而一次性投入大量资金成本用于采购服务器及扩充机柜。在公共云上可以做到随用随付,对于一些创新业务想做技术调研非常方便,按量付费,大幅减少了试错的成本。在效率方面,借助混合云架构深度集成,方便研发人员完成一站式研发、运维工作,整个持续集成可以做到分钟级。
智联招聘的云原生转型助力了公司的快速变革,云原生架构、DevOps理念的实践,使得智联招聘的开发、测试、运维等工作能够更加协同和高效。此外,云原生架构的高可用性、灵活弹性、自动化特性,也使得智联招聘具备更好的容灾恢复能力和业务可靠性,保证业务在高峰期时能够快速响应和扩展。
云原生技术创新,服务千行百业
随着企业用云程度加深,企业面临云成本管理困难的新问题;同时,Kubernetes 的复杂性是阻碍很多企业采用容器的重要因素。基于此类痛点,阿里云发布了云原生 FinOps 成本分析套件和云原生 AI 套件,通过数字化手段和智能化方法,帮助企业实现成本可视化、可优化、可控制,并实现智能运维,快速定位问题,提升运维效率。这两款产品技术方案也获得 2023 年度云原生技术创新奖。
云原生 AI 套件 聚焦持续优化异构资源效率、高效运行 AI 等异构工作负载两大核心场景,提供异构资源统一管理、AI 任务调度、弹性 AI 任务、AI 数据编排与访问加速、AI 作业生命周期管理等能力,为 AI/ML 提供工程效率高、成本低、可扩展、可复制的端到端解决方案。
目前,云原生 AI 套件已经广泛应用于互联网、游戏、自动驾驶、量化金融、在线教育、AI for Science、科研机构等行业;同时,阿里云也积极通过开源方式助力产业落地,例如开源业界首款 K8s GPU 共享调度器、云原生数据编排和加速方案、以及 AI 任务生命周期管理工具 Arena,与学术界和社区共同推进云原生 AI 的演进和落地,持续为更多企业和开发者提供价值。
我们知道,容器应用与传统应用相比具备更高的弹性和动态性,可以按需创建和释放资源,但与此同时,这也对费用估算带来更大的挑战。
云原生 FinOps 成本分析套件 提供成本洞察功能,沉淀了一套成熟的 IT 企业成本治理流程与系统,将 IT 成本治理周期从原来的季度、月度,降低到了天、小时;同时,成本洞察功能提供通过对命名空间、工作负载等业务的应用维度进行多租业务的逻辑管理、财资拆分、浪费衡量,在一个 K8s 集群内可以轻松实现不同业务的费用分摊,实现容量管理与财资管理,且提供了按不同资源如 CPU、内存、GPU 等的成本分摊模型 。
目前,云原生 FinOps 成本分析套件已经服务大量企业客户,中华财险、TCL 等企业通过云原生企业 IT 成本治理方案以及产品能力,每年节省数百万的成本。
凭借超过十年的容器技术储备和实战经验,阿里云容器服务拥有对超大集群的支撑能力,并在国内率先实现了单集群 1 万节点 1 百万 Pod 的规模突破,可帮助企业轻松应对不断增加的规模化需求。在 Forrester 发布的公有云容器平台报告中,被评为公有云容器平台市场领导者。
阿里云智能云原生应用平台负责人丁宇表示,阿里云通过全面的容器产品布局,持续拓展云的能力和边界。在基础设施层,利用面向云原生优化的新算力,提升计算效率;在容器编排层,通过弹性、混部调度等能力,让应用更加稳定;在应用架构层,利用服务网格等技术,提升应用的韧性与可伸缩性。在运营治理领域,通过 FinOps 套件,降低资源闲置率。
云原生已经成为千行百业数字创新背后的技术力量,容器也成为云计算的新界面。未来,阿里云容器服务将持续做深智能化,让企业创新触手可及。
目前,Serverless容器服务 ASK 已经加入飞天免费试用计划,点击此处领取免费试用资源。