2022互联网寒冬,看看阿里中间件团队如何降本提效?(2)

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 2022互联网寒冬,看看阿里中间件团队如何降本提效?

05

数据密集型应用在云原生环境上的挑战

Aliware

除了调度之外,AI,大数据,HPC 等数据密集型应用云原生化,还有一些技术挑战有待解决,具体来说:

  • 异构数据源带来的多样性挑战:企业中不同应用所依赖的存储实现各不相同,有 HDFS、NAS、S3/OSS等等;其数据访问的 I/O 特性也不同,比如随机读海量小文件和顺序读大文件。随着业务场景的发展,经常需要联合处理来自不同的存储系统的数据,这样带来了异构数据源访问的复杂性。
  • 存算分离架构导致的 I/O 性能和吞吐的挑战:计算存储分离架构可以大大降低存储成本,并且提升计算弹性。但相应增加了了数据访问延时。这有可能导致计算性能的下降,降低 CPU/GPU 等资源的实际利用率。而随着弹性深度学习等技术的兴起,算力可以根据计算成本或者收敛效率变化而动态扩缩容,进而带来 I/O 容量规划和供给的变化。
  • 跨作业数据共享效率低下的挑战:通过对模型训练集群的观察,我们发现很多训练任务使用同样的数据集。同一作业流水线上的不同步骤也可能需要访问相同的数据。但是由于这些数据重用无法被调度系统感知,导致数据被反复拉取,降低了整体计算效率,也加剧了对数据源 I/O 资源的争抢。

01


Fluid-数据编排的核心方法

为了能够更好的解决数据密集型应用在云原生环境上的问题,我们在开源数据编排项目 Fluid中 对“计算任务使用数据的过程”进行抽象,提出了弹性数据集 Dataset 的概念,并作为“first class citizen”在 Kubernetes 中实现。

  • 数据集 Dataset,可以实现对异构数据源的统一管理和统一访问抽象。
  • 通过自动缓存扩容和智能预取实现数据加速;还可以根据数据集的访问的模式,来自动优化数据缓存的生命周期策略。
  • 调度系统可以自动感知多任务之间的数据集关联与血缘,基于数据共享优化作业调度。

02

Fluid-云原生数据编排与加速

Fluid 是阿里云容器服务团队和南京大学、Alluxio 联合发起的开源项目,目前是 CNCF 托管的 Sandbox 项目,并且在 ACK 上也有对应的产品能力。主要由阿里云容器服务团队维护。另外 Fluid 也得到了也得到许多业界同行的支持,像中国电信、SAP、百度云、腾讯云都在积极贡献。Fluid 在架构上有几个特点:

  • 零侵入 – 无缝融合 Kubernetes 生态;
  • 可扩展 – 支持多种缓存引擎,比如阿里云 JindoFS、腾讯云 GooseFS、开源的 Alluxio、JuiceFS 等等;
  • 高弹性 – 除了支持经典的 K8s 之外,对 Serverless 容器也进行支持,支持缓存 I/O 吞吐的水平扩展。

如果大家有兴趣可以进一步了解 Fluid 背后设计的思想的一些探索,相关论文已经被 ICDE 接收,欢迎查阅。这个领域也是非常新的一个领域,希望大家能够一起在社区参与创新。03


Fluid-加速 AI 训练效果

比如在 Resnet50 图像分类模型训练中。如果直接使用 OSSFS 进行数据访问,在多机训练环境中会受到 OSS 总带宽的限制,训练性能出现衰减。利用 Fluid 缓存加速支持分布式训练,可以实现接近线性的横向扩展能力。与原方案相比,在 16 台 128 卡环境下,性能提升 80%。

在微博测试场景中,Fluid 针对海量小文件缓存优化,可以大大降低 HDFS 压力,训练速度提升 9 倍。

06

云原生 FinOps 成本管理,助力企业高效用云

Aliware

阿里云为企业构建了先进、普惠的云原生产品家族。2022 年 1 季度,在权威咨询机构 Forrester 发布的公共云容器平台分析师报告中,阿里云容器服务 ACK 成为比肩 Google 的全球领导者,这也是首次有中国科技公司进入容器服务领导者象限。在 2022 年 8 月,CSDN 2022  中国开发者调查报告中,52%开发者选择阿里云容器云平台。今年 5 月阿里云凭借在云上成本管理的产品能力,以满分的成绩通过了全部 33 个能力指标,成为国内首家通过信通院《云成本优化标准》的云服务商。非常期待与大家共同探索,利用云原生 FinOps 产品能力和技术,助力企业实现高效用云。

相关实践学习
Docker镜像管理快速入门
本教程将介绍如何使用Docker构建镜像,并通过阿里云镜像服务分发到ECS服务器,运行该镜像。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
8月前
|
NoSQL Java Redis
阿里Java高级岗中间件二面:GC+IO+JVM+多线程+Redis+数据库+源码
虽然“钱多、事少、离家近”的工作可能离技术人比较远,但是找到一份合适的工作,其实并不像想象中那么难。但是,有些技术人确实是认真努力工作,但在面试时表现出的能力水平却不足以通过面试,或拿到高薪,其实不外乎以下 2 个原因:
|
8月前
|
算法 NoSQL Java
2023年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)
|
8月前
|
算法 NoSQL Java
2021年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)
|
9月前
|
消息中间件 数据采集 Java
开发神技!阿里消息中间件进阶手册限时开源,请接住我的下巴
相信大家在实际工作中都用过消息中间件进行系统间数据交换,解决应用解耦、异步消息、流量削峰等问题,由此消息中间件的强大功能想必也不用我多说了!目前业界上关于消息中间件的实现多达好几十种,可谓百花齐放,所用的实现语言同样也五花八门。不管使用哪一个消息中间件,我们的目的都是实现高性能、高可用、可伸缩和最终一致性架构。
|
11月前
|
缓存 NoSQL 容灾
《Java应用提速(速度与激情)》——六、阿里中间件提速
《Java应用提速(速度与激情)》——六、阿里中间件提速
|
11月前
|
消息中间件 NoSQL Dubbo
阿里Java高级岗中间件二面:GC+IO+JVM+多线程+Redis+数据库+源码
一转眼,都2023年了,你是否在满意的公司?拿着理想的薪水? 虽然“钱多、事少、离家近”的工作可能离技术人比较远,但是找到一份合适的工作,其实并不像想象中那么难。但是,有些技术人确实是认真努力工作,但在面试时表现出的能力水平却不足以通过面试,或拿到高薪,其实不外乎以下 2 个原因: 第一,“知其然不知其所以然”。做了多年技术,开发了很多业务应用,但似乎并未思考过种种技术选择背后的逻辑。所以,他无法向面试官展现出自己未来技术能力的成长潜力。面试官也不会放心把具有一定深度的任务交给他。 第二,知识碎片化,不成系统。在面试中,面试者似乎无法完整、清晰地描述自己所开发的系统,或者使用的相关技术。
|
11月前
|
SQL 算法 NoSQL
2023年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)
|
12月前
|
人工智能 Kubernetes 算法
2022互联网寒冬,看看阿里中间件团队如何降本提效?(1)
2022互联网寒冬,看看阿里中间件团队如何降本提效?
181 1
|
canal 消息中间件 JSON
实战!Spring Boot 整合 阿里开源中间件 Canal 实现数据增量同步!
实战!Spring Boot 整合 阿里开源中间件 Canal 实现数据增量同步!
|
运维 监控 安全
阿里云互联网中间件五剑客之——云服务总线 CSB
阿里云互联网中间件五剑客之——云服务总线 CSB 自制脑图, 云服务总线(Cloud Service Bus简称CSB)从2016年在阿里云上完成商业化,作为一个服务总线型产品,在服务协议转换,服务管理,企业级权限控制等领域积累了大量的能力和场景,帮助用户把微服务安全,可控的暴露出来被其他应用所集成或调用。
1332 2
阿里云互联网中间件五剑客之——云服务总线 CSB