阿里云RemoteShuffleService新功能:AQE和流控
阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS在2022年初开源,欢迎各路开发者共建。本文将介绍RSS最新的两个重要功能:支持Adaptive Query Execution(AQE),以及流控。
有状态容器业务基于ACK多可用区部署实践
业务背景和要求为了让有状态应用在k8s中部署可以获得尽可能高的可用性,对业务多可用区的部署带来了更高的要求::为了更高的可用性,需要让业务pod尽量均衡的分布在多个可用区中业务pod要可以分别在不同的可用区中挂载上云盘做持久化,需要保障pod和disk始终在一个AZ(云盘不可以跨区挂载)如果一个pod或一个节点发生故障,需要第一时间将pod重新调度到同可用区的另一台可用机器上去,机器可以是弹性新建
阿里云飞天洛神云网络论文又~双~叒入选 SIGCOMM主会
阿里云飞天洛神云网络与浙江大学合作的学术论文《Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks》被SIGCOMM'23主会录用
阿里巴巴云原生 etcd 服务集群管控优化实践
这些年,阿里云原生 etcd 服务发生了翻天覆地的变化,这篇文章主要分享一下 etcd 服务在面对业务量大规模增长下遇到的问题以及我们是如何解决的,希望对读者了解 etcd 的使用和管控运维提供经验分享。