基于 ECI 的 ACK 集群高弹性架构
用户原有的业务部署在阿里云ACK集群上,在ACK集群上运行常规业务,当业务突发波动(如秒杀活动)时,让突增的业务运行在ECI实例上,随着业务波动动态创建/释放ECI实例,达到成本的最优控制。同时业务方无需管理节点和容量规划,全自动实现容器“无限” 弹性扩容。
阿里巴巴搜索混部解密
Hippo是搜索调度团队根据搜索、推荐、广告等业务特点从2013年开始打造并逐步完善的一套分布式调度系统,支持了集团内外多个事业部的搜索、推荐、广告等相关业务。2017双11期间,搜索在离线混部实现了全时段无干预无降级稳定运行,提供了搜索双11所有TF模型离线批次训练所需资源,并在2017/11/10晚上23点因为离线训练集群负载过高首次在混部上不间断运行了超过2万core的双11实时训练流程并一直在稳定运行。
阿里巴巴集团全面上云实践与思考
阿里巴巴核心系统在全面上云过程中面临了哪些挑战,又是通过什么样的技术演进和阿里云产品一起解决这些挑战。在阿里CIO学院云原生系列在线课程直播中阿里巴巴集团上云核心决策组成员张瓅玶将为大家讲解阿里巴巴如何看待核心系统全面上云的架构演进?从资源管理模式、高性能基础设施、大规模系统的容量需求、云原生架构转型和无服务器化基础设施演进等领域进行详细解决,并提出以云原生上云为未来演进方向的判断。
大数据上云存算分离演进思考与探讨-2022
当前大数据上云与存算分离的技术趋势越来越成为行业标准与发展方向。作为大数据商业化的践行者,从存算分离的演进/定义/价值/架构应用/实践/对比等多个维度来分析与探讨其发展历程与组成体系。为大数据存算分离技术整体发展添砖加瓦。
阿里云RemoteShuffleService新功能:AQE和流控
阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS在2022年初开源,欢迎各路开发者共建。本文将介绍RSS最新的两个重要功能:支持Adaptive Query Execution(AQE),以及流控。