阿里云RemoteShuffleService新功能:AQE和流控
阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS在2022年初开源,欢迎各路开发者共建。本文将介绍RSS最新的两个重要功能:支持Adaptive Query Execution(AQE),以及流控。
更加灵活、经济、高效的训练——新一代搜推广稀疏大模型训练范式GBA
近日,阿里巴巴在国际顶级机器学习会议NeurIPS 2022上发表了新的自研训练模式 Gloabl Batch gradients Aggregation (GBA,论文链接:https://arxiv.org/abs/2205.11048),由阿里妈妈事业部搜索广告团队和智能引擎事业部XDL训练引擎团队联合探索和研发。GBA的提出对阿里巴巴搜推广稀疏模型的训练范式带来了架构性的跨越式升级。本文将从GBA的设计思路、收敛性分析及工程实现等方面展开介绍,欢迎阅读交流。
[2.0快速体验]Apache Doris 2.0 弹性计算节点快速体验
我们都知道Doris 目前是一个典型的Share-Nothing的架构,Doris 通过绑定数据和计算资源在同一个节点获得非常好的性能表现. 但随着Doris 计算引擎性能持续提高, 越来越多的用户也开始选择使用Doris直接查询数据湖数据. 这类场景是一种Share-Disk场景, 数据往往存储在远端的 HDFS/S3 上, 计算在 Doris 中, Doris 通过网络获取数据, 然后在内存完成计算. 而如果这两个负载都混合在同一个集群时, 对于目前 Doris 的架构就会出现以下不足:
资源隔离差, 两个负载对集群的响应要求不一, 混合部署会有相互的影响,
数据湖场景下磁盘利用率低:集
阿里云飞天洛神云网络论文又~双~叒入选 SIGCOMM主会
阿里云飞天洛神云网络与浙江大学合作的学术论文《Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks》被SIGCOMM'23主会录用