本文介绍如何使用TFJob在ASK+ECI场景下,快速完成基于GPU的TensorFlow分布式训练任务。
越来越多的企业在数字化转型和上云进程中选择混合云的形态(云+自建IDC或云+其他厂商云)来进行容灾建设,一方面不会过度依赖单一云厂商,另一方面还能充分利用已有的线下IDC资源。MSHA云原生多活容灾解决方案,支持混合云多活容灾产品能力。本文会通过一个业务Demo案例,介绍混合云容灾建设的难点,以及如何基于MSHA来快速搭建应用双活架构并具备分钟级业务恢复能力。
在绿色计算的大背景下,算力分配将朝着更加高效和智能的方向持续演进。本文将介绍阿里妈妈展示广告引擎在全局视角下优化算力分配的新探索,让在线引擎像变形金刚一样灵活强悍。算力在提倡节能减排,降本增效,追求绿色技术的大趋势下,充分利用好算力资源,尤其是在阿里妈妈展示广告引擎这种使用近百万core机器资源的业...
Paxos 作为一个经典的分布式一致性算法(Consensus Algorithm),在各种教材中也被当做范例来讲解。但由于其抽象性,很少有人基于朴素 Paxos 开发一致性库,本文介绍的实现代码参考了 RAFT 中的概念以及 phxpaxos 的实现和架构设计,实现 multi-paxos 算法,主要针对线程安全和模块抽象进行强化,网络、成员管理、日志、快照、存储以接口形式接入,算法设计为事件驱动,仅包含头文件,便于移植和扩展。
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理;PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力。本文将介绍PolarDB 开源版 通过 pgpointcloud 实现高效孪生数据存储...
直播平台的数据库选型要考虑流量波动、数据规模和实时性需求,如使用Redis的Sorted Set处理实时排行榜,List处理用户关注列表,使用分布式数据库PolarDB-X处理核心业务数据,AnalyticDB进行大数据分析。通过这些技术和策略,直播平台能够应对复杂的业务需求和流量挑战。
MSE 云原生网关默认提供了丰富的 Metrics 指标大盘,配合阿里云 Prometheus 监控提供开箱即用的完整可观测性能力,能够帮助用户快捷、高效的搭建自身的微服务网关与对应的可观测体系。