泮圣伟

2024-05-15

线上故障突突突？如何紧急诊断、排查与恢复

本文简单介绍了阿里云上关于故障恢复、诊断的一些最佳实践。

泮圣伟

235

涯海

2024-05-15

168

链路追踪（Tracing）其实很简单——链路成本进阶指南

广义上的链路成本，既包含使用链路追踪产生的数据生成、采集、计算、存储、查询等额外资源开销，也包含链路系统接入、变更、维护、协作等人力运维成本。为了便于理解，本小节将聚焦在狭义上的链路追踪机器资源成本，人力成本将在下一小节（效率）进行介绍。

涯海

168

言澈

2024-05-15

404

全景剖析阿里云容器网络数据链路（一）—— Flannel

本文是[全景剖析容器网络数据链路]第一部分，主要介绍Kubernetes Flannel模式下，数据面链路的转转发链路

言澈

404

涯海

2024-05-15

112

链路追踪（Tracing）其实很简单——链路拓扑

最近一年，小玉所在的业务部门发起了轰轰烈烈的微服务化运动，大量业务中台应用被拆分成更细粒度的微服务应用。为了迎接即将到来的双十一大促重保活动，小玉的主管让她在一周内梳理出订单中心的全局关键上下游依赖，提前拉...

涯海

112

豁朗

2024-05-15

241

用SLS配置日志关键字告警的N种方法

本文由日志关键词告警出发，介绍了使用SLS进行关键词监控告警配置，并且介绍了几种常见的配置方法，可以覆盖关键词监控的大部分场景。

豁朗

241

豁朗

2024-05-15

177

基于业务的告警管理最佳实践

本文主要介绍了SLS告警管理中心的业务概念和功能。

豁朗

177

德歌

2024-05-15

86

PolarDB 开源版通过 rum 实现高效率搜索和高效率排序的解决方案

背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB 开源版通过 rum 实现高效率搜索和高效率排序的解决方案...

德歌

86

一为

2024-05-15

175

基于ASK+TFJob快速完成分布式Tensorflow训练任务

本文介绍如何使用TFJob在ASK+ECI场景下，快速完成基于GPU的TensorFlow分布式训练任务。

一为

175

李鹏

2024-05-15

171

Serverless Kubernetes 开发实践：异构资源，按需使用

Kubernetes 作为当今云原生业界标准，具备良好的生态以及跨云厂商能力。Kubernetes 很好的抽象了 IaaS 资源交付标准，使得云资源交付变的越来越简单，与此同时用户期望更多的聚焦于业务自身，做到面向应用交付，Serverless 理念也因此而生。那么如何通过原生 k8s 提供Serverless 能力？如何实现GPU等异构资源按需使用？这里给大家介绍一下我们在Serverless Kubernetes 开发实践：异构资源，按需使用。

李鹏

171

类目筛选

内容类型

线上故障突突突？如何紧急诊断、排查与恢复

链路追踪（Tracing）其实很简单——链路成本进阶指南

全景剖析阿里云容器网络数据链路（一）—— Flannel

链路追踪（Tracing）其实很简单——链路拓扑

用SLS配置日志关键字告警的N种方法

基于业务的告警管理最佳实践

PolarDB 开源版通过 rum 实现高效率搜索和高效率排序的解决方案

基于ASK+TFJob快速完成分布式Tensorflow训练任务

Serverless Kubernetes 开发实践：异构资源，按需使用