2024-05-15
91

利用ACK注册集群为云下K8s注入弹性能力

随着容器技术的普及,有越来越多的用户开始在私有环境中搭建K8s来使用,这时候就很容易遇到一个问题,私有环境资源交付周期太长,不能完全释放K8s动态扩容的能力,本文就是介绍如何利用ACK注册集群解决这个问题,让云下的K8s集群也可以享受云上一样的资源快速交付能力。

91
2024-05-15
113

链路追踪(Tracing)其实很简单——链路功能进阶指南

经过前面两章的学习,小玉已经熟练掌握分布式链路追踪的基础用法,比如回溯链路请求轨迹,定位耗时瓶颈点;配置核心接口黄金三指标告警,第一时间发现流量异常;大促前梳理应用上下游关键依赖,联系相关方协同备战等等。随...

113
2024-05-15
138

基于ASK+TFJob快速完成分布式Tensorflow训练任务

本文介绍如何使用TFJob在ASK+ECI场景下,快速完成基于GPU的TensorFlow分布式训练任务。

138
2024-05-15
162

阿里妈妈展示广告引擎新探索:迈向全局最优算力分配

在绿色计算的大背景下,算力分配将朝着更加高效和智能的方向持续演进。本文将介绍阿里妈妈展示广告引擎在全局视角下优化算力分配的新探索,让在线引擎像变形金刚一样灵活强悍。算力在提倡节能减排,降本增效,追求绿色技术的大趋势下,充分利用好算力资源,尤其是在阿里妈妈展示广告引擎这种使用近百万core机器资源的业...

2024-05-15
86

统一观测丨使用 Prometheus 监控云原生网关,我们该关注哪些指标?

MSE 云原生网关默认提供了丰富的 Metrics 指标大盘,配合阿里云 Prometheus 监控提供开箱即用的完整可观测性能力,能够帮助用户快捷、高效的搭建自身的微服务网关与对应的可观测体系。

86
2024-05-15
100

Logtail日志采集支持高精度时间戳

本文为您介绍在使用Logtail进行日志采集时,如何从原始日志中提取毫秒精度时间戳。

100
2024-05-15
102

链路追踪(Tracing)其实很简单——链路成本进阶指南

广义上的链路成本,既包含使用链路追踪产生的数据生成、采集、计算、存储、查询等额外资源开销,也包含链路系统接入、变更、维护、协作等人力运维成本。为了便于理解,本小节将聚焦在狭义上的链路追踪机器资源成本,人力成本将在下一小节(效率)进行介绍。

102
2024-05-15
73

多账号共享一套ACR方案

一家多业务组织的客户来说往往会有多个云账号,分别部署各个业务线的容器服务。但集团可能想使用一套统一的容器镜像仓库(ACR),就会面临多账号内多个ACK共享一套ACR了。那如何合理规划好ACR实例上的命名空间,打通各个业务ACK集群与ACR的网络,包括如何精细化授权,都是客户需要考虑的。

73
2024-05-15
91

日志服务 Scan 功能工作机制与最佳实践

大数据快速增长的需要泛日志(Log/Trace/Metric)是大数据的重要组成,伴随着每一年业务峰值的新脉冲,日志数据量在快速增长。同时,业务数字化运营、软件可观测性等浪潮又在对日志的存储、计算提出更高的要求。从时效性角度看日志计算引擎:数仓覆盖 T + 1 日志处理,准实时系统(搜索引擎、OLA...

91
1
...
7
8
9
10
11
到第
1
2
3
4
5
6
7
8
9
10
11
10/11