本文介绍如何使用TFJob在ASK+ECI场景下,快速完成基于GPU的TensorFlow分布式训练任务。
容器集群可观测现状随着 Kubernetes(K8s)容器编排工具已经成为事实上行业通用技术底座,容器集群监控经历多种方案实践后,Prometheus 最终成为容器集群监控的事实标准。Promethues 监控服务可有效监控系统层指标、应用层指标、业务层指标等,采集监控指标后进行存储,搭配 Graf...
“从一次常见的发布说起,在云上某个系统应用发布时,重启阶段会导致较大数量的 OpenAPI、上游业务的请求响应时间明显增加甚至超时失败。随着业务的发展,用户数和调用数越来越多,该系统又一直保持一周发布二次的高效迭代频率,发布期间对业务的影响越来越无法接受,微服务下线的治理也就越来越紧迫。”
应用身份服务IDaaS(Identity as a Service)是阿里云原生身份管理系统,可以统一管理各应用中分散的账号,并集中分配应用访问控制权限,降低低效、重复的账号访问配置和运维工作。
Syslog是一个常见的日志通道,几乎所有的SIEM(例如IBM Qradar, HP Arcsight)都支持通过Syslog渠道接收日志。本文主要介绍如何通过Syslog将日志服务中的日志投递到SIEM。
数据湖技术在日志生态中扮演不可或缺的角色,而打通日志从生产端到数据湖的链路却比较复杂。本文将介绍基于 SLS 方案为日志入湖提供端到端(End-to-End)支持,帮助用户提升接入效率,并在费用、运维上有效降低成本。