阿里云TSDB在大数据集群监控中的方案与实战
阿里云TSDB在大数据集群监控中的方案与实战
目前大部分的互联网企业基本上都有搭建自己的大数据集群,为了能更好让我们的大数据集群更加高效安全的工作,一个优秀的监控方案是必不可少的;所以今天给大家带来的这篇文章就是讲阿里云TSDB在上海某大型互联网企业中的大数据集群监控方案中的实战案例,希望能为感兴趣的同学提供一些帮助。
夏日清风 - 基于Docker Swarm的极简Serverless实践
在今年4月份的DockerCon压轴的 Moby's Cool Hack Session上,Alex Ellis给大家展现了一个名为 Function as a Service (FaaS)的项目。FaaS基于Docker Swarm集群上实现了一个极简的Serverless框架,支持将任意Unix进程作为函数实现来对外提供服务。
开源AIOps数据中台搭建
本文介绍我在PyCon2019上海站的议题内容,根据Gartner的报告,AIOps将在未来5-10年落地开花,并集中统一各种Ops平台,本议题介绍AIOps的核心作用、相关工程难点(数据采集、数据中台、智能算法、自动化等)与开源方案选择,适当介绍了Python在其中的主要作用。
关于容器迁移、运维、查错与监控,你想知道的都在这里了
作者 | 邱戈川(了哥) 阿里云智能云原生应用平台部高级技术专家
本文根据云栖大会全面上云专场演讲内容整理,关注阿里巴巴云原生公众号,回复“迁移”获得本文 PPT
今天上午王坚博士讲了一句话我比较有感触,大家做系统的时候,一定要想下你的系统的数据是怎么流转,这些系统的数据是怎么形成闭环。
从监控到隔离,阿里云容器服务提升您的GPU资源使用体验
通过使用阿里云容器服务的GPU支持,可以提升GPU资源管理的可见性,了解到需要多少的GPU资源可以支撑图像识别,语音识别,在线翻译等业务,如何能用最少的成本满足业务需求;而可以在无需修改现有GPU程序的前提下,保障多个容器共享同一个GPU时,实现彼此互相隔离。
体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源
通过ARMS管理Kubernetes集群GPU性能指标
在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,通过内置ARMS可以从应用的维度去观测GPU的使用情况,了解资源水位,以及设定相应的报警,避免因为GPU资源的约束引发业务风险。
【翻译】Prometheus 2.11.0 新特性
Prometheus 2.11.0 现在(2019.07.9)已经发布,在5月的 2.10.0 之后又进行了一些修正和改进。
从TSDB开始,记录逻辑有了更多的性能改进。特别需要注意的是,如果您有一个像 a|b 这样的正则表达式(例如 Grafana 为选择多个变量的表达式),那么它现在被评估为查找而不是正则表达式扫描,因此 x=~"a" 现在和 x="a"一样高效。
【翻译】Prometheus 2.12.0 新特性
Prometheus 2.12.0 现在(2019.08.17)已经发布,在上个月的 2.11.0 之后又进行了一些修正和改进。
在当前的 6 周发布周期中,每一个 Prometheus 版本都有比较少的特性,但是发布的更有规律。
容器监控工具(2)Prometheus + cAdvisor + grafana
上一篇介绍了Google开发的容器监控工具cAdvisor,但是其提供的操作界面较为简陋,且不支持监控多Host,实用性有待提高。因此,本篇会介绍一个流行的生产级监控工具,不,准确说来应该是一个监控方案,它就是Prometheus!Prometheus提供了一整套的包括监控数据搜集、存储、处理、可视化和告警的完整解决方案。