DigitalOcean添加监控和告警特性

简介:

 云基础设施提供商DigitalOcean最近释放了监控服务器和发送告警的功能。尽管这不是什么新奇的功能,但是这个免费的特性带有一定的象征性,代表了行业越来越关注服务器和应用内部的运行情况。
DigitalOcean的监控服务是基于agent的。它能用于新的和已有的虚拟机(被称为“droplets”)。开发人员可以在供应基于Linux的droplets时安装这个agent,也可以在事后运行一个构建脚本。agent会捕获各种指标,包括:CPU、内存使用、磁盘I/O、磁盘使用率、输入带宽和输出带宽。这些指标只能通过仪表盘来查看,无法通过API访问。因为这些指标是通过内置(on-box)的agent来收集的,像“top进程”这样的信息也是可以获取到的。开发人员能够创建告警策略,当达到一定的性能阈值就会产生警报。这些策略可以用于单个droplet,也可以用于一组droplet。报警能够通过Email地址或Slack channel来进行发送。DigitalOcean最多会将指标信息存储30天。但是,如果用户销毁某个droplet的话,指标信息也会立即消除。

在提供监控服务之前,DigitalOcean依赖于合作伙伴来弥补这块缺失的功能。DigitalOcean的联合创始人Mitch Wainer对记者Ben Kepes说,他们的核心合作伙伴并没有对这些功能感到惊讶。

当然,对于Wainer来说,一个明显的问题在于如何处理与DigitalOcean已有的合作伙伴的关系。Wainer非常开放和坦诚,他承认这会影响到合作伙伴。但是他很快补充说,DigitalOcean一直对它的发展意图非常开放,给了这些供应商很长的时间来准备这种变更。

其他主要的IaaS厂商也支持范围广泛的合作伙伴,但是多年来一直都会提供内置的监控功能。Amazon CloudWatch有一个用于服务器监控的免费层级(free tier),能够存储性能数据超过一年的时间。另外,AWS还提供了可视化、告警、API访问、更高级的层级(需要收取一定费用)、自定义指标和日志监控的功能。微软为Azure虚拟机也提供了综合的监控功能。用户可以创建告警,将指标归档到长期存储中,然后通过API来消费和查询数据。Google Stackdriver监控支持Google Compute Engine和AWS服务器。它有一个免费层级,同时还有一个更高层级的服务。与其他的IaaS供应商类似,Google提供了自定义指标、告警策略、丰富的提醒方案、API访问等功能。

用户对服务器和应用监控的期望在发生着变化。The New Stack的一份报告指出了容器化对监控需求会带来什么样的影响。临时性服务(Ephemeral service)、要跟踪的“东西”呈现多样化、关注“服务”而不是“服务器”以及新类型的终端用户,上述的这些变化都导致传统的监控方式力不从心。临时性服务意味着厂商需要有新的方式来定价,因为服务实例会随时加入或销毁。为了应对更复杂的应用拓扑架构所带来的挑战,AWS在2016年引入了X-Ray。在帮助现代团队监控服务和解决问题方面,工具和服务出现了爆炸性地增长。已有的厂商,比如New Relic、Dynatrace和Datadog在不断演化其产品,以满足新的需求。新出现的解决方案也都引起了业界的关注,比如Prometheus、Pivotal Cloud Foundry Metrics、Honeycomb和Zipkin。

DigitalOcean的监控是免费使用的,在全球范围内的八个机房都可以访问。在宣布该项服务的博客文章的结尾,DigitalOcean给出了这项服务的未来规划。

监控服务的第一个迭代成果已经和大家见面了,我们已经致力于下一个迭代的工作。很快将会推出的特性包括:

对告警策略的API支持

告警的可视化增强

监控块存储(Block Storage)

将告警通知外部服务的Webhooks

本文转自d1net(转载)

相关文章
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
1687 3
|
运维 监控 网络协议
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
439 11
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
|
Prometheus 监控 Cloud Native
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
647 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
12月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
824 0
|
Prometheus Kubernetes 监控
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
827 22
|
Prometheus 监控 Cloud Native
无痛入门Prometheus:一个强大的开源监控和告警系统,如何快速安装和使用?
Prometheus 是一个完全开源的系统监控和告警工具包,受 Google 内部 BorgMon 系统启发,自2012年由前 Google 工程师在 SoundCloud 开发以来,已被众多公司采用。它拥有活跃的开发者和用户社区,现为独立开源项目,并于2016年加入云原生计算基金会(CNCF)。Prometheus 的主要特点包括多维数据模型、灵活的查询语言 PromQL、不依赖分布式存储、通过 HTTP 拉取时间序列数据等。其架构简单且功能强大,支持多种图形和仪表盘展示模式。安装和使用 Prometheus 非常简便,可以通过 Docker 快速部署,并与 Grafana 等可
6428 2
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
1421 0
|
Prometheus 监控 Cloud Native
SpringCloud微服务实战——搭建企业级开发框架(四十五):【微服务监控告警实现方式二】使用Actuator(Micrometer)+Prometheus+Grafana实现完整的微服务监控
无论是使用SpringBootAdmin还是使用Prometheus+Grafana都离不开SpringBoot提供的核心组件Actuator。提到Actuator,又不得不提Micrometer,从SpringBoot2.x开始,Actuator的功能实现都是基于Micrometer的。
1749 57
|
弹性计算 监控 安全
【阿里云弹性计算】ECS实例监控与告警系统构建:利用阿里云监控服务保障稳定性
【5月更文挑战第23天】在数字化时代,阿里云弹性计算服务(ECS)为业务连续性提供保障。通过阿里云监控服务,用户可实时监控ECS实例的CPU、内存、磁盘I/O和网络流量等指标。启用监控,创建自定义视图集中显示关键指标,并设置告警规则(如CPU使用率超80%),结合多种通知方式确保及时响应。定期维护和优化告警策略,利用健康诊断工具,能提升服务高可用性和稳定性,确保云服务的卓越性能。
684 1

热门文章

最新文章