作者 | 幼麒
这几天关注云栖大会的小伙伴一定会发现阿里巴巴合伙人、阿里云高级研究员蒋江伟(小邪)在云栖大会开源引力峰会的演讲中,特别提到了一个叫 Grafana 服务的产品,并特意花费一页 PPT 介绍了这一次合作。到底是一个什么样的产品值得隆重介绍?
那么,接下来我们一起聊聊 Grafana 服务吧~在正式开始前,大家可以先回答一下以下问题:
- 你有没有沉浸在购买机器、配置网络、构建环境、安装部署、准备域名和 IP 地址的技术海洋无法自拔?
- 你有没有遇到过服务起不来无法访问? SLA 无法保障? 或者过一段时间后忘记服务 IP 地址及密码找都找不回来?
- 你有没有希望集成 ARMS、SLS、云监控、RDS、Trace 等各云产品的数据到统一的大盘而苦于不知从何下手?
- 你有没有希望 Grafana 连接专有网络 VPC 内各自建数据源业务数据,并提供邮件、短信告警以及定期报告?
- 你有没有在命令行黑屏安装各种插件和调整配置参数? 一顿操作猛于虎,一看系统心里堵?
什么是 Grafana ?
为了解决上述问题,Grafana 应运而生。Grafana 的官方是这样介绍自己的:Grafana 是开源可视化和分析软件。它允许查询、可视化、提醒和探索指标,无论它们存储在何处。简单地说,提供了将时间序列数据库(TSDB)数据转换为漂亮的图形和可视化的工具。你还不知道什么是 Grafana? 那么你一定看到过下面类似可视化看板,它们就是配置在 Grafana 中。
为什么要做 Grafana 托管服务?
Grafana 作为云原生可观测性的统一展示解决方案,可向下覆盖各类数据源和监控系统。在阿里云上有着成千上万的用户通过自己搭建 Grafana 来完成数据的可视化展示,他们在使用 Grafana 时也要忍受运维部署、个性设置、账号管理、阿里云数据源对接、告警等各方面不便。
正是为了解决用户在使用 Grafana 的各种痛点,我们云原生团队与 Grafana 官方(Grafana Labs)进行了长达一年的沟通洽谈并达成合作,目前 Grafana 托管服务正在公测(申请地址详见文末)。此次合作,也是 Grafana 与亚太地区云厂商的首次深度合作,双方将在中国区提供首款 Grafana 托管服务。
详见:Grafana Labs 携手阿里云,将提供国内首款 Grafana 托管服务
在这一过程中,我们在做了些什么?
在确定系统架构前,我们明确作为 Grafana 托管服务产品,用户存在的众多诉求,这其中包括:
- 自建 Grafana 迁移至托管 Grafana 的便利性(迁移工具/配置导入);
- 全托管的自动弹性(免服务器运维、高可用);
- 支持多方数据源(ARMS、Prometheus、SLS、用户自建数据源) 、报警功能集成;
- 阿里云官方数据源预建数据大盘;
- 数据访问安全(云账户管理 /子账号授权 / 用户组/用户授权);
- 提供多种版本选择、插件版本选择、 企业级插件支持;
- 提供独立的访问域名/链接。
所以我们在系统架构设计选型时要综合考虑上述各个因素,为用户提供稳定易用,功能强大的 Grafana 托管服务。如:
- 为了更好的运维管理和成本考虑,托管服务集群采用 ACK 集群;
- 为了保证各用户数据隔离安全和数据库升级迁移维护的便利性,我们采用独立数据库方案(目前 NAS sqllite);
- 为了能够连通客户各 VPC 内数据及综合考虑性能、成本及支持 VPC 范围,我们采用双网卡打通+FC 网络打通;
- 其他如服务状态机设计、云服务接入、用户鉴权、授权、独立域名等都是经过考虑权衡;
如上图所示,中间层通过 ACK 集群托管客户 Grafana 实例,在其下面对接云服务数据源、VPC 内数据源(FC 通道)、其他云服务数据源。其上层通过对接各外部服务,分为客户提供 Grafana 服务和控制台:
- 客户使用(服务本身),Client -> Proxy -> Grafana
- 监控管理(控制台),Client -> Console -> Grafana
下图为用户开通使用 Grafana 整个流程:
从管控端来看,管理员用户或者主账号,通过控制台开通并购买 Grafana 工作区,并完成对其他用户或者子账号的授权,此时我们会在 ACK 集群为用户创建独立的 Grafana Pod 实例及一系列的配套资源(如:NAS 存储、配置、自监控、告警集成、默认插件、云服务集成等);从 Grafana 的使用管理来看,Grafana 实际用户或者子账号登录 Grafana 工作区,就可正常的完成配置数据源,大盘面板等;如果管理员配置了 VPC 打通能力,那么也可以通过我们的数据 Proxy 访问到该客户 VPC 内的数据源。
Grafana 服务提供了哪些功能?
1、功能演示
申请公测后,我们会每周定期进行审批,届时您将可以体验 Grafana 托管服务。
各模块简单描述如下:
- 首页:首先进入系统首页 会展示 Grafana 核心优势和功能,以及接入步骤;
- 目前在 ARMS 域名下,后续会提供独立域名及入口;
- 创建工作区:在进入欢迎页面后,即可点击"创建工作区"按钮创建 Grafana 托管服务
- 公测期间创建工作区不收取任何费用,您只需要简单的填写表单即可。
- 版本类型:公测期间只提供标准版,后续会提供企业版供您选择。
- 版本号:公测期间只提供 7.5.x 版本,后续会提供 8.1.x 等版本供您选择。
- 密码:是指 admin 账号的登录密码,您也可以不使用该密码直接使用阿里云账号登录。
- 工作区列表:在创建完成后,即可管理您的 Grafana 工作区
- 工作区详情:
- 在工作区详情页,可以查看工作区的各项信息,并点击"登录"按钮直接使用您的 Grafana。
- 在登录页面 可以选择通过"Alibaba Cloud"登录方式登录后,您即可开始使用 Grafana 服务了。
- 性能监控:
- 在性能监控页面可以查看您的工作区各项数据(用户、组织、大盘、资源消耗、请求频率及延迟等)
- 参数设置:
- 通过参数设置,您可以白屏化的管理 Grafana 的各项个性化设置
- 如:Oauth、 服务端口、 domain 免鉴权分享大盘面板等
- 账号管理:
- 在账号管理页面您可以重置管理员 Admin 的密码,也可以授权其他账号访问该 Grafana 实例。
- 后续会增加通过 SMTP 邀请用户加入该 Grafana 工作区功能;
- 云服务管理:
- 云服务管理功能 目前支持 ARMS Prometheus 数据源及大盘同步至 Grafana 工作区。
- 另外还支持 SLS CMS 的数据源配置(配置方式见页面帮助文档);
- 除支持上述云服务数据源外,ARMS 前端监控、ARMS 链路监控数据接入也在规划中;
- VPC 数据源通道管理:
- 通过指定 VPC、交换机、安全组后 即可安装 VPC 数据源通道,这样在 Grafana 上访问 VPC 内数据源,
- 访问 VPC 内数据源,就像当前 Grafana 部署在 VPC 内一样(使用方式详见页面帮助文档)
- 告警管理:
- 告警管理集成 ARMS 告警通道,用户只需要简单配置下联系人,就可以在 Grafana 配置 Alerting 规则;
- 插件管理:
- 插件管理功能,提供便利的安装 卸载插件功能,用户无需关心底层命令和重启 配置调整等繁琐的技术细节;
2、核心优势
- 弹性、免运维:通过 Grafana 托管服务,无需管理运维服务器即可使用高可用服务。
- 统一可视化:支持阿里云各数据源(如 ARMS、阿里云 Prometheus 监控、SLS 等)以及自建数据源和第三方云厂商数据源(后续将支持云监控、链路监控、前端监控数据)。
- 数据安全与授权:支持阿里云账号 SSO 和自建账号体系,实现数据源与大盘的精细化管理 以及数据备份恢复(开发中)。
- 跨多 VPC 数据访问:支持同一个 Grafana 工作区通过私网连接多个专有网络 VPC 内数据源。
3、功能特性
- 默认集成各种云服务 默认集成 ARMS、阿里云 Prometheus 监控、云监控、SLS、阿里云 Elasticsearch 等云服务,并提供各种云服务的数据源配置、预置大盘与一键告警。
- 多种插件任意选可以使用 Grafana 插件连接您的工具和您的团队。数据源插件通过API连接到现有数据源并实时呈现数据,而无需您手动获取或迁移数据。
- 自定义告警体系使用 Grafana 告警,您可以在一个简单的UI中创建、管理和静音所有告警,允许您轻松整合和集中所有告警(部分功能开发中)。
- 多维度数据查询支持跨数据源查询、数据源重命名、汇总、组合和执行计算。
- 自建数据源支持打通同地域多个 VPC 或添加多个 VPC 中的数据源到同一个工作区,支持统一查询展示与告警。
- 面板编辑器通过一致的UI轻松配置、自定义和浏览所有面板,以便跨所有可视化面板设置数据选项。
希望通过 Grafana 托管服务,可以为各位开发者解决在使用 Grafana 时遇到的各种痛点,并获得更便捷的使用体验。也希望各位同学能够提出宝贵的建议,以便让 Grafana 托管服务走得更远。欢迎加入 Grafana 社群,钉钉扫码或搜索「34785590」即可入群!
点击下方链接👇,立即申请服务!
https://survey.aliyun.com/apps/zhiliao/vJytm8_sj?spm=5176.24855332.J_9932635580.2.4a633d1bQzGm1l