构建易于维护的分布式程序

简介:

陈硕 (giantchen_AT_gmail)

Blog.csdn.net/Solstice

摘要:本篇博客没有新东西,只不过是把去年在珠三角技术沙龙做的一次演讲的其中一张 ppt 展开讲一讲。

本文标题中的“易于维护”指的是 supportability,不是 maintainability。前者是从运维人员角度说,程序管理起来很方便,日常的劳动负担小;后者是从开发人员的角度说,代码好读好改。

前文《分布式系统中的进程标识》我提到一个观点:分布式系统中的每个长期运行的、会与其他机器打交道的进程都应该提供一个管理接口,对外提供一个维修探查通道,可以查看进程的全部状态。一种具体的做法是在程序里内置 http 服务器。

embedhttp

今天展开谈一谈这么做的必要性。分成两个方面来说:1) 在服务程序内置监控接口的必要性;2) http 协议的便利性。

必要性

在程序中内置监控接口可以说是受了 Linux procfs 的启发。在 Linux 下,查看内核的状态不需要任何特殊的工具,只要用 ls 和 cat 在 /proc 目录下查看文件就行了。要知道当前系统中运行了哪些进程,每个进程都打开了哪些文件,进程的内存和 CPU 使用情况如何,每个进程启动了几个线程,当前有哪些 TCP 连接,每个网卡收发的字节数等等,都可以在 /proc 中找到答案。Linux Kernel 通过 procfs 这么一个探查接口把状态充分暴露出来,让监控操作系统的运行变得容易。

但是 procfs 也有两点明显的不足:

  • 它只能暴露 system-wide 的数据,不能查看每个进程内部的数据;
  • 它是本地文件系统,必须要登录到这台机器上才能查看,如果要管理有很多台机器,势必增加工作量。

对于第一点,举例来说,我想知道某个我们自己编写的服务进程的运行情况:

  • 到目前为止累计接受了多少个 TCP 连接
  • 当前有多少活动连接 (这个可以通过 procfs 查看)
  • 一共响应了多少次请求
  • 每次请求的平均输入输出数据长度是多少字节
  • 每次请求的平均响应时间是多少毫秒
  • 进程平均有多少个活动请求(并发请求)
  • 并发请求数的峰值是多少,出现在什么时候
  • 某个连接上平均有多少个活动请求
  • 进程中 XXXRequest 对象有多少份实例
  • 进程中打开了多少个数据库连接,每个连接的存活时间是多少
  • 程序中有一个 hashmap,保存了当前的活动请求,我想把它打印出来
  • 某个请求似乎卡在某个步骤了,我想打印进程中该请求的状态

这些正当需求只有通过程序主动暴露状态才能满足,否则,就算 ssh 登录到这台机器上,也看不到这些有用的进程内部信息。(总不能 gdb attach 吧?那就让服务进程暂停响应了。且不说 gdb 打印一个 hashmap 有多麻烦。)

便利性

如果程序要主动暴露内部状态,那么以哪种方式最为便利呢?当然是 http。http 的好处有:

  • 它是 TCP server,可以远程访问,不必登录到这台机器上
  • TCP server 的另一个好处是能安全方便地防止程序重复启动,这个已在前文有论述
  • 最基本的 http 协议的实现起来很简单,不会给服务端程序带来多大负担,见 muduo::net::HttpServer 的例子
  • 不必使用特定的客户端程序,用普通 web 浏览器就能访问
  • 可以比较容易地用脚本语言实现客户端,便于自动化的状态收集与分析
  • http 是文本协议,紧急情况下在命令行用 telnet 甚至 wget 也能访问(比方说你在家通过 ssh 连到公司服务器解决某个线上问题,这时候没有 web 浏览器可用)
  • 借助 http URL 的路径,很容易实现有选择地查看一些信息,而不是把进程的全部状态一股脑儿 dump 出来,见 muduo::net::Inspector 的例子
  • http 天生支持聚合,一个浏览器页面可以内置多个 iframe,一眼就能看清多个进程的状态
  • 除了 GET method,如果有必要,还可以实现 PUT/POST/DELETE,通过 http 协议来控制并修改进程的状态,让程序“能观能控”(“能观”“能控”是自动控制领域的术语,这里借用一下)
  • 必要的时候还可以用 rest 的方式实现高级的聚合,见我在演讲中的“一种 REST 风格的监控”

另外,我们讨论分布式系统是运行在企业防火墙之内的基础设施,http 的安全性应该由防火墙保证。就好比你的 hadoop master 和 memcached 不会暴露给外网一样,在公司内部使用 http 只要没有人故意搞破坏就没事。

实例

演讲当时我举了 google 的例子:

google

当然,我们看不到 google 内部的服务器的状态页面究竟是什么样子,不过可以看看别的例子,比如 Hadoop。Hadoop 有四种主要 services:NameNode, DataNode, JobTracker, TaskTracker。每种 service 都内置了 http 状态页面,其默认 http 端口分别是:

  • NameNode 50070
  • DataNode  50075
  • JobTracker  50030
  • TaskTracker  50060

如果某台机器运行了 DataNode 和 TaskTracker,那么我们可以通过 http://hostname:50075 和 http://hostname:50060 来方便地查询其运行状态。

例外

如果不方便内置 http 服务,那么内置一个简单的 telnet 服务也不难,就像 memcached 的 stats 命令那样。

如果服务程序本身以 RPC 方式提供服务,那么可以不必内置 http 服务,而是增加一个 RFC 调用实现相同的功能。这个 RPC 可以命名为 admin(),输入的内容类似 url,返回的是该 url 对应的页面内容,可以是文本格式,也可以是 RPC 原生的打包格式。

总结

在自己编写分布式程序的时候,提供一个维修通道是很有必要的,它能帮助日常运维,而且在出现故障的时候帮助排查。相反,如果不在程序开发的时候统一预留这些维修通道,那么运维起来就抓瞎了——每个进程都是黑盒子,出点什么情况都得拼命查 log 试图恢复(猜测)进程的状态,工作效率极低。

分类:  分布式系统



    本文转自 陈硕  博客园博客,原文链接:http://www.cnblogs.com/Solstice/archive/2011/03/30/1999333.html ,如需转载请自行联系原作者


相关文章
|
1月前
|
负载均衡 监控 Dubbo
Java微服务架构设计与实践:构建可伸缩的分布式系统
【4月更文挑战第2天】微服务架构响应现代业务需求,通过拆分大型应用为独立服务实现模块化和可扩展性。Java中的Spring Boot和Dubbo等框架支持服务注册、负载均衡等功能。遵循单一职责、自治性和面向接口原则,每个服务专注特定逻辑,独立部署运行。实际项目中,如电商系统,服务按功能拆分,提升可维护性和扩展性。还需考虑服务通信、数据一致性和监控等复杂话题。Java微服务架构助力构建高效、灵活的应用,应对未来挑战。
Java微服务架构设计与实践:构建可伸缩的分布式系统
|
12天前
|
负载均衡 监控 Go
使用Golang框架构建分布式系统
本文探讨了使用Golang构建分布式系统的方法。Golang因其高效、简洁的语法和并发支持成为理想的开发语言。文中列举了几个常用的Golang框架,如Echo、Gin、gRPC和NATS等,并强调了服务拆分、通信机制、负载均衡等构建分布式系统的关键要素。通过选择合适的框架,遵循需求分析、技术选型、服务设计等步骤,开发者可以构建出高性能、高可用和可扩展的系统。此外,文中还提供了一个使用gRPC和etcd的简单代码案例来说明实现过程。
29 4
|
1月前
|
SpringCloudAlibaba Java 持续交付
【构建一套Spring Cloud项目的大概步骤】&【Springcloud Alibaba微服务分布式架构学习资料】
【构建一套Spring Cloud项目的大概步骤】&【Springcloud Alibaba微服务分布式架构学习资料】
284 0
|
10天前
|
消息中间件 监控 调度
构建Python中的分布式系统结合Celery与RabbitMQ
在当今的软件开发中,构建高效的分布式系统是至关重要的。Python作为一种流行的编程语言,提供了许多工具和库来帮助开发人员构建分布式系统。其中,Celery和RabbitMQ是两个强大的工具,它们结合在一起可以为你的Python应用程序提供可靠的异步任务队列和消息传递机制。
|
1月前
|
存储 JSON 监控
Erlang用于构建分布式屏幕监控软件的优点
Erlang是一种适用于并发编程的语言,特别适合构建分布式屏幕监控软件。其轻量级进程支持高并发,能同时处理多个屏幕的实时更新。Erlang的容错性和高可用性通过监督树机制保证了进程故障时的自动重启。此外,其内置的分布式特性使得跨节点的屏幕监控变得简单。Erlang还允许通过HTTP客户端库自动将监控数据提交到网站,便于数据存储和分析。因此,Erlang是构建此类软件的理想选择。
111 7
|
1月前
|
传感器 存储 SQL
LabVIEW使用ModbusTCP协议构建分布式测量系统
LabVIEW使用ModbusTCP协议构建分布式测量系统
28 4
|
1月前
|
消息中间件 大数据 分布式数据库
分布式事务:构建可靠分布式系统的基石
【4月更文挑战第21天】分布式事务是确保现代分布式系统数据一致性和完整性的关键技术,涉及多服务协调,面临网络延迟、故障和数据一致性等问题。本文探讨了分布式事务的原理,包括两阶段提交、三阶段提交、分布式锁和补偿机制等解决方案,并阐述其在微服务、分布式数据库和消息队列等场景的应用。面对挑战,我们需要持续优化分布式事务处理机制。
|
1月前
|
算法 Go 分布式数据库
构建高可用的分布式数据库集群:使用Go语言与Raft共识算法
随着数据量的爆炸式增长,单一数据库服务器已难以满足高可用性和可扩展性的需求。在本文中,我们将探讨如何使用Go语言结合Raft共识算法来构建一个高可用的分布式数据库集群。我们不仅会介绍Raft算法的基本原理,还会详细阐述如何利用Go语言的并发特性和网络编程能力来实现这一目标。此外,我们还将分析构建过程中可能遇到的挑战和解决方案,为读者提供一个完整的实践指南。
|
1月前
|
分布式计算 负载均衡 Java
构建高可用性Java应用:介绍分布式系统设计与开发
构建高可用性Java应用:介绍分布式系统设计与开发
23 0
|
1月前
|
运维 Cloud Native 持续交付
构建未来:以云原生为基石的分布式系统架构深入理解操作系统的内存管理机制
【4月更文挑战第30天】 随着企业数字化转型的不断深入,传统的IT架构已难以满足市场对于敏捷性、可扩展性和成本效益的需求。云原生技术作为推动这一变革的关键因素,其设计理念和实现方式正在重塑软件开发和运维模式。本文将探讨云原生架构的核心组件,包括容器化、微服务、持续集成/持续部署(CI/CD)、以及无服务器计算等,并分析其在构建分布式系统中的作用与挑战。通过实际案例,我们将展示如何利用云原生技术构建高效、弹性和可维护的分布式系统。

热门文章

最新文章