线上PHP问题排查思路与实践

简介:
前言

前几天,在一淘网,腾讯网媒和微博商业技术联合组织的技术分享大会上,我分享了《在线PHP问题排查思路与实践》。此博文除了对PPT提供下载外,还会对ppt做简单的注释说明。主题分为三部分,常见问题,解决思路和案例分析。

常见问题

不同用户看到的错误可能不一样。一般用户看到的错误都是表层的现象。如,裸奔的错误页面:
luoben

<img src="http://www.bo56.com/wp-content/uploads/2015/09/luoben.png" alt="luoben" width="693" height="522" class="alignnone size-full wp-image-829" /></a></p>

这种裸奔的错误页面,经常被用户成为乱码,太丑太暴漏。甚至把一些不应该暴漏的敏感信息都暴漏了。如,nginx版本号,文件路径等。为了解决这些问题,设计师们又做了有情调的错误页。但是,错误五花八门,并不是一个错误页能掩盖的。
对于工程师,咱们看问题可能会更深入些。能看到问题背后的问题。如,看到502错误,他们会想到可能是后端PHP-FPM进程出现问题。如后端的PHP-FPM进程已经死掉,nginx无法连接到PHP-FPM进程。

处理思路

jiejuesilu

<img src="http://www.bo56.com/wp-content/uploads/2015/09/jiejuesilu.png" alt="jiejuesilu" width="702" height="525" class="alignnone size-full wp-image-831" /></a></p>

虽然问题五发八门,但是有一套解决思路可以整体处理这些问题。解决思路大概分为如下几个部分:恢复服务,保留现场,排查问题和验证。下面对这几部分分别加以说明。

恢复服务

huifufuwu

<img src="http://www.bo56.com/wp-content/uploads/2015/09/huifufuwu.png" alt="huifufuwu" width="701" height="525" class="alignnone size-full wp-image-834" /></a></p>

恢复服务,顾名思义。就是赶紧让用户感受不到错误的存在。为什么这样做呢?原因有如下两个。第一,如果不这样做,用户看到的是错误页面,用户体验不好。可能还会对公司带来直接的经济损失。 第二,如果不这样做,年底你的奖金就飞了。那如何恢复服务呢?下面说下不同场景下的几种操作方式。

摘机:所谓摘机就是摘除有问题的机器。这种操作的应用场景是,当提供服务的多台机器中,有部分机器出现问题时,可以这样操作。这就要求我们,对于线上运行的服务,必须保障有多台机器运行相同的服务,多台机器间没有依赖关系。其中一台或者几台被摘除不会影响到其他机器。

回滚:所谓回滚就是恢复到操作之前的状态。这种操作的应用场景是,当进行了上线或者软件配置修改后,出现了问题。

重启:当你的服务运行一段时间,突然出现了异常。如进程占用了cpu 100%。你可以通过重启的方式来解决。重启的过程就是一个资源释放和重新分配的过程。

降级:当你的网站的访问量超出了你服务器的负载时,网站就会出现问题。这个时候,就需要保证主要功能可用。把损失降到最低。

当然,网站出现问题时,并不是教条的套用,做单一的操作来恢复服务。而是根据情况进行相应的操作。遇到问题时,可能需要进行多个恢复服务的操作。但是,所有的这些操作的原则就是,把损失降到最低。

保留现场

baoliuxianchang

<img src="http://www.bo56.com/wp-content/uploads/2015/09/baoliuxianchang.png" alt="baoliuxianchang" width="701" height="525" class="alignnone size-full wp-image-836" /></a></p>

其实问题排查和警察破案过程是一样的。想想警察是如何保留现场的?商场内安装摄像头。不方便安装摄像头的场所(洗头房),就在场所外的大街上安装摄像头。虽然有监控,但是还有会有案件发生。案件出现后,他们会保护案发现场。其实我们对现场的保留,也是从这几方面入手。

系统内部日志:这就好比在商场内安装摄像头。如果有良好的日志记录,那就可以记录系统运行过程中出现的一些异常。良好的日志系统,也是我们在选择开源软件时的重要标准。

系统外部监控:这个就好比洗头房外大街上的监控。在系统中,总有一些地方是你不方便或者没权增加日志记录的。如,咱们在调用第三方服务的时候,肯定你也不方便在第三方服务中添加日志。这个时候,我们就需要增加对第三方服务的监控和日志记录。能时刻知道第三方服务是否可用。

保留运行状态:这个就是案发现场的保留。比如,你发现一个进程占用cpu 100%。你为了解决问题,贸然的重启进程,就是破坏了现场。

保留现场和恢复服务并没有一个明确的先后关系。他们共同是问题排查的基础。恢复了服务,你才可用安心的进行问题排查。保留了现场,你才有问题排查的数据来源。有时候,保留现场和恢复服务会有冲突。如,你就一台机器提供服务,这台机器上出现了问题,这个时候要如何处理呢?这个时候建议最短的时间备份现场,然后尽快的恢复服务。如,一个进程占用cpu 100%,那你就可以用 gcore 把进程生成core文件,然后重启进程。

对于PHP开发的系统,为了实现更健壮的日志系统,我这里有个小tip。可以使用register_shutdown_function 和 error_get_last。具体的可以查看。博文地址

所有的这些保留现场的操作,就是为之后的问题排查提供数据。

排查问题

排查问题的过程才是展现你福尔摩斯风采的时候。问题排查的过程就是用你掌握的知识和工具去分析数据的过程。现在,数据已经有了。知识和工具都需要掌握哪些呢?

知识

知识的海洋是浩瀚的。这里我只能做个大概的分类。

语言:PHP语言方面,除了了解基本语法以外,还要对PHP的内核有所了解。对PHP内核有所了解后,你就大概了解了php的执行流程。出现问题,你就可以大概推测是那个环节出现了问题。发现问题后,你可以根据掌握的知识分析出大概那里出现了问题。比如,当一个PHP进程占用cpu 100%。你就可以通过掌握的PHP内核的数据结构找出是大概那里的代码出现了问题。

网络:咱们毕竟是搞网络通信编程的。对网络通信方面的知识有所了解,是必须的。尤其是对一些协议要有大概的了解。通信协议的重要性,并不仅仅局限于面试时撑撑场面,更重要的是用来解决问题。软件:对搭建系统所使用软件要有所了解。如对memcached的内存管理策略有所了解的话,可以让你更好的对其调优,充分的利用内存,减少内存浪费。

系统:避免咱们搭建的系统运行在操作系统上。那就需要对操作系统所有了解。如,权限,系统日志位置,oom等。

工具

工欲善其事必先利其器。网络上有一张图总结的很好,把常用的工具总结的很全。

屏幕快照 2015-09-02 上午9.09.27

<img src="http://www.bo56.com/wp-content/uploads/2015/09/屏幕快照-2015-09-02-上午9.09.27.png" alt="屏幕快照 2015-09-02 上午9.09.27" width="694" height="517" class="alignnone size-full wp-image-845" /></a></p>

如果你把所有的工具都能很好的掌握,你就是神啦。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
5天前
|
程序员 PHP
PHP程序员的成长之路:技术探索与实践
在当今数字化时代,PHP作为一种广泛应用的后端编程语言,对于程序员而言具有重要意义。本文从技术探索和实践的角度出发,探讨了PHP程序员在成长过程中所面临的挑战与机遇,以及如何通过持续学习与实践不断提升自身技能。
|
5天前
|
编译器 PHP 开发者
深入理解PHP 8.0的新特性及实践应用
【5月更文挑战第14天】在这篇文章中,我们将深入探讨PHP 8.0的新特性及其在实际开发中的应用。我们将详细介绍JIT编译器、联合类型、名称参数、匹配表达式等新特性,并通过实例代码演示如何利用这些新特性提高开发效率和代码质量。
|
5天前
|
PHP
PHP 7.4中新增特性的探索与实践
【5月更文挑战第12天】本文主要探讨了PHP 7.4中的一些新特性,包括箭头函数、预加载优化、数组表达式间接访问等。通过对这些新特性的深入理解和实践应用,可以帮助我们编写出更高效、更简洁的代码。
|
5天前
|
存储 缓存 自然语言处理
深入PHP内核:理解OPcache的工作原理与优化实践
【5月更文挑战第6天】 在现代Web开发中,提升性能和响应速度是持续追求的目标。PHP作为一种广泛使用的服务端脚本语言,其执行效率至关重要。本文将深入探索PHP的OPcache(优化器缓存)组件,解析其如何改善PHP的性能表现。通过剖析OPcache的工作机制,我们将讨论有效的配置策略以及实践中的最佳优化方法,旨在帮助开发者充分理解并利用OPcache来提升应用性能。
|
5天前
|
PHP 开发者
PHP中的命名空间深入理解与实践
【4月更文挑战第30天】在现代PHP开发中,命名空间是管理代码中类名和函数名冲突的重要工具。本文将探讨PHP命名空间的核心概念、实现机制及其在实际项目中的应用场景,帮助开发者更有效地组织和维护大型项目代码。我们将通过实例分析如何利用命名空间避免常见的名称冲突问题,并提供最佳实践建议。文章旨在为有一定PHP基础的开发人员提供进阶指导,使其能够在复杂的项目结构中灵活运用命名空间。
|
5天前
|
设计模式 算法 搜索推荐
【PHP开发专栏】PHP设计模式解析与实践
【4月更文挑战第29天】本文介绍了设计模式在PHP开发中的应用,包括创建型(如单例、工厂模式)、结构型和行为型模式(如观察者、策略模式)。通过示例展示了如何在PHP中实现这些模式,强调了它们在提升代码可维护性和可扩展性方面的作用。设计模式是解决常见问题的最佳实践,但在使用时需避免过度设计,根据实际需求选择合适的设计模式。
|
5天前
|
编译器 PHP
深入理解PHP 8.0的新特性及实践应用
【4月更文挑战第29天】在这篇文章中,我们将深入探讨PHP 8.0的新特性及其在实际开发中的应用。通过对新特性的详细解析,我们将了解到PHP 8.0如何提高开发效率,优化代码质量,以及提升应用程序的性能。同时,我们还将通过实际案例,展示如何在项目中应用这些新特性,以实现更高效、更稳定的开发环境。
|
5天前
|
缓存 安全 JavaScript
PHP 7.4新特性解析与实践
【4月更文挑战第24天】 在这篇文章中,我们将深入探讨PHP 7.4版本的新特性,并通过实际示例代码展示如何将这些新特性应用于日常开发工作中。我们将重点介绍预加载优化、类型化属性、箭头函数等重要更新,并分析这些新特性对性能和编码习惯的影响。通过本文,读者将获得对PHP 7.4新特性的全面理解,以及如何有效地利用这些新工具来提升代码质量和开发效率。
|
5天前
|
PHP
PHP 7.4的新特性及实践应用
【4月更文挑战第2天】本文主要介绍了PHP 7.4的新特性,并通过实例代码展示了如何在实际项目中应用这些新特性。文章首先简要回顾了PHP的发展历史,然后详细分析了PHP 7.4的新特性,包括预加载、数组解构、扩展的返回类型声明等。接下来,通过实际代码示例,演示了如何在项目中使用这些新特性。最后,总结了PHP 7.4新特性的优势和局限性,并展望了PHP未来的发展趋势。
|
5天前
|
安全 大数据 编译器
深入理解PHP 8.0的新特性及实践应用
【2月更文挑战第30天】随着PHP 8.0的发布,这一流行的服务器端脚本语言带来了许多令人兴奋的新特性和性能改进。本文将深入探讨PHP 8.0的关键新特性,包括JIT编译器、联合类型、名称参数、匹配表达式等,并通过实际代码示例展示如何利用这些新工具来编写更加高效、简洁和健壮的应用程序。无论您是PHP开发者还是对最新技术趋势感兴趣的技术爱好者,本文都将为您提供宝贵的信息和启发。
28 3