数据库运维步骤梳理

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 数据库运维步骤梳理

前言


从 2020 年 10 月份以来,肩负数据库运维工作,已经快 1 年半了。

还记得第一次去客户现场做运维,是因为我的另一个做这块的同事要结婚,才把这个挑子换到我肩上的。那会是去广州,我同事替我在腾讯云复现客户现场的环境,并一个字一个字的写好了文档,提前教我操作,并叮嘱各种注意事项。这次由于要写笔记才回忆起来,还是蛮暖心的,原来是有这么个人曾经这么细心的教过我!(为什么我的记忆里很少留下这种回忆呢?)


正文


一、杀鸡不用宰牛刀


运维多了,有些问题一看就明白了怎么回事了,很多问题重启都能解决(虽然感觉有点不负责),有些问题通过最粗糙的日志就能知道问题在哪(可以理解成 main 日志,也即程序入口日志)。

找到日志后,在 linux 上就是用 vim 命令从日志文件里找关键词了。


二、重视系统周边


一般一个大型的应用,都不止一个服务,每一个服务都有对应的日志。例如我们的分布式数据库,底层的文件系统使用的就是 hadoop。当主程序找不着问题时,就应该去周遭最接近的服务找,比如 hadoop 的 namenode 日志 以及 datanode 日志。

步骤梳理(持续更新):


  1. 检查各个服务的运行状态,最典型的就是服务挂掉了,找到之后检查对应服务的报错日志。
  2. 检查主程序日志,关键词(例如 Exception 找异常,insert 找插入数据的 SQL)定位关键位置。
  3. 查看最接近的周遭服务的日志(我们这里就是 hadoop),也是关键词定位。
  4. 本地模拟现场环境(既然是咱们的程序,这个环境的搭建,就必须得学会的),复现出问题之后,找写程序的人。


原则:我们可以不解决问题,但一定要能定位到最接近的问题,我们做开发的可以把商务问题抛出去,我们做软件的可以把硬件问题抛出去,我们做底层的可以把上层应用的问题跑出去,我们做运维的可以把程序问题抛出去……这些都是对的,但本职要做好:定位出问题离自己最近的可能位置。

相关实践学习
日志服务之数据清洗与入湖
本教程介绍如何使用日志服务接入NGINX模拟数据,通过数据加工对数据进行清洗并归档至OSS中进行存储。
目录
相关文章
|
1天前
|
Java 关系型数据库 MySQL
Spring Boot中集成MySQL数据库的步骤和技巧
Spring Boot中集成MySQL数据库的步骤和技巧
|
1天前
|
SQL 监控 关系型数据库
关系型数据库数据恢复步骤
【7月更文挑战第1天】
11 2
|
5天前
|
Java 关系型数据库 MySQL
Spring Boot中集成MySQL数据库的步骤和技巧
Spring Boot中集成MySQL数据库的步骤和技巧
|
6天前
|
关系型数据库 MySQL 数据库
Django与MySQL:配置数据库的详细步骤
Django与MySQL:配置数据库的详细步骤
|
12天前
|
Oracle 关系型数据库 数据库
Oracle 11G数据库安装步骤及截图操作2
Oracle 11G数据库安装步骤及截图操作
17 0
|
12天前
|
Oracle 安全 关系型数据库
Oracle 11G数据库安装步骤及截图操作1
Oracle 11G数据库安装步骤及截图操作
22 0
|
14天前
|
SQL 运维 关系型数据库
MySQL数据库运维第一篇(日志与主从复制)
MySQL数据库运维第一篇(日志与主从复制)
|
28天前
|
SQL 关系型数据库 MySQL
sql数据库建表步骤
在SQL数据库中建表的步骤通常包括以下几个部分: 1. **打开SQL数据库管理工具**: 使用适当的SQL数据库管理工具,如MySQL Workbench、Microsoft SQL
|
2月前
|
运维 监控
构建高效自动化运维体系的关键步骤
【5月更文挑战第24天】 随着信息技术的不断进步,企业对于IT运维的要求越来越高。传统的手工运维方式已经不能满足快速变化的业务需求,而自动化运维逐渐成为提升效率、保障系统稳定性的重要手段。本文将探讨构建一个高效自动化运维体系所需的关键步骤,包括自动化策略制定、工具选择、流程设计、监控与优化等方面,旨在为读者提供一条清晰的自动化运维实施路径。
|
2月前
|
敏捷开发 运维 Prometheus
构建高效自动化运维体系的关键步骤
【5月更文挑战第20天】 在当今的IT管理实践中,自动化运维已经成为提高效率、降低错误率和快速响应市场变化的重要手段。本文将探讨构建一个高效自动化运维体系的五个关键步骤:基础设施即代码(Infrastructure as Code, IaC)、配置管理工具的选择与应用、持续集成与持续部署(CI/CD)流程的搭建、监控与告警系统的整合以及灾难恢复计划的制定与测试。通过这些步骤的实现,可以帮助组织实现更加灵活、可靠的运维管理,为业务连续性提供坚实的技术支撑。

热门文章

最新文章