软件开发进阶技能之数据库进阶(五)

简介: 教程来源 https://zlpow.cn/ 本节详解数据库高可用核心方案:主从复制(异步/半同步原理、搭建与延迟治理)、自动故障转移(MHA/Orchestrator)及读写分离实践,并涵盖监控指标、慢查询分析与配置调优,助力系统稳定扛住高并发。

第五部分:数据库高可用与复制 —— 让系统永不掉线

单机数据库存在单点故障风险。生产环境必须配置高可用方案,常见的有主从复制、集群和分布式数据库。

5.1 主从复制(Replication)
主从复制是最基础的冗余方案:主库处理写请求,一个或多个从库异步或半同步复制主库的数据变更,从库处理读请求(读写分离)。

5.1.1 MySQL 复制原理
主库将数据变更写入二进制日志(Binary Log, binlog)。

从库的 I/O 线程连接到主库,请求 binlog 并保存到本地的中继日志(Relay Log)。

从库的 SQL 线程读取中继日志,重放 SQL 操作。

复制模式:

异步复制:主库不等待从库确认,性能好但可能丢数据(主库宕机时未发送的日志丢失)。

半同步复制:主库至少等待一个从库确认收到 binlog 才返回提交成功,降低丢失风险,但增加延迟。

全同步复制:所有从库确认后才提交,基本无数据丢失,但性能极差,极少使用。

5.1.2 搭建简单的 MySQL 主从(步骤概要)

-- 主库配置 my.cnf
[mysqld]
log-bin=mysql-bin
server-id=1
binlog-do-db=mydb

-- 创建复制账号
CREATE USER 'repl'@'%' IDENTIFIED BY 'password';
GRANT REPLICATION SLAVE ON *.* TO 'repl'@'%';

-- 从库配置
server-id=2

-- 从库执行
CHANGE MASTER TO
    MASTER_HOST='master_host',
    MASTER_USER='repl',
    MASTER_PASSWORD='password',
    MASTER_LOG_FILE='mysql-bin.000001',
    MASTER_LOG_POS=0;
START SLAVE;

5.1.3 主从延迟问题与解决
主从延迟(Seconds_Behind_Master)过大时,从库读到旧数据,影响读写分离的正确性。

延迟原因:

从库硬件较差。

主库写并发高,从库 SQL 线程单线程重放(MySQL 5.6 后支持多线程复制,需配置 slave_parallel_workers)。

大事务(如一次删除百万行)导致 binlog 生成慢且重放慢。

从库上有耗时的读查询(锁冲突)。

对策:

提升从库硬件,使用 SSD。

拆分大事务。

开启并行复制。

读写分离时,对于要求强一致性的读,强制走主库。

5.2 高可用切换与故障转移
当主库故障时,需要将一个从库提升为新主库。手动切换慢且易错,通常使用自动化工具:

MHA(MySQL Master High Availability)

Orchestrator

ProxySQL + 自动探测

现代数据库如 Galera Cluster(MySQL 多主同步集群)提供强一致性高可用,但写冲突需要处理。PostgreSQL 有 Patroni + etcd 实现自动故障转移。

5.3 读写分离架构
在应用层实现读写分离:写操作走主库,读操作走从库池(负载均衡)。需要注意:

从库延迟导致刚写入的数据读不到。可以采取“写后读主”策略(关键读走主库)。

使用中间件如 ShardingSphere-Proxy、Mycat、MaxScale 对应用透明。

第六部分:数据库监控与调优 —— 持续的战斗力

即使初期设计和索引都合理,随着数据量和访问模式变化,性能也会逐渐下降。建立监控和持续调优机制至关重要。

6.1 关键性能指标(KPI)
QPS/TPS:每秒查询数/事务数,衡量吞吐量。

慢查询数量:超过阈值的 SQL 数量,慢查询日志分析的基础。

InnoDB 缓冲池命中率:SHOW ENGINE INNODB STATUS 中 Buffer pool hit rate,低于 95% 说明内存不足或热数据太大。

锁等待与死锁:Innodb_row_lock_waits、Innodb_deadlocks。

复制延迟:Seconds_Behind_Master。

连接数使用率:接近 max_connections 时需要扩容或优化连接池。

6.2 慢查询日志与分析
开启慢查询日志(MySQL):

SET GLOBAL slow_query_log = ON;
SET GLOBAL long_query_time = 2;  -- 超过2秒记录
SET GLOBAL log_queries_not_using_indexes = ON;  -- 记录未使用索引的查询

使用 pt-query-digest(Percona Toolkit)分析慢日志,它会把相似的 SQL 聚合,按时间、锁等排序,输出最耗时的查询。

6.3 数据库配置调优
不同数据库的配置差异很大,以下是一些通用原则:
image.png
注意:修改参数前必须基准测试;在云数据库(RDS)上,许多参数是默认优化好的。

6.4 使用 Explain 进行持续审查
建立 SQL 审核机制:所有上线 SQL 必须经过 Explain 检查,避免全表扫描、无索引排序等。
来源:
https://rvtst.cn/

相关文章
|
17天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
6320 30
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
2天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
583 135
|
12天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1244 3
|
9天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1092 1
|
19天前
|
人工智能 自然语言处理 供应链
|
9天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
875 5
|
8天前
|
人工智能 自然语言处理 安全
Vibe Coding 实战:别盲目跟风,先分清 vibe coding 适合什么场景
本文系统总结vibe coding实战经验:明确其适用场景(原型、小工具、标准化模块),剖析5步落地流程(场景判定→结构化提示词→目录初始化→分模块生成→自动化校验),指出四大常见误区,并推荐适配工具Trae。强调“场景匹配+规则前置”是提效关键,避免盲目套用。
729 1