【YashanDB知识库】单机升级典型问题及应急措施

简介: 【YashanDB知识库】单机升级典型问题及应急措施

升级典型问题

官网升级操作指引 离线升级,一般线上操作之前需要照着做一遍,但是由于数据量少、monit进程在测试环境没有启动等原因,一些操作、配置问题在测试过程中不会暴露,在生成操作的时候才暴露,下面3项是比较常见的容易遗漏的:

1、monit进程没停止引起升级失败

monit进程是什么

monit进程会对yasdb/yasagent/yasom3个进程做监控,如果出现异常重新拉起(注意不止yasdb,yasagent、yasom进程也会被拉起,如下演示杀死yasom、yasagent被重新拉起)。

monit进程没有停止的后果

monit进程没有停止的后果

如果升级过程没有停止monit进程,在停止老的yasdb进程的时候会被自动拉起,升级程序识别到db在OPEN状态,中止升级。

关键日志:

处理方式

停止monit进程,重新执行yasdb升级命令。

停止方式

■ 使用yasboot(yasboot monit stop --cluster debug)

■ 使用kill -9

2、升级前没预留足够的空间做备份

为什么需要备份空间

升级前需要整库做backup,作为升级过程的终极回退手段。处理需要预留backup的空间外,升级过程还会做数据转换,还需要预留下面的空间:

离线升级中会创建一个临时目录(\${旧版本的安装目录}/upgrade_tmp/backup)作为备份目录,备份当前数据库ctrl/system/undo/redo等文件的备份(主备环境中各节点分别备份至本机),需要确保拥有足够的存储空间。

官网说明:

没有预留空间的后果

空间不足后果

升级过程,由于空间不足,数据库会变为readonly状态,导致升级中断。

案例:22.2.4.1版本升级到22.2.8.105版本由于空间不足,导致升级失败。

关键日志:

处理方式

清理空间,保证空间足够,执行rollback,rollback成功之后重新升级。

3、配置文件目录错误

哪些目录容易错

集群托管toml文件注意使用旧版本的$YASDB_HOME、$YASDB_DATA,需要特别注意:

配置错误的后果

路径配置错误后果

升级过程,会自动对monit进程做停止,但是如果路径配置错误,会使得兜底的停止动作没执行成功,进而引发上述monit进程没停止的问题。

案例:在22.2.11.100升级到22.2.14.100的时候,错误将yasdb_home目录设置为新的目录,导致自动停止monit进程失败。

关键日志

处理方式

检查升级结果,如果出现already started and status is OPEN, not nomount的错误, 执行下面步骤:

■ 确认yasdb进程没有升级, 还是老版本的

■ 停止monit进程

■ 执行yasdb升级

升级失败应急处理

根据日志快速定位根因

shell命令yasboot的命令,会通过调用yasom,再通过yasom调用各个节点yasagent(主备、集群、分布式每个节点上都有yasagent),最终转换成各个节点内部各个接口的调用。

因此,如果需要查看升级失败的日志,需要查看yasagent.log,路径是\$YASDB_HOME/om/{cluster-name}/log/yasagent.log(每天一个日志文件,如果需要查看历史日志可以根据需要查找)

在yasagent.log查找错误日志,如上述典型问题的关键日志,yasagent.log可查找到。

根据错误原因判断执行rollback

崖山DB的升级,实际是分为独立的两步:

■ 托管的升级(即yasom/yasagent)

■ 数据库的升级(即yasdb)

官网上提供的升级rollback是针对数据库升级的rollback,对升级过程中存在的数据转换使用备份的数据做回退(ctrl/redo/undo),前提是数据库升级之前的操作都没有问题。因此我们遇到失败的情况,有时候直接回退是没有用的,如上面空间不足、路径错误问题,直接rollback会有其他错误产生。

使用备份数据做restore

升级之后可能yasagent/yasom/yasdb都已经换了版本,在不能使用yasboot rollback的情况下,需要逐一做回退,使用备份数据做恢复。以下使用22.2.11.100升级到22.2.13.100(集群名称为debug)为例,展示如何回退。

停止yasom/yasagent/yasdb

修改yasboot环境变量

yasboot命令执行的时候,执行的具体路径配置是在~/.yasboot/{cluster-name}.env里配置的:

修改~/.yasboot/{cluster-name}.env,指到原来目录

使用yasboot 重启yasom/yasagent,重启yasdb到nomount状态

主要yasdb使用nomount状态启动:

使用备份文件恢复

参考命令:

相关文章
|
8月前
|
SQL 存储 关系型数据库
【YashanDB知识库】共享从 MySQL异常处理CONTINUE HANDLER的改写方法
【YashanDB知识库】共享从 MySQL异常处理CONTINUE HANDLER的改写方法
|
7月前
|
SQL 测试技术 数据库
【YashanDB知识库】IMP跨网络导入慢问题
问题现象:290M数据,本地导入2分钟,跨机导入耗时显著增加(最高30分钟)。 原因分析:`imp`逐条SQL通过网络传输至yashanDB执行,交互频繁导致性能下降。 影响版本:客户测试环境22.2.8.3。 解决方法:将导入文件上传至与yashanDB同机后使用`imp`,减少网络延迟。 经验总结:优化`imp`工具,支持直接上传文件至服务器端执行,降低网络依赖。
|
7月前
|
监控 数据库
【YashanDB 知识库】ycm 托管数据库时报错 OM host ip:127.0.0.1 is not support join to YCM
在托管数据库时,若 OM 的 IP 被设置为 127.0.0.1,将导致无法托管至 YCM,并使数据库失去监控。此问题源于安装时修改了 OM 的监听 IP。解决方法包括:将 OM 的 IP 修改为本机实际 IP 或 0.0.0.0,同时更新 env 文件及 yasom 后台数据库中的相关配置。经验总结指出,应避免非必要的后台 IP 修改,且数据库安装需遵循规范,不使用仅限本机访问的 IP(如 127.0.0.1)。
|
7月前
|
监控 网络安全 数据库
YashanDB 知识库:ycm 纳管主机安装 YCM-AGENT 时报错 “任务提交失败,无法连接主机”
在安装 ycm-agent 纳管主机时,可能出现因端口未开放导致的报错问题。此问题会阻止 YCM 对主机和数据库的监控功能,影响版本为 `yashandb-cloud-manager-23.2.1.100-linux-aarch64.tar`。原因是目标主机(如 10.149.223.121)未开放 9070 或 9071 端口。解决方法包括关闭防火墙、添加白名单或开放指定端口,需与管理员确认操作。处理过程涉及网络检查、端口测试等步骤。端口问题解决后,若再次安装报唯一键错误,需先移除失败主机再重试。
|
7月前
|
监控 Java Shell
【YashanDB 知识库】ycm 托管数据库时,数据库非 OM 安装无法托管
本文主要介绍了因数据库未按规范使用 yasboot 安装导致的问题及解决方法。问题表现为无 yasom 和 yasagent 进程,且目录结构缺失,致使 ycm 无法托管与监控。分析发现可能是数据库版本旧或安装不规范引起。解决方法为先生成配置文件,安装 yasom 和 yasagent,再生成并修改托管配置模板,最终通过命令完成托管至 yasom 和 ycm。总结强调了按规范安装数据库的重要性以避免类似问题。
|
8月前
|
SQL 关系型数据库 MySQL
【YashanDB知识库】MySQL field 函数的改写方法
【YashanDB知识库】MySQL field 函数的改写方法
|
8月前
|
数据库
【YashanDB知识库】服务器重启后启动yasom和yasagent进程时有告警
【YashanDB知识库】服务器重启后启动yasom和yasagent进程时有告警
|
8月前
|
SQL Oracle 关系型数据库
【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法
【YashanDB知识库】共享利用Python脚本解决Oracle的SQL脚本@@用法
|
8月前
|
数据库
【YashanDB知识库】服务器重启后启动yasom和yasagent进程时有告警
本文介绍了YashanDB在特定场景下的问题分析与解决方法。当使用yasboot重启数据库后,yasom和yasagent进程虽启动成功但出现告警,原因是缺少libnsl.so.1库文件或环境变量配置错误。解决步骤包括:检查系统中是否存在该库文件,若不存在则根据操作系统类型安装(有外网时通过yum或apt,无外网时创建符号链接),若存在则调整环境变量配置,并重新启动相关进程验证问题是否解决。
|
8月前
|
存储 关系型数据库 MySQL
【YashanDB知识库】共享从 MySQL异常处理CONTINUE HANDLER的改写方法
本文介绍了MySQL中`CONTINUE HANDLER FOR NOT FOUND`的用法及其在YashanDB中的改写方法。通过一个示例存储过程,展示了如何使用游标和异常处理机制来应对“未找到数据”的情况。在MySQL中,`CONTINUE HANDLER`用于捕获此类异常;而在YashanDB中,则需改用游标的`%NOTFOUND`属性和`NO_DATA_FOUND`异常处理。文章对比了两者的执行效果,帮助用户顺利完成从MySQL到YashanDB的业务迁移。