关于Exchange邮箱服务器角色故障排查及解决思路分享

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

    在最近一次关于Exchange服务器故障中,出现了员工无法进入邮箱的问题,最直接方法来登录OWA页面,看看正常不正常,反映出来的报错信息如下:

image

     当接到这个报障后,第一时间,当时有人问到是不是公司的CAS服务器挂了?当然还是如果对邮件服务器足够了解的话, 这个报错一定不是邮箱服务器CAS出现故障,因为如果CAS出现问题,您也到不了这个页面的,所以根据产品提供服务来判断,能打开OWA页面,说明CAS服务器是正常的,出现这个报错是在用户输入帐号和密码后出现的,那么其实不用去思考,故障点一定出现在邮箱服务器角色上,好带着这个排错思路我们来看看邮箱服务器角色吧。

     当打开EMC控制台时,所以数据库全为宕的状态,所以这也就是为什么用户在网页方式输入邮箱帐号及密码后,提示邮箱不可用的原因了,但是数据库全为宕状态的根本原因又是什么呢?根据经验有极大的可能是邮箱数据库所在的存储盘满了,OK,那么来看看,发现数据库所在磁盘可用空间为几百KB。

     现在要做的事情,就是尽快清理出空间来先恢复主体业务,可用方法有如下:

1.数据库采用了DAG,那么可以先把副本库删除,保证每个主数据库所在的磁盘有足够的空间,但是隐性的风险在于如果主数据库宕掉,又恢复不起来,那故障影响范围就更大了。

2.通过清除Log的方法释放空间,此方法还是比较稳妥的,至少能先把主、副数据库挂起来,而且不会影响业务使用。

3.开启日志循环功能,但需要卸载故障数据库,且需要时间等待。

     所以最后选择了第二种方法,清除Log,那么OK,这里我采用如下命令清理数据库log文件,GUI下也可以,但是数据量过大,很有可能会导致系统假死,而且清理起来要比较费事。

forfiles /s /m *.log /d -4 /c "cmd /c del @file /f"

上边这条命令的意思是删除4天前的日志,清理后发现空间释放出来几十个G,再来看数据库状态,已经正常挂载和同步,那么OK,此时至少在邮件量不大的情况下能恢复业务。

   好,接下来就要考虑的是如何增加存储的问题了,由于环境中是在esxi中搭建的虚拟化,方法有如下几种:   
1.直接对邮箱服务器角色存储盘扩容,但由于是生产,所以还是有一定风险,如果扩盘失败,那么会带来邮箱服务器整体真正宕机。

2.新增单独的存储盘,并且由于之前是日志与edb数据库文件位于同一个盘下,所以我们在增加新的存储盘时,要增加2块,一块用于存放edb文件,另一块用于存放log文件,也在数据库的恢复性上做了优化这样,增加新存储盘后,再新建新的数据库,将原存储盘中较大的数据库邮箱进行迁移,此项操作虽比较耗时,但是还是相对来说比较稳妥的方法。

3.增加新的邮箱服务器角色,将出问题的原存储盘中的邮箱数据库分别增加副本至新的邮箱服务器中,但是此方法虽也是比较稳妥的方法,但是从服务器增加搭建再到同步副本,仍是很慢的方法。

     所以最终在解决根本性问题时,选择了方法二,这样既能调优Exchange数据库存放结构,又保证不会出现更大的问题,唯一可能要注意的就是要时时观察原数据库存储盘,如是空间接近不足时,要用上述命令删除日志,来保证迁移的顺利,当然也通过这种方法起到了释放空白空间的作用,迁移结束后,先将原数据库卸载,观察如果邮箱无问题,就可以直接删除旧的数据库了。

    当然,存储盘是有限的,而日志文件的增长又是比较迅速的,所以尽可能在企业环境中增加备份软件对日志进行备份来减少日志增加量及完整性,如果实在没有条件搭建备份平台,那么也可以数据库新建后,开启日志循环功能,来控制日志容量的增长。

    当然,最后还想说的是运维工作本身是一件非常谨慎的事情,所以遇到事情还是应该冷静下来,先确认问题点,快速恢复业务,同时找到最稳妥的解决办法来保证从根本防止此类故障问题,这次故障其实还有一个原因就是上一代管理员在对邮件平台规划中并没有考虑到更长远的问题,数据库存储空间不做规划,导致数据库日志在增长后,无法及时清理,所以做任何平台,都应该本着规划为先,测试及评估为中,实施为后的思想,多想想当前规划是否会成为自己运维的增加了更大的风险。

    这篇文章只起到一个排错思路的分享,更多的还是然望能通过这个案例,来说明存储空间及备份在企业中的根本作用和必要性。



本文转自wangtingdong 51CTO博客,原文链接:http://blog.51cto.com/tingdongwang/1640968,如需转载请自行联系原作者

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
7月前
|
安全 网络安全 API
163邮箱IMAP服务器设置方法
```markdown 使用IMAP协议同步163邮箱:登录邮箱→设置→账户→IMAP/SMTP→开启服务→配置服务器(imap.163.com:993, SSL/TLS)→设置用户名和密码→保存并在邮件客户端添加账号。确保多设备邮件同步,定期更新设置。[≤240字符] ```
|
5月前
|
弹性计算 Linux 云计算
云服务器 ECS产品使用问题之幻兽帕鲁服务器角色存档丢失,该怎么办
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
5月前
|
弹性计算 云计算
云服务器 ECS产品使用问题之如何解决更新后进游戏要重新创建角色的问题
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
6月前
|
数据安全/隐私保护 Python
Django调用MTP服务器给指定邮箱发送邮件
Django调用MTP服务器给指定邮箱发送邮件
|
7月前
|
存储 API 虚拟化
OpenStack私有云裸机物理服务器角色规划
【4月更文挑战第23天】企业私有云通常由管理节点、控制节点、计算节点、存储节点和网络节点组成的物理服务器集群构成
|
7月前
|
运维 监控 Linux
提升系统稳定性:Linux服务器性能监控与故障排查实践深入理解与实践:持续集成在软件测试中的应用
【5月更文挑战第27天】在互联网服务日益增长的今天,保障Linux服务器的性能和稳定性对于企业运维至关重要。本文将详细探讨Linux服务器性能监控的工具选择、故障排查流程以及优化策略,旨在帮助运维人员快速定位问题并提升系统的整体运行效率。通过实际案例分析,我们将展示如何利用系统资源监控、日志分析和性能调优等手段,有效预防和解决服务器性能瓶颈。
|
7月前
|
监控 前端开发
Zabbix使用外部邮箱服务器发送邮件报警
Zabbix使用外部邮箱服务器发送邮件报警
|
7月前
|
安全 网络安全 数据安全/隐私保护
如何配置常用邮箱服务器_云·企业官网 | 常用邮箱配置邮件服务器
本文介绍了邮件服务器的作用,如接收用户留言和表单通知,并提供阿里云企业邮箱、QQ邮箱、腾讯企业邮箱、163邮箱和谷歌邮箱的配置步骤。建议根据服务器所在地选择相应邮箱服务。配置涉及开启SMTP/POP3服务、获取授权码或应用密码,并在网站后台填写邮件服务器地址、SSL设置、账号和端口等信息。
366 0
|
7月前
|
安全 网络安全 API
163邮箱imap服务器怎么填写
163邮箱imap服务器怎么填写
|
7月前
|
数据安全/隐私保护 Windows
Windows Server 2003 搭建邮件服务器实现自建邮箱域名及账户并连接外网
Windows Server 2003 搭建邮件服务器实现自建邮箱域名及账户并连接外网