开发者社区> 科技小先锋> 正文

关于Exchange邮箱服务器角色故障排查及解决思路分享

简介:
+关注继续查看

    在最近一次关于Exchange服务器故障中,出现了员工无法进入邮箱的问题,最直接方法来登录OWA页面,看看正常不正常,反映出来的报错信息如下:

image

     当接到这个报障后,第一时间,当时有人问到是不是公司的CAS服务器挂了?当然还是如果对邮件服务器足够了解的话, 这个报错一定不是邮箱服务器CAS出现故障,因为如果CAS出现问题,您也到不了这个页面的,所以根据产品提供服务来判断,能打开OWA页面,说明CAS服务器是正常的,出现这个报错是在用户输入帐号和密码后出现的,那么其实不用去思考,故障点一定出现在邮箱服务器角色上,好带着这个排错思路我们来看看邮箱服务器角色吧。

     当打开EMC控制台时,所以数据库全为宕的状态,所以这也就是为什么用户在网页方式输入邮箱帐号及密码后,提示邮箱不可用的原因了,但是数据库全为宕状态的根本原因又是什么呢?根据经验有极大的可能是邮箱数据库所在的存储盘满了,OK,那么来看看,发现数据库所在磁盘可用空间为几百KB。

     现在要做的事情,就是尽快清理出空间来先恢复主体业务,可用方法有如下:

1.数据库采用了DAG,那么可以先把副本库删除,保证每个主数据库所在的磁盘有足够的空间,但是隐性的风险在于如果主数据库宕掉,又恢复不起来,那故障影响范围就更大了。

2.通过清除Log的方法释放空间,此方法还是比较稳妥的,至少能先把主、副数据库挂起来,而且不会影响业务使用。

3.开启日志循环功能,但需要卸载故障数据库,且需要时间等待。

     所以最后选择了第二种方法,清除Log,那么OK,这里我采用如下命令清理数据库log文件,GUI下也可以,但是数据量过大,很有可能会导致系统假死,而且清理起来要比较费事。

forfiles /s /m *.log /d -4 /c "cmd /c del @file /f"

上边这条命令的意思是删除4天前的日志,清理后发现空间释放出来几十个G,再来看数据库状态,已经正常挂载和同步,那么OK,此时至少在邮件量不大的情况下能恢复业务。

   好,接下来就要考虑的是如何增加存储的问题了,由于环境中是在esxi中搭建的虚拟化,方法有如下几种:   
1.直接对邮箱服务器角色存储盘扩容,但由于是生产,所以还是有一定风险,如果扩盘失败,那么会带来邮箱服务器整体真正宕机。

2.新增单独的存储盘,并且由于之前是日志与edb数据库文件位于同一个盘下,所以我们在增加新的存储盘时,要增加2块,一块用于存放edb文件,另一块用于存放log文件,也在数据库的恢复性上做了优化这样,增加新存储盘后,再新建新的数据库,将原存储盘中较大的数据库邮箱进行迁移,此项操作虽比较耗时,但是还是相对来说比较稳妥的方法。

3.增加新的邮箱服务器角色,将出问题的原存储盘中的邮箱数据库分别增加副本至新的邮箱服务器中,但是此方法虽也是比较稳妥的方法,但是从服务器增加搭建再到同步副本,仍是很慢的方法。

     所以最终在解决根本性问题时,选择了方法二,这样既能调优Exchange数据库存放结构,又保证不会出现更大的问题,唯一可能要注意的就是要时时观察原数据库存储盘,如是空间接近不足时,要用上述命令删除日志,来保证迁移的顺利,当然也通过这种方法起到了释放空白空间的作用,迁移结束后,先将原数据库卸载,观察如果邮箱无问题,就可以直接删除旧的数据库了。

    当然,存储盘是有限的,而日志文件的增长又是比较迅速的,所以尽可能在企业环境中增加备份软件对日志进行备份来减少日志增加量及完整性,如果实在没有条件搭建备份平台,那么也可以数据库新建后,开启日志循环功能,来控制日志容量的增长。

    当然,最后还想说的是运维工作本身是一件非常谨慎的事情,所以遇到事情还是应该冷静下来,先确认问题点,快速恢复业务,同时找到最稳妥的解决办法来保证从根本防止此类故障问题,这次故障其实还有一个原因就是上一代管理员在对邮件平台规划中并没有考虑到更长远的问题,数据库存储空间不做规划,导致数据库日志在增长后,无法及时清理,所以做任何平台,都应该本着规划为先,测试及评估为中,实施为后的思想,多想想当前规划是否会成为自己运维的增加了更大的风险。

    这篇文章只起到一个排错思路的分享,更多的还是然望能通过这个案例,来说明存储空间及备份在企业中的根本作用和必要性。



本文转自wangtingdong 51CTO博客,原文链接:http://blog.51cto.com/tingdongwang/1640968,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云合作伙伴峰会SaaS加速器专场 | 企业服务定制市场的探索与分享
数迹网络创始人刘晓晓以传统企业海纳威为例,介绍了阿里云快速孵化的场景SAAS,两分钟解决派工效率问题的实例。
2027 0
ECS服务器CPU使用率异常100%问题排查
服务器会莫名其妙的出现CPU使用率100%,且top、htop等一些命令,无法查询到消耗CPU的进程,陷入排查困境怎么办?
14575 0
Docker常见故障排查指南 - 阿里云容器服务
对于Docker的初学者而言,当容器或应用出现了问题不知从何入手进行排查。为此,我们准备了一个简单指南来帮助阿里云容器服务的用户进行故障排查。
50724 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
29764 0
故障排查:是什么 导致了服务器端口telnet失败?(转)
telnet命令的主要作用是与目标端口进行TCP连接(即完成TCP三次握手)。当服务端启动后,但是telnet其监听的端口,却失败了。或者,当服务端运行了一段时间后,突然其监听的端口telnet不通了。
1018 0
技术分享:如何在阿里云服务器上部署网站
在云服务器上部署网站前,首先必须确保您有云服务器的管理权限,或者是云服务器的空间和接口程序。拥有云服务器的空间和接口程序,在云服务器上实现网站应用的步骤如下
11288 0
6965
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载