到现场后,先了解当前的情况:一个父域是abc.local;两个子域分别是it.abc.local和hr.abc.local。每个域中有二台DC。此次出现问题的是it.abc.local域,此域中的两个DC名分别是dc01.it.abc.local和dc02.it.abc.local。另有两台成员服务器server1.it.abc.local和server2.it.abc.local安装有故障转移群集,上面配置有客户应用。
症状是:1个小时前,群集应用出现故障,无法切换,处于失败状态。管理员登录到DC上进行排查,发现DC01输入正确的用户名密码无法登录,怀疑是AD数据库出现故障。
也就是说这里看到的是两个故障:群集上的应用故障和域的用户登录故障。经过分析,判断群集上的应用故障应该是由于域故障而起的,所以还是决定先解决域的用户登录故障。
DC01你怎么了?
关于DC02上域管理员账户无法登录的问题,开始怀疑是DC01这台机器上的数据库有问题,解决就是想重新启动验证一下,如果不行就进行AD的恢复还原,实在不行,还有DC02在,可以将DC01降级再升为DC,但这是下下策。
确认思路之后,开始按Power,强制关机。重新启动后,管理员竟然成功登录进去了,太诡异了。但随后打开DC02上的AD用户和计算机时发现如下图所示的故障:
在DC01上也无法打开AD用户和计算机管理界面,此时判断应该是DNS的问题,两台DC重新启动DNS服务后,故障依旧。 此时采用下面的方法解决:
1.将两台机器上的c:\windows\system32\config文件夹中的netlogon.dnb和netlogon.dns分别改名,如下图所示:
在此,我们将二个文件加上bak后缀,然后重新启动DNS服务。如下图所示:
重新启动后,会再次生成新的netlogon.dnb以及netlogon.dns文件,如下图所示:
此时,再打开两台DC的AD用户和计算机就可以很顺利的查看相关对象了。两台DC也可以正常的复制数据。群集上的应用也恢复正常了,似乎一切都平静了。但故事还没有结束。