最近在多家现场都遇到了备机长时间宕机导致镜像日志写满磁盘的问题。在这里我将对这个问题发生的原因、发生后的处理、和如何预防这类问题发生进行一些讨论。
问题的发生一般始于一些原因导致的主机(如,01)宕机,进而触发镜像的主备切换。切换后备机(如,02)成为主机,并无缝接管业务。由于业务不受影响,如果不注意监控环境的话,很可能现场技术人员长时间都注意不到镜像的备机(01)是宕机状态。
备机长时间宕机会导致如下问题:
1. 这种情况下如果主机(02)再次遇到问题宕机,镜像将无法发挥其高可用性,无法保持业务稳定运行。
2. 主机(02)产生的镜像日志将无法同步到备机(01)。未同步的日志将一直被保存在主机(02)上不被删除。长此以往镜像日志磁盘将被写满,同样导致主机(02)宕机。
问题发现时切记不要手动从文件夹直接删除主机(02)上的镜像日志。未同步的日志一旦手动删除,镜像将无法自动同步,需要重做主备镜像。
问题发现时如果主机(02)还未宕机,此时尝试解决备机(01)问题,启动备机(01),等待镜像自动同步即可。同步完成之后镜像日志将可以被定时任务定时清除。如果遇到较为复杂的情况,现场请第一时间联系您的软件供应商,软件供应商将协同系联软件全球响应中心一起来解决您遇到的具体问题。
为了避免以上的问题发生,现场运维需要对镜像的状态和磁盘的状态配置监控。
镜像的状态可以通过配置产品自带的对控制台日志的告警监控来实现。镜像切换是一个二级日志记录,如果配置了对二级日志的告警,在镜像切换时会收到相应的告警邮件。如果告警邮件不符合现场运维人员的使用习惯,取决于现场平时使用什么样的监控软件,也可以做相应的接口来返回镜像状态和镜像主机信息。
实例的安装盘、主库盘、日志盘、备用日志盘应分离,并分别配置磁盘占用过高告警,在磁盘占用超过预计值,但还没有占满的时候及时告警运维人员介入。
如果对监控配置有疑问,请联系您的软件供应商,软件供应商将协同系联软件售前工程师结合现场的具体情况给出监控机制的建议。