文章
· 一月 4, 2023 阅读大约需 4 分钟

IRIS, Caché监控指导 - 系统健康检查

以下是我们应客户的要求拟定的Caché系统健康检查的建议。InterSystems的工程师们认为其中的项目足以了解客户当前的系统健康状况。

这些项目中有些,比如Buttons, pButtons报告是必须的,其他内容,尤其是问卷部分,越多回答对系统健康的了解也越清楚。InterSystems公司的技术支持中心WRC(World Response Center),在合适的条件下可以协助用户解读健康检查的结果。

在后面的内容中, 我会详细介绍这些检查的项目,比如报告的执行步骤,已经如何简单的发现问题。

检查的内容也适用于IRIS,仅仅是执行的步骤上有细微的区别,后面文章会详细说。

健康检查项目

本健康检查只用于Caché系统本身的内容, 不包括Caché上使用的各种应用。

建议用户收集下列两部分数据和资料:

系统运行数据

  • [ ] 所有Caché实例服务器的网络架构图,包含所有的数据服务器,应用服务器,镜像服务器,灾备服务器。还应该包含网段的划分, 相关的Web服务器,负载均衡设备的部署等情况。以及一切客户认为和Caché工作相关的网络配置的情况。

  • [ ] Caché数据库使用的存储设备的信息, 不限于类型,大小,品牌等等任何可以帮助了解存储设备的信息。

  • [ ] 所有数据库上一次的完整性检查报告。

  • [ ] 所有Caché实例的

    • [ ] 系统监控检查报告(Buttons)

    • [ ] 24小时系统性能报告(pButtons):

    所有关联的系统,比如一个Caché数据服务器以及和它连接的应用服务器(ECP服务器),应该在尽量相同的时间执行24小时pButton测量

    • [ ] 一年内或自上次启动后(以其中更长时间为准)的Console日志

    • [ ] 导出的日常任务(Task)

    • [ ] 导出的后台任务历史列表

    • [ ] 系统时钟同步的配置

  • [ ] 所有CSP Gateway的配置文件,以及CSP Gateway工作的Apache Web Server, Nginx Web Server,Windows IIS的配置文件。

  • [ ] 如果用户使用了外部备份,请提供外部备份的操作步骤及使用的脚本程序。

维护工作的问卷

以下问题的回答能帮助InterSystems的工程师更好的了解客户的Caché工作情况,以及更方便的分析上面采集的数据。

  • [ ] 请列出近一年内Caché的软硬件变动

  • [ ] 是否有测试环境(TestBed), 测试服务器的梳理,配置

  • [ ] 请提供Caché的日常维护的情况说明,尽可能提供以下日常维护的方案,执行频率,执行时长等等。包括但不限于:

    • [ ] 备份恢复

    • 方案,Caché在线备份还是外部备份。如果是Caché在线备份,各种备份类型的安排情况(全备份,增量备份,累计备份)

    • 执行频率,执行的时间点
    • 各种数据量情况下的执行时长,不如全备份的时长,增量备份的数据量是多少,执行时长是多少等等

    • [ ] 数据库完整性检查

    • 完整性检查的方案,频率

    • 数据库的大小及对应的完整性检查的执行时长

    • [ ] 告警通知

    • 告警通知发送的方式。(告警通知默认是Console log里严重级别为2,3的条目)

    • 告警通知的处理流程
    • 告警通知的产生:是否有客户定制的通知消息
    • Console Log中出现的严重级别为1的消息(Warning消息)是否被通知,或者是否有任何处理方式

    • [ ] 性能测量

    • 提供业务活动量在一段时间内的变动模式, 比如一周,一天中业务量的忙时,闲时,以及是否月初活着月底有大的报表生成等等

    • 详细列出各种周期性执行的和Caché性能相关的操作的时间点和时长,处了上面提到的备份恢复,数据库完整性检测等,还可以是任意的Caché操作,以及Caché所在的虚拟机,服务器的操作,还可以包括可能影响Caché性能表现的连接的第3方的业务系统监控系统,审计系统的与之有关的操作

    • 是否有常规的性能测试方案,包括Caché上的指标测量(pButtons), 以及操作系统的性能指标测量

    • 无论以何种形式,是否能提供Caché系统的性能基准。这个性能基准应该以客户的业务活动量做为采样周期,比如以周为单位

    • 上述指标是否能提供图表的展示

  • [ ] 尽可能的提供近一年中在Caché日常维护中遇到的各种故障及异常的列表。对列表中的每一项,尽量提供详细的描述和信息,包括并不限于:

    • 是否报告InterSystems, 如果报告了, WRC号码是多少

    • 发生的频率如何?

    • 如果已经有解决,解决的方案是什么?

    • 如果没有经过人工处理,那么故障恢复的时长平均是多少?

    • 维护工程师对故障产生的原因以及造成后果的分析讨论的结果,如果有。
  • [ ] 其他内容(可选)

    • Caché维护团队的工作分配, 以及相关的外部团队的职责,比如应用实施方,用户的其他IT团队,硬件维护,硬件监控团队等等。
    • 对Caché维护最期待的改进,工具的提供等
    • 其他任何有关Caché维护工作而上面各项中未涵盖的内容。
讨论 (0)1
登录或注册以继续