点击界面上方的 告警状态 菜单,可以将页面切换到 告警状态 页。告警状态 页面分别为 实时告警 页面以及 已恢复告警 页面。
实时告警
实时告警统计信息 页面展示了当前正在告警的信息总数,对应的告警级别为 严重、警告 和 信息 的数目,以及不同类型的告警信息。
- 严重:当告警信息展示为 严重 时,意味着集群中某些服务不可用并且影响了集群业务的正常运转,甚至服务中断。
- 警告:当告警信息展示为 警告 时,意味着当前问题不影响集群业务,但出现了错误。
- 信息:当告警信息展示为 信息 时,意味着该告警影响最低,不影响用户正常使用,仅起到提示用户作用。比如当您的固态硬盘出现坏块情况时,会出现级别为 信息 的告警提示,出现坏块并不影响固态硬盘的正常使用。
在 实时告警统计信息 页面下方中您可以查看到 实时告警 列表。该区域将分别显示告警的信息详情。当页面告警信息过多时,您可以通过界面中的筛选条件:级别、类型 或者在搜索框中进行关键字搜索。
- 级别包括 严重、警告 以及 信息。
- 类型包括 服务、主机、日志 以及 存储。
实时告警:展示了当前集群中检测到的所有正在告警或者是正在处理状态的告警信息,当告警处于 正在告警 状态时,选中该告警信息,点击 开始处理,跳出 开始处理 弹窗后,设置处理时间,处理时间可选择30分钟、1个小时以及12个小时。当告警处于 处理 状态时,告警将不会自动发送告警邮件。如果在设置的处理时间过后告警问题仍未被成功解决时,告警将自动恢复成 正在告警 的状态。如果处理完成,系统会自动检测告警状态,判断告警是否已被修复。
已恢复告警
已恢复告警统计信息 页面展示了已恢复的告警信息总数,对应的告警级别为 严重、警告 和 信息 的数据,以及不同类型的告警信息。
在 已恢复告警统计信息 页面下方中您可以查看到 已恢复告警 列表。该区域将分别显示告警的信息详情。当页面告警信息过多时,您可以通过界面中的筛选条件:级别、类型 或者在搜索框中进行关键字搜索。
已恢复告警:您可以在该页面清晰看到所有告警信息的状态已变为 已恢复。在该列表页,您可以查看集群最近7天已恢复的告警信息。如果需要查询特定的恢复告警信息,可以通过列表上方的过滤条件进行筛选。
当集群中的某个服务触发了告警指标,您可以在 告警状态 页查看到告警内容,同时该服务状态也将会显示为多种对应的状态,如 无数据、停止、警告 等。例如:当您收到一条告警信息为消息队列停止服务时,告警级别为 严重。此时,您通过切换页面到 控制服务状态 页面,可以查看到该服务状态为 停止。
注:部分存储服务状态为警告或严重时,系统会将详细的告警信息展现出来,您可以根据告警信息采取对应的处理措施。
对于告警信息,您可以通过查阅以下 系统监控告警规则与处理方法 来获取云平台运行过程中出现各类问题的解决方案。
系统监控告警规则与处理方法
系统会对平台的运行状态进行监控,并会根据系统推荐阈值配置在服务出现运行异常时进行告警。您可以通过告警状态看板查看告警信息,也可以通过自动化中心中的告警邮件配置收到对应的告警邮件。根据告警信息,您可以根据告警标题与内容通过下表查看系统阈值的告警规则及相应的处理方法。
控制服务运行状态监控与告警规则
告警标题 | 告警内容 | 级别 | 阈值说明 | 处理办法 |
---|---|---|---|---|
节点控制API服务停止服务 | 节点 node-x:IP 控制API服务停止服务。 | 严重 | 节点 node-x:IP 控制API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群控制API服务响应延迟过高 | 集群控制API服务请求的响应延迟时间大于10秒。 | 警告 | 集群控制API服务响应延迟时间大于10秒,持续10分钟告警 | 请降低您的云主机业务负载 |
节点控制调度服务停止服务 | 节点 node-x:IP 控制调度服务停止服务。 | 严重 | 节点 node-x:IP 控制调度服务停止服务,持续5分钟告警 | 等待系统自愈 |
节点控制管理服务停止服务 | 节点 node-x:IP 控制管理服务停止服务。 | 严重 | 节点 node-x:IP 控制管理服务停止服务,持续5分钟告警 | 等待系统自愈 |
微服务节点离线 | 微服务节点 node-x:IP 离线超过10分钟。 | 严重 | 控制服务节点 node-x:IP 离线超过10分钟。 | 请您检查物理节点是否在线或查看如何更换节点 |
微服务节点离线数过多 | x个微服务节点离线超过10分钟。 | 严重 | 多个微服务节点离线超过10分钟告警。 | 当前云平台控制服务无法正常工作,请联系您的软件服务提供商进行问题排查 |
节点微服务管理服务停止 | 节点 node-x:IP 微服务管理服务停止。 | 严重 | 节点 node-x:IP 微服务管理服务停止,持续10分钟告警 | 等待系统自愈 |
多个节点微服务管理服务停止 | x个节点微服务管理服务停止。 | 严重 | 多个节点微服务管理服务停止,持续10分钟告警 | 当前云平台微服务管理服务无法正常工作,请联系您的软件服务提供商进行问题排查 |
节点微服务子服务连续重启 | 节点微服务子服务连续重启。 | 警告 | 节点微服务子服务连续重启,持续30分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点微服务子服务状态未就绪 | 节点 node-x:IP 微服务子服务状态未就绪。 | 警告 | 节点 node-x:IP 微服务子服务状态未就绪,持续30分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点SDN分布式控制器服务停止服务 | 节点 node-x:IP SDN分布式控制器服务停止服务。 | 警告 | 节点 node-x:IP SDN分布式控制器服务停止服务,持续5分钟告警。 | 等待系统自愈 |
集群SDN分布式控制器服务停止服务 | 集群SDN分布式控制器服务停止服务。 | 严重 | 集群SDN分布式控制器服务停止服务,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点SDN分布式控制器网关服务停止服务 | 节点 node-x:IP SDN分布式控制器网关服务停止服务。 | 警告 | 节点 node-x:IP SDN分布式控制器网关服务停止服务,持续5分钟告警。 | 等待系统自愈 |
集群SDN分布式控制器网关服务停止服务 | 集群SDN分布式控制器网关服务停止服务。 | 严重 | 集群SDN分布式控制器网关服务停止服务,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点SDN元数据服务停止服务 | 节点 node-x:IP SDN元数据服务停止服务。 | 警告 | 节点 node-x:IP SDN元数据服务停止服务,持续5分钟告警。 | 等待系统自愈 |
集群SDN元数据服务停止服务 | 集群SDN元数据服务停止服务。 | 严重 | 集群SDN元数据服务停止服务,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
主机运行状态监控与告警规则
告警标题 | 告警内容 | 级别 | 阈值说明 | 处理办法 |
---|---|---|---|---|
节点无法联通 | 节点 node-x:IP 无法联通。 | 严重 | 节点 node-x:IP 无法联通,持续5分钟告警 | 查看如何更换节点 |
节点内存使用率大于70% | 节点node-x:IP内存使用率大于70%,其中云主机内存使用率为xx%。 | 警告 | 节点node-x:IP内存使用率大于70%且小于90%,持续5分钟告警。 | 请降低您的云主机业务负载、迁移云主机到其他节点,或计划扩容云环境,具体方法如下: |
节点内存使用率大于90% | 节点node-x:IP内存使用率大于90%,其中云主机内存使用率为xx%。 | 严重 | 节点node-x:IP内存使用率大于90%,持续5分钟告警 | 云环境负载过高,请降低您的云主机业务负载、迁移云主机到其他节点,或进行云环境扩容,具体方法如下: |
节点CPU使用率大于70% | 节点node-x:IP CPU使用率大于70%,其中云主机CPU使用率为xx%。 | 警告 | 节点node-x:IP CPU使用率大于70%且小于90%,持续5分钟告警。 | 请降低您的云主机业务负载、迁移云主机到其他节点,或计划扩容云环境,具体方法如下: |
节点CPU使用率大于90% | 节点node-x:IP CPU使用率大于90%,其中云主机CPU使用率为xx%。 | 严重 | 节点 node-x:IP CPU使用率大于90%,持续5分钟告警 | 云环境负载过高,请降低您的云主机业务负载、迁移云主机到其他节点,或进行云环境扩容,具体方法如下: |
节点处于阻塞状态的进程过多 | 节点 node-x:IP 有超过50个进程处于阻塞状态,当前为xx个。 | 警告 | 节点 node-x:IP 有超过50个进程处于阻塞状态,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点处于可运行状态的线程过多 | 节点node-x:IP有超过200个线程处于可运行状态,当前为xxx个。 | 警告 | 节点node-x:IP有超过200个线程处于可运行状态,持续5分钟告警 | 云环境负载过高,请降低您的云主机业务负载、迁移云主机到其他节点,或进行云环境扩容,具体方法如下: |
节点CPU负载过高 | 节点 node-x:IP CPU负载大于5,当前为x。 | 警告 | 节点 node-x:IP CPU负载大于5,持续5分钟告警 | 云环境负载过高,请降低您的云主机业务负载、迁移云主机到其他节点,或进行云环境扩容 |
节点可用内存不足 | 节点 node-x:IP 可用内存小于10%,当前为xx%。 | 严重 | 节点 node-x:IP 可用内存小于10%,持续5分钟告警 | 云环境负载过高,请降低您的云主机业务负载、迁移云主机到其他节点,或进行云环境扩容 |
节点根文件系统空间使用率大于70% | 节点 node-x:IP 根文件系统空间使用率大于70%,当前为xx%。 | 警告 | 节点 node-x:IP 根文件系统空间使用率大于70%且小于90%,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点根文件系统空间使用率大于90% | 节点 node-x:IP 根文件系统空间使用率大于90%,当前为xx%。 | 严重 | 节点 node-x:IP 根文件系统空间使用率大于90%,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点容器物理卷分区使用率大于90% | 节点 node-x:IP 容器物理卷分区使用率大于90%,当前为xx%。 | 严重 | 节点 node-x:IP 容器物理卷分区使用率大于90%,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点固态硬盘寿命告警 | 节点 node-x:IP 固态硬盘xxxxxx寿命已消耗90%,当前为xx%。 | 严重 | 节点 node-x:IP 固态硬盘 xxxxxx 寿命已消耗90%,持续5分钟告警 | 请您更换固态硬盘 |
节点系统硬盘故障告警 | 节点 node-x:IP 硬盘 xxxxxx 健康状态异常, 异常原因是:xxx | 严重 | 节点 node-x:IP 硬盘 xxxxxx 健康状态异常,持续5分钟告警 | 请您更换系统硬盘 |
节点缓存硬盘故障告警 | 节点 node-x:IP 硬盘 xxxxxx 健康状态异常, 异常原因是:xxx | 严重 | 节点 node-x:IP 硬盘 xxxxxx 健康状态异常,持续5分钟告警 | 请您更换缓存硬盘 |
节点数据硬盘故障告警 | 节点 node-x:IP 硬盘 xxxxxx 健康状态异常, 异常原因是:xxx | 严重 | 节点 node-x:IP 硬盘 xxxxxx 健康状态异常,持续5分钟告警 | 请您更换数据硬盘 |
节点硬盘出现损坏扇区 | 节点 node-x:IP 硬盘 xxxxxx 出现损坏扇区。 | 信息 | 节点 node-x:IP 硬盘 xxxxxx 出现损坏扇区,持续5分钟告警 | 请您更换数据硬盘或系统硬盘 |
节点硬盘IO负载大于90% | 节点node-x:IP硬盘xxxxxx IO负载大于90%,当前为xx%。 | 严重 | 节点node-x:IP硬盘xxxxxx IO负载大于90%,持续5分钟告警。 | 请您更换数据硬盘或系统硬盘 |
节点数据硬盘出现慢盘故障 | 节点node-x:IP数据硬盘xxxxxx出现慢盘故障,当前IO负载为xx%。 | 严重 | 节点node-x:IP数据硬盘xxxxxx出现慢盘故障,立即告警。 | 请您更换数据硬盘,具体方法如下: |
节点缓存盘离线 | 节点 node-x:IP 缓存盘 xxxxxx 离线。 | 严重 | 节点 node-x:IP 缓存盘 xxxxxx 离线,立即告警。 | 请您检查缓存盘硬盘状态并进行硬盘更换,具体方法如下: |
节点数据盘离线 | 节点 node-x:IP 数据硬盘 xxxxxx 离线。 | 严重 | 节点 node-x:IP 数据硬盘 xxxxxx 离线,立即告警。 | 请您检查数据硬盘状态并进行硬盘更换 |
节点高性能缓存盘离线 | 节点 node-x:IP 高性能缓存盘 xxxxxx 离线。 | 严重 | 节点 node-x:IP 高性能缓存盘 xxxxxx 离线,立即告警。 | 请您检查高性能缓存盘硬盘状态并进行硬盘更换,具体方法如下: |
节点网卡状态变为DOWN | 节点 node-x:IP 网卡xxxxx 状态变为Down。 | 严重 | 节点node-x:IP网卡xxxxxx 运行状态 Down,立即告警。 | 检查网线与网卡运行状态 |
节点网卡链路中断 | 节点node-x:IP 网卡 xxxxx 链路中断。 | 严重 | 节点 node-x:IP 网卡 xxxxx 链路中断,立即告警。 | 检查网线与网卡运行状态 |
节点网卡发生 ECC Err 错误 | 节点 node-x:IP 网卡 xxxx 发生 ECC Err 错误;如果该网卡联通的是存储网络,则可能会导致云硬盘IO阻塞。 | 警告 | 节点 node-x:IP 网卡 xxxx 发生 ECC Err 错误;如果该网卡联通的是存储网络,则可能会导致云硬盘IO阻塞,立即报警。 | 请联系您的软件服务提供商,进行问题排查 |
节点网卡接收数据包错误数量过多 | 节点 node-x:IP 网卡 xxxxxx 5分钟累计接收数据包错误超过100个,当前为xxx个。 | 警告 | 节点 node-x:IP 网卡 xxxxxx 5分钟累计接收数据包错误超过100个,持续5分钟告警 | 检查网线与网卡运行状态 |
节点网卡发送数据包错误数量过多 | 节点 node-x:IP 网卡 xxxxxx 5分钟累计发送数据包错误超过100个,当前为xxx个。 | 警告 | 节点 node-x:IP 网卡 xxxxxx 5分钟累计发送数据包错误超过100个,持续5分钟告警 | 检查网线与网卡运行状态 |
节点网卡工作速率低于1000Mbps | 节点 node-x:IP 网卡 xxxxxx 工作速率低于1000Mbps,当前为xxxMbps。 | 严重 | 节点 node-x:IP 网卡 xxxxxx 工作速率低于1000Mbps,持续5分钟告警。 | 检查网线与网卡运行状态 |
节点系统时间未同步 | 节点node-x:IP系统时间未与NTP服务器同步。 | 严重 | 节点node-x:IP系统时间未与NTP服务器同步,持续20分钟告警。 | 等待系统自愈,如果问题一直存在,请联系您的软件服务提供商进行问题排查。 |
节点系统盘Raid组降级 | 节点系统盘Raid组降级 | 严重 | 节点node-x:IP系统盘Raid组降级,持续5分钟告警。 | 请参考用户手册要求进行系统盘更换。具体方法如下: |
节点缓存盘Raid组降级 | 节点node-x:IP缓存盘Raid组降级。 | 严重 | 节点node-x:IP缓存盘Raid组降级,持续5分钟告警。 | 请参考用户手册要求进行缓存盘更换。具体方法如下: |
节点高性能缓存盘Raid组降级 | 节点node-x:IP高性能缓存盘Raid组降级。 | 严重 | 节点node-x:IP高性能缓存盘Raid组降级,持续5分钟告警。 | 请参考用户手册要求进行高性能缓存盘更换。具体方法如下: |
节点出现多路径链路残留 | 节点node-x:IP连接商业存储时出现多路径链路残留。 | 严重 | 节点node-x:IP连接商业存储时出现多路径链路残留,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
网络节点南向进流量占用带宽超过70% | 网络节点node-x:IP南向进流量占用带宽超过70%。 | 严重 | 网络节点node-x:IP南向进流量占用带宽超过70%,持续5分钟告警。 | 等待系统自愈 |
网络节点南向进流量占用带宽超过90% | 网络节点node-x:IP南向进流量占用带宽超过90%。 | 严重 | 网络节点node-x:IP南向进流量占用带宽超过90%,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查。 |
网络节点南向出流量占用带宽超过70% | 网络节点node-x:IP南向出流量占用带宽超过70%。 | 严重 | 网络节点node-x:IP南向出流量占用带宽超过70%,持续5分钟告警。 | 等待系统自愈 |
网络节点南向出流量占用带宽超过90% | 网络节点node-x:IP南向出流量占用带宽超过90%。 | 严重 | 网络节点node-x:IP南向出流量占用带宽超过90%,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查。 |
网络节点北向进流量占用带宽超过70% | 网络节点node-x:IP北向进流量占用带宽超过70%。 | 警告 | 网络节点node-x:IP北向进流量占用带宽超过70%,持续5分钟告警。 | 等待系统自愈 |
网络节点北向进流量占用带宽超过90% | 网络节点node-x:IP北向进流量占用带宽超过90%。 | 严重 | 网络节点node-x:IP北向进流量占用带宽超过90%,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查。 |
网络节点北向出流量占用带宽超过70% | 网络节点node-x:IP北向出流量占用带宽超过70%。 | 警告 | 网络节点node-x:IP北向出流量占用带宽超过70%,持续5分钟告警。 | 等待系统自愈 |
网络节点北向出流量占用带宽超过90% | 网络节点node-x:IP北向出流量占用带宽超过90%。 | 严重 | 网络节点node-x:IP北向出流量占用带宽超过90%,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查。 |
节点中断处理进程对应的CPU占用率超过60% | 网络节点node-x:IP中断处理进程xxxx的CPU占用率超过60%。 | 警告 | 网络节点node-x:IP中断处理进程xxxx的CPU占用率超过60%,持续5分钟告警。 | 等待系统自愈 |
节点中断处理进程对应的CPU占用率超过80% | 网络节点node-x:IP中断处理进程xxxx的CPU占用率超过80%。 | 严重 | 网络节点node-x:IP中断处理进程xxxx的CPU占用率超过80%,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点SDN控制器进程CPU占用率超过100% | 网络节点node-x:IP SDN控制器进程CPU占用率超过100%。 | 严重 | 网络节点node-x:IP SDN控制器进程CPU占用率超过100%,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点虚拟交换机进程CPU占用率超过100% | 网络节点node-x:IP虚拟交换机进程CPU占用率超过100%。 | 严重 | 网络节点node-x:IP虚拟交换机进程CPU占用率超过100%,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点虚拟交换机数据库进程CPU占用率超过100% | 网络节点node-x:IP虚拟交换机数据库进程CPU占用率超过100%。 | 严重 | 网络节点node-x:IP虚拟交换机数据库进程CPU占用率超过100%,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
网络节点与其他节点的隧道连通故障 | 网络节点node-x:IP与xxxx的隧道xxxx连通故障。 | 严重 | 网络节点node-x:IP与xxxx的隧道xxxx连通故障,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
网络节点与外部网关不通 | 网络节点node-x:IP与外部网关xxxx不通。 | 严重 | 网络节点node-x:IP与外部网关xxxx不通,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
存储服务运行状态监控与告警规则
告警标题 | 告警内容 | 级别 | 阈值说明 | 处理办法 |
---|---|---|---|---|
节点OSD停止服务 | 节点 node-x:IP OSD.N 停止服务。 | 严重 | 节点 node-x:IP OSD.N 停止服务,持续2分钟告警 | 请您检查数据盘或缓存盘状态并进行硬盘更换,具体方法如下: |
节点存储控制服务停止服务 | 节点 node-x:IP 存储控制服务停止服务 | 严重 | 节点 node-x:IP 存储控制服务停止服务,持续2分钟告警 | 等待系统自愈 |
存储池使用率大于70% | 存储池xxxx使用率大于70%,当前为xx%。 | 警告 | 存储池xxxx使用率大于70%且小于90%,持续2分钟告警 | 请您进行云环境扩容 |
存储池使用率大于90% | 存储池xxxx使用率大于90%,当前为xx%。 | 严重 | 存储池xxxx使用率大于90%,持续2分钟告警 | 请您进行云环境扩容 |
节点OSD使用率大于70% | 节点 node-x:IP OSD.N使用率大于70%,当前为xx%。 | 警告 | 节点 node-x:IP OSD.N 使用率大于70%且小于90%,持续2分钟告警 | 请您进行云环境扩容 |
节点OSD使用率大于90% | 节点 node-x:IP OSD.N使用率大于90%,当前为xx%。 | 严重 | 节点 node-x:IP OSD.N 使用率大于90%,持续2分钟告警 | 请您进行云环境扩容 |
存储集群物理容量使用率大于70% | 存储集群物理容量使用率大于70%,当前为xx%。 | 警告 | 存储集群物理容量使用率大于70%且小于90%,持续2分钟告警 | 请您进行云环境扩容 |
存储集群物理容量使用率大于90% | 存储集群物理容量使用率大于90%,当前为xx%。 | 严重 | 存储集群物理容量使用率大于90%,持续2分钟告警 | 请您进行云环境扩容 |
存储集群健康性异常,处于警告状态 | 存储集群健康性异常,处于警告状态,原因:xxxxxxxx。 | 严重 | 存储集群健康性异常,处于警告状态,立即告警 | 等待系统自愈 |
存储集群健康性异常,处于错误状态 | 存储集群健康性异常,处于错误状态,原因:xxxxxxxx。 | 严重 | 存储集群健康性异常,处于错误状态,立即告警 | 当前云平台控制服务无法正常工作,请联系您的软件服务提供商进行问题排查 |
存储集群可用容量使用率大于70% | 存储集群可用容量使用率大于70%,当前为xx%。 | 警告 | 存储集群可用容量使用率大于70%且小于90%,持续2分钟告警 | 请您进行云环境扩容 |
存储集群可用容量使用率大于90% | 存储集群可用容量使用率大于90%,当前为xx%。 | 严重 | 存储集群可用容量使用率大于90%,持续2分钟告警 | 请您进行云环境扩容 |
节点服务存储空间使用率大于70% | 节点node-x:IP服务存储空间xxxxxx使用率大于70%,当前为xx%。 | 警告 | 节点node-x:IP服务存储空间xxxxxx使用率大于70%且小于90%,持续2分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点服务存储空间使用率大于90% | 节点node-x:IP服务存储空间xxxxxx使用率大于90%,当前为xx%。 | 严重 | 节点node-x:IP服务存储xxxxxx使用率大于90%,持续2分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点volume处于read-only状态 | 节点node-x:IP volume: xxxxx处于read-only状态。 | 严重 | 节点node-x:IP volume: xxxx处于read-only状态,持续10分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
高性能缓存状态异常 | 高性能缓存状态异常。 | 严重 | 高性能缓存状态异常,持续5分钟告警 | 等待系统自愈 |
高性能缓存数据降级 | 高性能缓存数据降级,异常节点(node-N)。 | 严重 | 高性能缓存数据降级,异常节点(node-N),持续5分钟告警。 | 等待系统自愈 |
其它状态监控与告警规则
告警标题 | 告警内容 | 级别 | 阈值说明 | 处理办法 |
---|---|---|---|---|
数据库服务停止服务 | 数据库服务停止服务。 | 严重 | 数据库服务停止服务,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
数据库节点失效 | 数据库节点失效。 | 警告 | 据库节点失效,持续5分钟告警 | 等待系统自愈 |
数据库服务降级 | 数据库服务降级,当前工作的副本数x小于设定的副本数。 | 严重 | 数据库服务降级,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点消息队列停止服务 | 节点 node-x:IP 消息队列节点rabbitmq-x停止服务。 | 警告 | 节点 node-x:IP 消息队列节点rabbitmq-x停止服务,持续5分钟告警 | 等待系统自愈 |
集群消息队列服务停止服务 | 集群消息队列服务停止服务。 | 严重 | 集群消息队列服务停止服务,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点消息队列发生网络分区故障 | 节点 node-x:IP 消息队列节点rabbitmq-x发生网络分区故障。 | 警告 | 节点 node-x:IP 消息队列节点rabbitmq-x发生网络分区故障,持续5分钟告警 | 检查网线与网卡运行状态 |
节点消息队列磁盘空间使用率高 | 节点 node-x:IP 消息队列节点rabbitmq-x磁盘空间使用率高。 | 警告 | 节点 node-x:IP 消息队列节点rabbitmq-x磁盘空间使用率高,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点消息队列内存空间使用率高 | 节点 node-x:IP 消息队列节点rabbitmq-x内存空间使用率高。 | 警告 | 节点 node-x:IP 消息队列节点rabbitmq-x内存空间使用率高,持续5分钟告警 | 等待系统自愈 |
消息队列服务负载高 | 消息队列服务负载高,队列深度大于17000,当前为xxxx。 | 警告 | 消息队列服务负载高,队列深度大于17000,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
消息队列服务未应答的消息数过多 | 消息队列服务未应答的消息数过多,最近5分钟大于1000,当前为xxxx。 | 警告 | 消息队列服务未应答的消息数过多,最近5分钟大于1000,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点消息队列服务发生异常 | 节点 node-x:IP 消息队列服务发生 error 异常。 | 信息 | 节点 node-x:IP 消息队列服务发生 error 异常,持续10分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
多个节点计算服务停止服务 | x个节点计算服务停止服务。 | 严重 | 多个节点计算服务停止服务,持续5分钟告警 | 等待系统自愈 |
节点计算服务停止服务 | 节点 node-x:IP 计算服务停止服务。 | 警告 | 节点 node-x:IP 计算服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群计算调度服务停止服务 | 集群计算调度服务停止服务。 | 严重 | 集群计算调度服务停止服务,持续5分钟告警 | 等待系统自愈 |
节点计算调度服务停止服务 | 节点 node-x:IP 计算调度服务停止服务。 | 警告 | 节点 node-x:IP 计算调度服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群VNC权限管理服务停止服务 | 集群VNC权限管理服务停止服务。 | 严重 | 集群VNC权限管理服务停止服务,持续5分钟告警 | 等待系统自愈 |
节点VNC权限管理服务停止服务 | 节点 node-x:IP VNC权限管理服务停止服务。 | 警告 | 节点 node-x:IP VNC权限管理服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群计算管理服务停止服务 | 集群计算管理服务停止服务。 | 严重 | 集群计算管理服务停止服务,持续5分钟告警 | 等待系统自愈 |
节点计算管理服务停止服务 | 节点 node-x:IP 计算管理服务停止服务。 | 警告 | 节点 node-x:IP 计算管理服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群计算API服务停止服务 | 集群计算API服务停止服务。 | 严重 | 集群计算API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群认证API服务停止服务 | 集群认证API服务停止服务。 | 严重 | 集群认证API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群镜像管理API服务停止服务 | 集群镜像管理API服务停止服务。 | 严重 | 集群镜像管理API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群块存储备份服务停止服务 | 集群块存储备份服务停止服务。 | 严重 | 集群块存储备份服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群块存储服务停止服务 | 集群块存储服务 cinder-volume-worker@xxxxxx 停止服务,当前状态为 xxxx。 | 严重 | 集群块存储服务 cinder-volume-worker@xxxxxx 停止服务,当前状态为 xxxx,持续5分钟告警。 | 等待系统自愈 |
集群块存储调度服务停止服务 | 集群块存储调度服务停止服务。 | 严重 | 集群块存储调度服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群块存储API服务停止服务 | 集群块存储API服务停止服务。 | 严重 | 集群块存储API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群监控数据存储API服务停止服务 | 集群监控数据存储API服务停止服务。 | 严重 | 集群监控数据存储API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群监控告警API服务停止服务 | 集群监控告警API服务停止服务。 | 严重 | 集群监控告警API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群监控API服务停止服务 | 集群监控API服务停止服务。 | 严重 | 集群监控API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群编排API服务停止服务 | 集群编排API服务停止服务。 | 严重 | 集群编排API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群应用中心API服务停止服务 | 集群应用中心API服务停止服务。 | 严重 | 集群应用中心API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群对象存储API服务停止服务 | 集群对象存储API服务停止服务。 | 严重 | 集群对象存储API服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群日志收集服务停止服务 | 集群日志收集服务停止服务。 | 严重 | 集群日志收集服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群事件网格服务停止服务 | 集群事件网格服务停止服务。 | 严重 | 集群事件网格服务停止服务,持续5分钟告警 | 等待系统自愈 |
部分事件网格服务停止服务 | 部分事件网格服务停止服务。 | 警告 | 部分事件网格服务停止服务,持续5分钟告警 | 等待系统自愈 |
多个节点虚拟化管理服务停止服务 | x个节点虚拟化管理服务停止服务。 | 严重 | 多个节点虚拟化管理服务停止服务,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点虚拟化管理服务停止服务 | 节点 node-x:IP 虚拟化管理服务停止服务。 | 警告 | 节点 node-x:IP 虚拟化管理服务停止服务,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
集群网络API服务停止服务 | 集群网络API服务停止服务。 | 严重 | 集群网络API服务停止服务,持续5分钟告警 | 等待系统自愈 |
多个节点虚拟交换网络服务停止服务 | x个节点虚拟交换网络服务停止服务。 | 严重 | 多个节点虚拟交换网络服务,持续5分钟告警 | 等待系统自愈 |
节点虚拟交换网络服务停止服务 | 节点 node-x:IP 虚拟交换网络服务停止服务。 | 警告 | 节点 node-x:IP 虚拟交换网络服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群元数据服务停止服务 | 集群元数据服务停止服务。 | 严重 | 集群元数据服务停止服务,持续5分钟告警 | 等待系统自愈 |
节点元数据服务停止服务 | 节点 node-x:IP 元数据服务停止服务。 | 警告 | 节点 node-x:IP 元数据服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群3层网络服务停止服务 | 网络可用域:xxx 集群3层网络服务停止服务。 | 严重 | 网络可用域:xxx 集群3层网络服务停止服务,持续5分钟告警。 | 等待系统自愈 |
节点3层网络服务停止服务 | 节点 node-x:IP 3层网络服务停止服务。 | 警告 | 节点 node-x:IP 3层网络服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群网络DHCP服务停止服务 | 网络可用域:xxx 集群网络DHCP服务停止服务。 | 严重 | 网络可用域:xxx 集群网络DHCP服务停止服务,持续5分钟告警。 | 等待系统自愈 |
节点网络DHCP服务停止服务 | 节点 node-x:IP 网络DHCP服务停止服务。 | 警告 | 节点 node-x:IP 网络DHCP服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群网络负载均衡服务停止服务 | 网络可用域:xxx 集群网络负载均衡服务停止服务。 | 严重 | 网络可用域:xxx 集群网络负载均衡服务停止服务,持续5分钟告警。 | 等待系统自愈 |
节点网络负载均衡服务停止服务 | 节点 node-x:IP 网络负载均衡服务停止服务。 | 警告 | 节点 node-x:IP 网络负载均衡服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群自动化中心服务停止服务 | 集群自动化中心服务停止服务。 | 严重 | 集群自动化中心服务停止服务,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
部分自动化中心服务停止服务 | 部分自动化中心服务停止服务。 | 警告 | 部分自动化中心服务停止服务,持续5分钟告警 | 等待系统自愈 |
集群时间同步服务停止服务 | 集群时间同步服务停止服务。 | 严重 | 集群时间同步服务停止服务,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
集群主机高可用服务停止服务 | 集群主机高可用服务停止服务。 | 严重 | 集群主机高可用服务停止服务,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
云监控平台无法访问 | 云监控平台无法访问 | 严重 | 云监控平台无法访问,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
云控制台无法访问 | 云控制台无法访问 | 严重 | 云控制台无法访问,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
自动化中心无法访问 | 自动化中心无法访问 | 严重 | 自动化中心无法访问,持续5分钟告警 | 请联系您的软件服务提供商,进行问题排查 |
节点存储服务 osd 日志中有 bad crc 错误。 | 节点 node-x:IP 存储服务 xx 日志中有 bad crc 错误,这可能会导致云硬盘IO阻塞。 | 严重 | 节点 node-x:IP 存储服务 xx 日志中有 bad crc 错误,这可能会导致云硬盘IO阻塞,立即告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点服务进程被操作系统杀掉 | 节点node-x:IP xxxx服务进程因占用内存过多被操作系统杀掉。 | 警告 | 节点node-x:IP xxxx服务进程因占用内存过多被操作系统杀掉,立即告警。 | 服务占用内存过多时,为了整个平台的稳定,系统会杀掉这个服务再重建,这是一种预期的自愈行为。如果该告警不是一直反复出现,请不必太过关注。 |
节点操作系统日志中发现异常字段 | 节点 node-x:IP 操作系统 xxxx 日志中发现 xxxx 异常字段 | 信息 | 节点 node-x:IP 操作系统 xxxx 日志中发现 xxxx 异常字段,立即告警 | 请联系您的软件服务提供商,进行问题排查 |
节点控制服务日志中发现异常字段 | 节点 node-x:IP 控制服务 xxxx 日志中发现 xxxx 异常字段 | 警告 | 节点 node-x:IP 控制服务 xxxx 日志中发现 xxxx 异常字段,立即告警 | 请联系您的软件服务提供商,进行问题排查 |
集群数据保护服务停止服务 | 集群数据保护服务停止服务。 | 严重 | 集群数据保护服务停止服务,持续5分钟告警。 | 等待系统自愈 |
部分数据保护服务停止服务 | 部分数据保护服务停止服务。 | 警告 | 部分数据保护服务停止服务,持续5分钟告警。 | 等待系统自愈 |
集群计费API服务停止服务 | 集群计费API服务停止服务。 | 严重 | 集群计费API服务停止服务,持续5分钟告警。 | 等待系统自愈 |
集群计费账户管理API服务停止服务 | 集群计费账户管理API服务停止服务。 | 严重 | 集群计费账户管理API服务停止服务,持续5分钟告警。 | 等待系统自愈 |
容器集群管理API服务停止服务 | 容器集群管理API服务停止服务。 | 严重 | 容器集群管理API服务停止服务,持续5分钟告警。 | 等待系统自愈 |
集群高性能缓存服务停止服务 | 集群高性能缓存服务停止服务。 | 严重 | 集群高性能缓存服务停止服务,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点高性能缓存服务停止服务 | 节点node-x:IP高性能缓存服务停止服务。 | 严重 | 节点node-x:IP高性能缓存服务停止服务,持续5分钟告警。 | 等待系统自愈 |
集群高性能缓存管理服务停止服务 | 集群高性能缓存管理服务停止服务。 | 严重 | 集群高性能缓存管理服务停止服务,持续5分钟告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点高性能缓存管理服务停止服务 | 节点node-x:IP高性能缓存管理服务停止服务。 | 严重 | 节点node-x:IP高性能缓存管理服务停止服务,持续5分钟告警。 | 等待系统自愈 |
节点高性能缓存数据不一致 | 节点node-x:IP节点高性能缓存数据不一致。 | 严重 | 节点node-x:IP节点高性能缓存数据不一致,立即告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点SDN控制器服务日志中发现异常字段 | 节点node-x:IP SDN控制器服务日志中发现 ERR 异常字段。 | 警告 | 节点node-x:IP SDN控制器服务日志中发现 ERR 异常字段,立即告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点虚拟交换机数据库服务日志中发现异常字段 | 节点node-x:IP虚拟交换机数据库服务日志中发现 ERR 异常字段。 | 警告 | 节点node-x:IP虚拟交换机数据库服务日志中发现 ERR 异常字段,立即告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点虚拟交换机服务日志中发现异常字段 | 节点node-x:IP虚拟交换机服务日志中发现 ERR 异常字段。 | 警告 | 节点node-x:IP虚拟交换机服务日志中发现 ERR 异常字段,立即告警。 | 请联系您的软件服务提供商,进行问题排查 |
节点SR-IOV网卡服务停止服务 | 节点node-x:IP SR-IOV网卡服务停止服务。 | 严重 | 节点node-x:IP SR-IOV网卡服务停止服务,持续5分钟告警。 | 等待系统自愈 |