本章节主要介绍在告警状态页面中，针对实时告警、已恢复告警以及告警规则和相应的处理方法的说明。其中，在云平台的顶部导航栏中，依次选择[产品与服务]-[监控与管理]-[云监控服务]后，选择[告警状态]页签，即可访问“告警状态”页面。

实时告警

实时告警统计信息 页面展示当前正在告警的信息总数，对应的告警级别为严重、警告和信息的数目，以及不同类型的告警信息。

严重：当告警信息展示为严重时，意味着集群中某些服务不可用并且影响集群业务的正常运转，甚至服务中断。
警告：当告警信息展示为警告时，意味着当前问题不影响集群业务，但出现错误。
信息：当告警信息展示为信息时，意味着该告警影响最低，不影响用户正常使用，仅起到提示用户作用。比如当您的固态硬盘出现坏块情况时，会出现级别为信息的告警提示，出现坏块并不影响固态硬盘的正常使用。

在 实时告警统计信息 页面下方中您可以查看到 实时告警 列表。该区域将分别显示告警的信息详情。当页面告警信息过多时，您可以通过界面中的筛选条件：级别、类型或者在搜索框中进行关键字搜索。

级别包括严重、警告以及信息。
类型包括服务、主机、日志以及存储。

实时告警：展示当前集群中检测到的所有正在告警或者是正在处理状态的告警信息，当告警处于 正在告警 状态时，选中该告警信息，点击 开始处理，跳出 开始处理 弹窗后，设置处理时间，处理时间可选择30分钟、1小时、12小时以及自定义。当告警处于处理状态时，告警将不会自动发送告警邮件。如果在设置的处理时间过后告警问题仍未被成功解决时，告警将自动恢复成 正在告警 的状态。如果处理完成，系统会自动检测告警状态，判断告警是否已被修复。

已恢复告警

已恢复告警统计信息 页面展示已恢复的告警信息总数，对应的告警级别为严重、警告和信息的数据，以及不同类型的告警信息。

在 已恢复告警统计信息 页面下方中您可以查看到 已恢复告警 列表。该区域将分别显示告警的信息详情。当页面告警信息过多时，您可以通过界面中的筛选条件：级别、类型或者在搜索框中进行关键字搜索。

已恢复告警：您可以在该页面清晰看到所有告警信息的状态已变为 已恢复。在该列表页，您可以查看集群最近7天已恢复的告警信息。如果需要查询特定的恢复告警信息，可以通过列表上方的过滤条件进行筛选。

当集群中的某个服务触发告警指标，您可以在 告警状态 页查看到告警内容，同时该服务状态也将会显示为多种对应的状态，如 无数据、停止、警告等。例如：当您收到一条告警信息为消息队列停止服务时，告警级别为严重。此时，您通过切换页面到 控制服务状态 页面，可以查看到该服务状态为停止。

注：部分存储服务状态为警告或严重时，系统会将详细的告警信息展现出来，您可以根据告警信息采取对应的处理措施。

对于告警信息，您可以通过查阅以下 系统监控告警规则与处理方法 来获取云平台运行过程中出现各类问题的解决方案。

系统监控告警规则与处理方法

系统会对平台的运行状态进行监控，并会根据系统推荐阈值配置在服务出现运行异常时进行告警。您可以通过告警状态看板查看告警信息，也可以通过自动化中心中的告警邮件配置收到对应的告警邮件。根据告警信息，您可以根据告警标题与内容通过下表查看系统阈值的告警规则及相应的处理方法。

主机

告警标签	告警内容	级别	阈值说明	处理办法
网络节点南向进流量占用带宽超过70%	网络节点 node-x:IP 南向进流量占用带宽超过70%。	警告	网络节点 node-x:IP 南向进流量占用带宽超过70%，持续5分钟告警。	等待系统自愈
网络节点南向进流量占用带宽超过90%	网络节点 node-x:IP 南向进流量占用带宽超过90%。	严重	网络节点 node-x:IP 南向进流量占用带宽超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
网络节点南向出流量占用带宽超过70%	网络节点 node-x:IP 南向出流量占用带宽超过70%。	警告	网络节点 node-x:IP 南向出流量占用带宽超过70%，持续5分钟告警。	等待系统自愈
网络节点南向出流量占用带宽超过90%	网络节点 node-x:IP 南向出流量占用带宽超过90%。	严重	网络节点 node-x:IP 南向出流量占用带宽超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
网络节点北向进流量占用带宽超过70%	网络节点 node-x:IP 北向进流量占用带宽超过70%。	警告	网络节点 node-x:IP 北向进流量占用带宽超过70%，持续5分钟告警。	等待系统自愈
网络节点北向进流量占用带宽超过90%	网络节点 node-x:IP 北向进流量占用带宽超过90%。	严重	网络节点 node-x:IP 北向进流量占用带宽超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
网络节点北向出流量占用带宽超过70%	网络节点 node-x:IP 北向出流量占用带宽超过70%。	警告	网络节点 node-x:IP 北向出流量占用带宽超过70%，持续5分钟告警。	等待系统自愈
网络节点北向出流量占用带宽超过90%	网络节点 node-x:IP 北向出流量占用带宽超过90%。	严重	网络节点 node-x:IP 北向出流量占用带宽超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点中断处理进程对应的CPU占用率超过70%	节点 node-x:IP 中断处理进程 xxx 的CPU占用率超过70%。	警告	节点 node-x:IP 中断处理进程 xxx 的CPU占用率超过70%，持续5分钟告警。	等待系统自愈
节点中断处理进程对应的CPU占用率超过90%	节点 node-x:IP 中断处理进程 xxx 的CPU占用率超过90%。	严重	节点 node-x:IP 中断处理进程 xxx 的CPU占用率超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点SDN控制器进程CPU占用率超过95%	节点 node-x:IP SDN控制器进程CPU占用率超过95%。	严重	节点 node-x:IP SDN控制器进程CPU占用率超过95%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点虚拟交换机数据库进程CPU占用率超过95%	节点 node-x:IP 虚拟交换机数据库进程CPU占用率超过95%。	严重	节点 node-x:IP 虚拟交换机数据库进程CPU占用率超过95%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点虚拟交换机进程关联的线程CPU占用率超过70%	节点 node-x:IP 虚拟交换机进程关联的线程 xxx CPU占用率超过70%，当前为xxx%。	警告	节点 node-x:IP 虚拟交换机进程关联的线程 xxx CPU占用率超过70%，持续5分钟告警。	等待系统自愈
节点虚拟交换机进程关联的线程CPU占用率超过90%	节点 node-x:IP 虚拟交换机进程关联的线程 xxx CPU占用率超过90%，当前为xxx%。	严重	节点 node-x:IP 虚拟交换机进程关联的线程 xxx CPU占用率超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点虚拟交换机进程关联的线程CPU占用率超过95%	节点 node-x:IP 虚拟交换机进程关联的线程 xxx CPU占用率超过95%，当前为xxx%。	严重	节点 node-x:IP 虚拟交换机进程关联的线程 xxx CPU占用率超过95%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
网络节点与其他节点的隧道连通故障	网络节点 node-x:IP 与 xxx 的隧道 xxx 连通故障。	严重	网络节点 node-x:IP 与 xxx 的隧道 xxx 连通故障，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
网络节点与外部网关不通	网络节点 xxx:xxx 与外部网关 xxx 不通。	严重	网络节点 xxx:xxx 与外部网关 xxx 不通，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
裸金属网关节点南向进流量占用带宽超过70%	裸金属网关节点 node-x:IP 南向进流量占用带宽超过70%。	警告	裸金属网关节点 node-x:IP 南向进流量占用带宽超过70%，持续5分钟告警。	等待系统自愈
裸金属网关节点南向进流量占用带宽超过90%	裸金属网关节点 node-x:IP 南向进流量占用带宽超过90%。	严重	裸金属网关节点 node-x:IP 南向进流量占用带宽超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
裸金属网关节点南向出流量占用带宽超过70%	裸金属网关节点 node-x:IP 南向出流量占用带宽超过70%。	警告	裸金属网关节点 node-x:IP 南向出流量占用带宽超过70%，持续5分钟告警。	等待系统自愈
裸金属网关节点南向出流量占用带宽超过90%	裸金属网关节点 node-x:IP 南向出流量占用带宽超过90%。	严重	裸金属网关节点 node-x:IP 南向出流量占用带宽超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
裸金属网关节点北向进流量占用带宽超过70%	裸金属网关节点 node-x:IP 北向进流量占用带宽超过70%。	警告	裸金属网关节点 node-x:IP 北向进流量占用带宽超过70%，持续5分钟告警。	等待系统自愈
裸金属网关节点北向进流量占用带宽超过90%	裸金属网关节点 node-x:IP 北向进流量占用带宽超过90%。	严重	裸金属网关节点 node-x:IP 北向进流量占用带宽超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
裸金属网关节点北向出流量占用带宽超过70%	裸金属网关节点 node-x:IP 北向出流量占用带宽超过70%。	警告	裸金属网关节点 node-x:IP 北向出流量占用带宽超过70%，持续5分钟告警。	等待系统自愈
裸金属网关节点北向出流量占用带宽超过90%	裸金属网关节点 node-x:IP 北向出流量占用带宽超过90%。	严重	裸金属网关节点 node-x:IP 北向出流量占用带宽超过90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点无法联通	节点 node-x:IP 无法联通。	严重	节点 node-x:IP 无法联通，持续5分钟告警。	查看如何更换节点。
节点内存使用率大于90%	节点 node-x:IP 内存使用率大于90%，其中云主机内存使用率为xxx%。	严重	节点 node-x:IP 内存使用率大于90%，持续5分钟告警。	云环境负载过高，请降低您的云主机业务负载、迁移云主机到其他节点，或进行云环境扩容。
节点内存使用率大于90%	节点 node-x:IP 内存使用率大于90%，当前为xxx%。	严重	节点 node-x:IP 内存使用率大于90%，持续5分钟告警。	云环境负载过高，请计划云环境扩容。
节点内存使用率大于70%	节点 node-x:IP 内存使用率大于70%，其中云主机内存使用率为xxx%。	警告	节点 node-x:IP 内存使用率大于70%且小于90%，持续5分钟告警。	请降低您的云主机业务负载、迁移云主机到其他节点，或计划扩容云环境。
节点内存使用率大于70%	节点 node-x:IP 内存使用率大于70%，当前为xxx%。	警告	节点 node-x:IP 内存使用率大于70%且小于90%，持续5分钟告警。	云环境负载过高，请计划云环境扩容。
节点大页内存使用率大于90%	节点 node-x:IP 大页内存使用率大于90%，当前为xxx%。	严重	节点 node-x:IP 大页内存使用率大于90%，持续5分钟告警。	云环境负载过高，请计划云环境扩容。
节点大页内存使用率大于70%	节点 node-x:IP 大页内存使用率大于70%，当前为xxx%。	警告	节点 node-x:IP 大页内存使用率大于70%且小于90%，持续5分钟告警。	云环境负载过高，请计划云环境扩容。
节点CPU使用率大于90%	节点 node-x:IP CPU使用率大于90%，其中云主机CPU使用率为xxx%。	严重	节点 node-x:IP CPU使用率大于90%，持续5分钟告警。	云环境负载过高，请降低您的云主机业务负载、迁移云主机到其他节点，或进行云环境扩容。
节点CPU使用率大于90%	节点 node-x:IP CPU使用率大于90%，当前为xxx%。	严重	节点 node-x:IP CPU使用率大于90%，持续5分钟告警。	云环境负载过高，请计划云环境扩容。
节点CPU使用率大于70%	节点 node-x:IP CPU使用率大于70%，其中云主机CPU使用率为xxx%。	警告	节点 node-x:IP CPU使用率大于70%且小于90%，持续5分钟告警。	请降低您的云主机业务负载、迁移云主机到其他节点，或计划扩容云环境。
节点CPU使用率大于70%	节点 node-x:IP CPU使用率大于70%，当前为xxx%。	警告	节点 node-x:IP CPU使用率大于70%且小于90%，持续5分钟告警。	云环境负载过高，请计划云环境扩容。
节点处于阻塞状态的进程过多	节点 node-x:IP 有超过50个进程处于阻塞状态，当前为xxx个。	警告	节点 node-x:IP 有超过50个进程处于阻塞状态，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点处于可运行状态的线程过多	节点 node-x:IP 有超过200个线程处于可运行状态，当前为xxx个。	警告	节点 node-x:IP 有超过200个线程处于可运行状态，持续5分钟告警。	云环境负载过高，请降低您的云主机业务负载、迁移云主机到其他节点，或进行云环境扩容。
节点CPU负载过高	节点 node-x:IP CPU负载大于5，当前为xxx。	警告	节点 node-x:IP CPU负载大于5，持续5分钟告警。	云环境负载过高，请降低您的云主机业务负载、迁移云主机到其他节点，或进行云环境扩容。
节点根文件系统空间使用率大于90%	节点 node-x:IP 根文件系统空间使用率大于90%，当前为xxx%。	严重	节点 node-x:IP 根文件系统空间使用率大于90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点根文件系统空间使用率大于70%	节点 node-x:IP 根文件系统空间使用率大于70%，当前为xxx%。	警告	节点 node-x:IP 根文件系统空间使用率大于70%且小于90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点容器物理卷分区使用率大于90%	节点 node-x:IP 容器物理卷分区使用率大于90%，当前为xxx%。	严重	节点 node-x:IP 容器物理卷分区使用率大于90%，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点固态硬盘寿命告警	节点 node-x:IP 固态硬盘 xxx xxx 寿命已消耗80%，当前为xxx%。	严重	节点 node-x:IP 固态硬盘 xxx xxx 寿命已消耗80%，持续5分钟告警。	请您更换固态硬盘。
节点系统硬盘故障告警	节点 node-x:IP 系统硬盘 xxx xxx 健康状态异常, 异常原因是：xxx。	严重	节点 node-x:IP 系统硬盘 xxx xxx 健康状态异常，持续5分钟告警。	请您更换系统硬盘。
节点缓存硬盘故障告警	节点 node-x:IP 缓存硬盘 xxx xxx 健康状态异常, 异常原因是：xxx。	严重	节点 node-x:IP 缓存硬盘 xxx xxx 健康状态异常，持续5分钟告警。	请您更换缓存硬盘。
节点数据硬盘故障告警	节点 node-x:IP 数据硬盘 xxx xxx 健康状态异常, 异常原因是：xxx。	严重	节点 node-x:IP 数据硬盘 xxx xxx 健康状态异常，持续5分钟告警。	请您更换数据硬盘。
节点硬盘出现损坏扇区	节点 node-x:IP 硬盘 xxx xxx 出现损坏扇区。	信息	节点 node-x:IP 硬盘 xxx xxx 出现损坏扇区，持续5分钟告警。	请您更换数据硬盘或系统硬盘。
节点硬盘IO负载大于90%	节点 node-x:IP 硬盘 xxx IO负载大于90%，当前为xxx%。	严重	节点 node-x:IP 硬盘 xxx IO负载大于90%，持续5分钟告警。	请您更换数据硬盘或系统硬盘。
节点数据硬盘出现慢盘故障	节点 node-x:IP 数据硬盘 xxx 出现慢盘故障，当前IO负载为xxx%。	严重	节点 node-x:IP 数据硬盘 xxx 出现慢盘故障，立即告警。	请您更换数据硬盘，
节点网卡状态变为DOWN	节点 node-x:IP 网卡 xxx 状态变为DOWN。	严重	节点 node-x:IP 网卡 xxx 状态变为DOWN，立即告警。	请您检查网线与网卡运行状态
节点网卡链路中断	节点 node-x:IP 网卡 xxx 链路中断。	严重	节点 node-x:IP 网卡 xxx 链路中断，立即告警。	请您检查网线与网卡运行状态
节点网卡接收数据包错误数量过多	节点 node-x:IP 网卡 xxx 5分钟累计接收数据包错误超过100个，当前为xxx个。	警告	节点 node-x:IP 网卡 xxx 5分钟累计接收数据包错误超过100个，持续5分钟告警。	检查网线与网卡运行状态
节点网卡发送数据包错误数量过多	节点 node-x:IP 网卡 xxx 5分钟累计发送数据包错误超过100个，当前为xxx个。	警告	节点 node-x:IP 网卡 xxx 5分钟累计发送数据包错误超过100个，持续5分钟告警。	检查网线与网卡运行状态
节点系统时间未同步	节点 node-x:IP 系统时间未与NTP服务器同步。	严重	节点 node-x:IP 系统时间未与NTP服务器同步，持续20分钟告警。	等待系统自愈，如果问题一直存在，请联系您的软件服务提供商进行问题排查
节点系统盘Raid组降级	节点 node-x:IP 系统盘Raid组降级。	严重	节点 node-x:IP 系统盘Raid组降级，持续5分钟告警。	请参考用户手册要求进行系统盘更换。
节点缓存盘Raid组降级	节点 node-x:IP 缓存盘Raid组降级。	严重	节点 node-x:IP 缓存盘Raid组降级，持续5分钟告警	请参考用户手册要求进行缓存盘更换。
节点高性能缓存盘Raid组降级	节点 node-x:IP 高性能缓存盘Raid组降级。	严重	节点 node-x:IP 高性能缓存盘Raid组降级，持续5分钟告警	请参考用户手册要求进行缓存盘更换。
节点网卡工作速率低于1000Mbps	节点 node-x:IP 网卡 xxx 工作速率低于1000Mbps，当前为xxxMbps。	严重	节点 node-x:IP 网卡 xxx 工作速率低于1000Mbps，持续5分钟告警。	检查网线与网卡运行状态
节点出现多路径链路残留	节点 node-x:IP 连接商业存储时出现多路径链路残留。	严重	节点 node-x:IP 连接商业存储时出现多路径链路残留，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查

服务

告警标签	告警内容	级别	阈值说明	处理办法
集群数据保护服务停止服务	集群数据保护服务停止服务。	严重	集群数据保护服务停止服务，持续5分钟告警。	等待系统自愈
部分数据保护服务停止服务	部分数据保护服务停止服务。	警告	部分数据保护服务停止服务，持续5分钟告警。	等待系统自愈
集群裸金属API服务停止服务	集群裸金属API服务停止服务。	严重	集群裸金属API服务停止服务，持续5分钟告警。	等待系统自愈
集群裸金属计算服务停止服务	集群裸金属计算服务停止服务。	严重	集群裸金属计算服务停止服务，持续5分钟告警。	等待系统自愈
裸金属计算服务停止服务	裸金属计算服务 xxx 停止服务。	警告	裸金属计算服务 xxx 停止服务，持续5分钟告警。	等待系统自愈
集群裸金属管理服务停止服务	集群裸金属管理服务停止服务。	严重	集群裸金属管理服务停止服务，持续5分钟告警。	等待系统自愈
节点裸金属管理服务停止服务	节点 node-x:IP 裸金属管理服务停止服务。	警告	节点 node-x:IP 裸金属管理服务停止服务，持续5分钟告警。	等待系统自愈
集群镜像管理API服务停止服务	集群镜像管理API服务停止服务。	严重	集群镜像管理API服务停止服务，持续5分钟告警。	等待系统自愈
节点SDN分布式控制器服务停止服务	节点 node-x:IP SDN分布式控制器服务停止服务。	警告	节点 node-x:IP SDN分布式控制器服务停止服务，持续5分钟告警。	等待系统自愈
集群SDN分布式控制器服务停止服务	集群SDN分布式控制器服务停止服务。	严重	集群SDN分布式控制器服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点SDN分布式控制器网关服务停止服务	节点 node-x:IP SDN分布式控制器网关服务停止服务。	警告	节点 node-x:IP SDN分布式控制器网关服务停止服务，持续5分钟告警。	等待系统自愈
集群SDN分布式控制器网关服务停止服务	集群SDN分布式控制器网关服务停止服务。	严重	集群SDN分布式控制器网关服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点SDN元数据服务停止服务	节点 node-x:IP SDN元数据服务停止服务。	警告	节点 node-x:IP SDN元数据服务停止服务，持续5分钟告警。	等待系统自愈
集群SDN元数据服务停止服务	集群SDN元数据服务停止服务。	严重	集群SDN元数据服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点裸金属网关服务停止服务	节点 node-x:IP 裸金属网关服务停止服务。	警告	节点 node-x:IP 裸金属网关服务停止服务，持续5分钟告警。	等待系统自愈
集群裸金属网关服务停止服务	集群裸金属网关服务停止服务。	严重	集群裸金属网关服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
容器集群管理API服务停止服务	容器集群管理API服务停止服务。	严重	容器集群管理API服务停止服务，持续5分钟告警。	等待系统自愈
节点消息队列服务停止服务	节点 node-x:IP 消息队列节点xxx停止服务。	警告	节点 node-x:IP 消息队列节点xxx停止服务，持续5分钟告警。	等待系统自愈
集群消息队列服务停止服务	集群消息队列服务停止服务。	严重	集群消息队列服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点消息队列发生网络分区故障	节点 node-x:IP 消息队列节点xxx发生网络分区故障。	警告	节点 node-x:IP 消息队列节点xxx发生网络分区故障，持续5分钟告警。	检查网线与网卡运行状态
节点消息队列磁盘空间使用率高	节点 node-x:IP 消息队列节点xxx磁盘空间使用率高。	警告	节点 node-x:IP 消息队列节点xxx磁盘空间使用率高，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点消息队列内存空间使用率高	节点 node-x:IP 消息队列节点xxx内存空间使用率高。	警告	节点 node-x:IP 消息队列节点xxx内存空间使用率高，持续5分钟告警。	等待系统自愈
消息队列服务负载高	消息队列服务负载高，队列深度大于17000，当前为xxx。	警告	消息队列服务负载高，队列深度大于17000，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
消息队列服务未应答的消息数过多	消息队列服务未应答的消息数过多，最近5分钟大于1000，当前为xxx。	警告	消息队列服务未应答的消息数过多，最近5分钟大于1000，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
集群应用中心API服务停止服务	集群应用中心API服务停止服务。	严重	集群应用中心API服务停止服务，持续5分钟告警。	等待系统自愈
集群监控数据存储API服务停止服务	集群监控数据存储API服务停止服务。	严重	集群监控数据存储API服务停止服务，持续5分钟告警。	等待系统自愈
集群监控告警API服务停止服务	集群监控告警API服务停止服务。	严重	集群监控告警API服务停止服务，持续5分钟告警。	等待系统自愈
集群监控API服务停止服务	集群监控API服务停止服务。	严重	集群监控API服务停止服务，持续5分钟告警。	等待系统自愈
云监控平台无法访问	云监控平台无法访问。	严重	云监控平台无法访问，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
数据库服务停止服务	数据库服务停止服务。	严重	数据库服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
数据库节点失效	数据库节点失效。	警告	数据库节点失效，持续5分钟告警。	等待系统自愈
数据库服务降级	数据库服务降级，当前工作的副本数 xxx 小于设定的副本数。	严重	数据库服务降级，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
集群编排API服务停止服务	集群编排API服务停止服务。	严重	集群编排API服务停止服务，持续5分钟告警。	等待系统自愈
集群块存储服务停止服务	集群块存储服务 xxx 停止服务，当前状态为 xxx。	严重	集群块存储服务 xxx 停止服务，当前状态为 xxx，持续5分钟告警。	等待系统自愈
集群块存储调度服务停止服务	集群块存储调度服务停止服务。	严重	集群块存储调度服务停止服务，持续5分钟告警。	等待系统自愈
集群块存储API服务停止服务	集群块存储API服务停止服务。	严重	集群块存储API服务停止服务，持续5分钟告警。	等待系统自愈
集群块存储备份服务停止服务	集群块存储备份服务停止服务。	严重	集群块存储备份服务停止服务，持续5分钟告警。	等待系统自愈
集群网络API服务停止服务	集群网络API服务停止服务。	严重	集群网络API服务停止服务，持续5分钟告警。	等待系统自愈
多个节点虚拟交换网络服务停止服务	xxx个节点虚拟交换网络服务停止服务。	严重	多个节点虚拟交换网络服务停止服务，持续5分钟告警。	等待系统自愈
节点虚拟交换网络服务停止服务	节点 node-x:IP 虚拟交换网络服务停止服务。	警告	节点 node-x:IP 虚拟交换网络服务停止服务，持续5分钟告警。	等待系统自愈
集群元数据服务停止服务	集群元数据服务停止服务。	严重	集群元数据服务停止服务，持续5分钟告警。	等待系统自愈
节点元数据服务停止服务	节点 node-x:IP 元数据服务停止服务。	警告	节点 node-x:IP 元数据服务停止服务，持续5分钟告警。	等待系统自愈
集群网络DHCP服务停止服务	网络可用域:xxx 集群网络DHCP服务停止服务。	严重	网络可用域:xxx 集群网络DHCP服务停止服务，持续5分钟告警。	等待系统自愈
节点网络DHCP服务停止服务	节点 node-x:IP 网络DHCP服务停止服务。	警告	节点 node-x:IP 网络DHCP服务停止服务，持续5分钟告警。	等待系统自愈
集群3层网络服务停止服务	网络可用域:xxx 集群3层网络服务停止服务。	严重	网络可用域:xxx 集群3层网络服务停止服务，持续5分钟告警。	等待系统自愈
节点3层网络服务停止服务	节点 node-x:IP 3层网络服务停止服务。	警告	节点 node-x:IP 3层网络服务停止服务，持续5分钟告警。	等待系统自愈
集群网络负载均衡服务停止服务	网络可用域:xxx 集群网络负载均衡服务停止服务。	严重	网络可用域:xxx 集群网络负载均衡服务停止服务，持续5分钟告警。	等待系统自愈
节点网络负载均衡服务停止服务	节点 node-x:IP 网络负载均衡服务停止服务。	警告	节点 node-x:IP 网络负载均衡服务停止服务，持续5分钟告警。	等待系统自愈
节点SR-IOV网卡服务停止服务	节点 node-x:IP SR-IOV网卡服务停止服务。	严重	节点 node-x:IP SR-IOV网卡服务停止服务，持续5分钟告警。	等待系统自愈
集群高性能缓存服务停止服务	集群高性能缓存服务停止服务。	严重	集群高性能缓存服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点高性能缓存服务停止服务	节点 node-x:IP 高性能缓存服务停止服务。	严重	节点 node-x:IP 高性能缓存服务停止服务，持续5分钟告警。	等待系统自愈
集群高性能缓存管理服务停止服务	集群高性能缓存管理服务停止服务。	严重	集群高性能缓存管理服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点高性能缓存管理服务停止服务	节点 node-x:IP 高性能缓存管理服务停止服务。	严重	节点 node-x:IP 高性能缓存管理服务停止服务，持续5分钟告警。	等待系统自愈
集群认证API服务停止服务	集群认证API服务停止服务。	严重	集群认证API服务停止服务，持续5分钟告警。	等待系统自愈
集群日志收集服务停止服务	集群日志收集服务停止服务。	严重	集群日志收集服务停止服务，持续5分钟告警。	等待系统自愈
部分日志收集服务停止服务	部分日志收集服务停止服务。	警告	部分日志收集服务停止服务，持续5分钟告警。	等待系统自愈
集群事件网格服务停止服务	集群事件网格服务停止服务。	严重	集群事件网格服务停止服务，持续5分钟告警。	等待系统自愈
部分事件网格服务停止服务	部分事件网格服务停止服务。	警告	部分事件网格服务停止服务，持续5分钟告警。	等待系统自愈
多个节点虚拟化管理服务停止服务	xxx个节点虚拟化管理服务停止服务。	严重	多个节点虚拟化管理服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
节点虚拟化管理服务停止服务	节点 node-x:IP 虚拟化管理服务停止服务。	警告	节点 node-x:IP 虚拟化管理服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
集群自动化中心服务停止服务	集群自动化中心服务停止服务。	严重	集群自动化中心服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
部分自动化中心服务停止服务	部分自动化中心服务停止服务。	警告	部分自动化中心服务停止服务，持续5分钟告警。	等待系统自愈
集群时间同步服务停止服务	集群时间同步服务停止服务。	严重	集群时间同步服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
集群时间与外部不同步	集群时间与外部不同步。	严重	集群时间与外部不同步，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
集群主机高可用服务停止服务	集群主机高可用服务停止服务。	严重	集群主机高可用服务停止服务，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
云控制台无法访问	云控制台无法访问。	严重	云控制台无法访问，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
自动化中心无法访问	自动化中心无法访问。	严重	自动化中心无法访问，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
Etcd成员离线	节点 node-x:IP Etcd成员离线。	严重	节点 node-x:IP Etcd成员离线，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
Etcd集群成员不足	Etcd集群成员不足，当前为xxx。	严重	Etcd集群成员不足，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
Etcd集群Leader变化频繁	过去15分钟内Etcd集群Leader变化频繁。	警告	过去15分钟内Etcd集群Leader变化频繁，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
Etcd没有Leader	节点 node-x:IP Etcd没有Leader，处于不可用状态。	严重	节点 node-x:IP Etcd没有Leader，处于不可用状态，持续5分钟告警。	请联系您的软件服务提供商，进行问题排查
Etcd提案失败数过多	节点 node-x:IP 过去15分钟内Etcd提案失败数过多，当前为xxx。	警告	节点 node-x:IP 过去15分钟内Etcd提案失败数过多，持续15分钟告警。	请联系您的软件服务提供商，进行问题排查
Etcd磁盘同步持续时间过长	节点 node-x:IP Etcd磁盘WAL同步持续时间过长，磁盘IO性能不足，当前99%的持续时间为xxxms。	警告	节点 node-x:IP Etcd磁盘WAL同步持续时间过长，磁盘IO性能不足，持续10分钟告警。	请联系您的软件服务提供商，进行问题排查
Etcd磁盘提交持续时间过长	节点 node-x:IP Etcd磁盘后端提交持续时间过长，磁盘IO性能不足，当前99%的持续时间为xxxms。	警告	节点 node-x:IP Etcd磁盘后端提交持续时间过长，磁盘IO性能不足，持续10分钟告警。	请联系您的软件服务提供商，进行问题排查
节点控制API服务停止服务	节点 node-x:IP 控制API服务停止服务。	严重	节点 node-x:IP 控制API服务停止服务，持续5分钟告警。	等待系统自愈
集群控制API服务响应延迟过高	集群控制API服务xxx请求的响应延迟时间大于10秒。	警告	集群控制API服务响应延迟时间大于10秒，持续10分钟告警。	请降低您的云主机业务负载
节点控制管理服务停止服务	节点 node-x:IP 控制管理服务停止服务。	严重	节点 node-x:IP 控制管理服务停止服务，持续5分钟告警。	等待系统自愈
节点控制调度服务停止服务	节点 node-x:IP 控制调度服务停止服务。	严重	节点 node-x:IP 控制调度服务停止服务，持续5分钟告警。	等待系统自愈
微服务节点离线	微服务节点 node-x:IP 离线超过10分钟。	严重	微服务节点 node-x:IP 离线超过10分钟告警。	请您检查物理节点是否在线或查看如何更换节点。
微服务节点离线数过多	xxx个微服务节点离线超过10分钟。	严重	多个微服务节点离线超过10分钟告警。	当前云平台控制服务无法正常工作，请联系您的软件服务提供商进行问题排查
节点微服务管理服务停止	节点 node-x:IP 微服务管理服务停止。	严重	节点 node-x:IP 微服务管理服务停止，持续10分钟告警。	等待系统自愈
多个节点微服务管理服务停止	xxx个节点微服务管理服务停止。	严重	多个节点微服务管理服务停止，持续10分钟告警。	当前云平台微服务管理服务无法正常工作，请联系您的软件服务提供商进行问题排查
节点微服务子服务连续重启	节点 node-x:IP 微服务 xxx 子服务 xxx 连续重启。	警告	节点 node-x:IP 微服务 xxx 子服务 xxx 连续重启，持续30分钟告警。	请联系您的软件服务提供商，进行问题排查
节点微服务子服务状态未就绪	节点 node-x:IP 微服务 xxx 子服务 xxx 状态未就绪。	警告	节点 node-x:IP 微服务 xxx 子服务 xxx 状态未就绪，持续30分钟告警。	请联系您的软件服务提供商，进行问题排查
多个节点计算服务停止服务	xxx个节点计算服务停止服务。	严重	多个节点计算服务停止服务，持续5分钟告警。	等待系统自愈
节点计算服务停止服务	节点 node-x:IP 计算服务停止服务。	警告	节点 node-x:IP 计算服务停止服务，持续5分钟告警。	等待系统自愈
集群计算调度服务停止服务	集群计算调度服务停止服务。	严重	集群计算调度服务停止服务，持续5分钟告警。	等待系统自愈
节点计算调度服务停止服务	节点 node-x:IP 计算调度服务停止服务。	警告	节点 node-x:IP 计算调度服务停止服务，持续5分钟告警。	等待系统自愈
集群VNC权限管理服务停止服务	集群VNC权限管理服务停止服务。	严重	集群VNC权限管理服务停止服务，持续5分钟告警。	等待系统自愈
节点VNC权限管理服务停止服务	节点 node-x:IP VNC权限管理服务停止服务。	警告	节点 node-x:IP VNC权限管理服务停止服务，持续5分钟告警。	等待系统自愈
集群计算管理服务停止服务	集群计算管理服务停止服务。	严重	集群计算管理服务停止服务，持续5分钟告警。	等待系统自愈
节点计算管理服务停止服务	节点 node-x:IP 计算管理服务停止服务。	警告	节点 node-x:IP 计算管理服务停止服务，持续5分钟告警。	等待系统自愈
集群计算API服务停止服务	集群计算API服务停止服务。	严重	集群计算API服务停止服务，持续5分钟告警。	等待系统自愈
集群对象存储API服务停止服务	集群对象存储API服务停止服务。	严重	集群对象存储API服务停止服务，持续5分钟告警。	等待系统自愈
集群计费API服务停止服务	集群计费API服务停止服务。	严重	集群计费API服务停止服务，持续5分钟告警。	等待系统自愈
集群计费账户管理API服务停止服务	集群计费账户管理API服务停止服务。	严重	集群计费账户管理API服务停止服务，持续5分钟告警。	等待系统自愈

存储

告警标签	告警内容	级别	阈值说明	处理办法
节点OSD停止服务	节点 node-x:IP OSD.N 停止服务。	严重	节点 node-x:IP OSD.N 停止服务，持续2分钟告警。	请您检查数据盘或缓存盘硬盘状态并进行硬盘更换。
节点存储控制服务停止服务	节点 node-x:IP 存储控制服务停止服务。	严重	节点 node-x:IP 存储控制服务停止服务，持续2分钟告警。	等待系统自愈
存储池使用率大于90%	存储池xxx使用率大于90%，当前为xxx%。	严重	存储池xxx使用率大于90%，持续2分钟告警。	请您进行云环境扩容。
存储池使用率大于70%	存储池xxx使用率大于70%，当前为xxx%。	警告	存储池xxx使用率大于70%且小于90%，持续2分钟告警。	请您计划云环境扩容。
节点OSD使用率大于90%	节点 node-x:IP OSD.N 使用率大于90%，当前为xxx%。	严重	节点 node-x:IP OSD.N 使用率大于90%，持续2分钟告警。	请您进行云环境扩容。
节点OSD使用率大于70%	节点 node-x:IP OSD.N 使用率大于70%，当前为xxx%。	警告	节点 node-x:IP OSD.N 使用率大于70%且小于90%，持续2分钟告警。	请您计划云环境扩容。
存储集群物理容量使用率大于90%	存储集群物理容量使用率大于90%，当前为xxx%。	严重	存储集群物理容量使用率大于90%，持续2分钟告警。	请您进行云环境扩容。
存储集群物理容量使用率大于70%	存储集群物理容量使用率大于70%，当前为xxx%。	警告	存储集群物理容量使用率大于70%且小于90%，持续2分钟告警。	请您计划云环境扩容。
存储集群健康性异常，处于警告状态	存储集群健康性异常，处于警告状态，原因：xxx	严重	存储集群健康性异常，处于警告状态，立即告警。	等待系统自愈
存储集群健康性异常，处于错误状态	存储集群健康性异常，处于错误状态，原因：xxx	严重	存储集群健康性异常，处于错误状态，立即告警。	当前云平台控制服务无法正常工作，请联系您的软件服务提供商进行问题排查
存储集群可用容量使用率大于70%	存储集群可用容量使用率大于70%，当前为xxx%。	警告	存储集群可用容量使用率大于70%且小于90%，持续2分钟告警。	请您计划云环境扩容。
存储集群可用容量使用率大于90%	存储集群可用容量使用率大于90%，当前为xxx%。	严重	存储集群可用容量使用率大于90%，持续2分钟告警。	请您进行云环境扩容。
节点服务存储空间使用率大于70%	节点 node-x:IP 服务存储空间 xxx 使用率大于70%，当前为xxx%。	警告	节点 node-x:IP 服务存储空间 xxx 使用率大于70%且小于90%，持续2分钟告警。	请联系您的软件服务提供商，进行问题排查
节点服务存储空间使用率大于90%	节点 node-x:IP 服务存储空间 xxx 使用率大于90%，当前为xxx%。	严重	节点 node-x:IP 服务存储空间 xxx 使用率大于90%，持续2分钟告警。	请联系您的软件服务提供商，进行问题排查
节点volume处于read-only状态	节点 node-x:IP volume:xxx处于read-only状态。	严重	节点 node-x:IP volume:xxx处于read-only状态，持续10分钟告警。	请联系您的软件服务提供商，进行问题排查
节点磁盘寿命预计低于6周	节点 node-x:IP 磁盘 xxx:xxx 寿命预计低于6周。	警告	节点 node-x:IP 磁盘 xxx:xxx 寿命预计低于6周，持续2分钟告警。	请联系您的软件服务提供商，进行问题排查
节点磁盘寿命预计低于2周	节点 node-x:IP 磁盘 xxx:xxx 寿命预计低于2周，建议立即更换磁盘。	严重	节点 node-x:IP 磁盘 xxx:xxx 寿命预计低于2周，持续2分钟告警。	请联系您的软件服务提供商，进行问题排查
高性能缓存状态异常	高性能缓存状态异常，异常节点(node-x)。	严重	高性能缓存状态异常，异常节点(node-x)，持续5分钟告警。	等待系统自愈
高性能缓存数据降级	高性能缓存数据降级，异常节点(node-x)。	严重	高性能缓存数据降级，异常节点(node-x)，持续5分钟告警。	等待系统自愈

日志

告警标签	告警内容	级别	阈值说明	处理办法
节点存储服务 osd 日志中有 bad crc 错误	节点 node-x:IP 存储服务 xxx日志中有 bad crc 错误，这可能会导致云硬盘IO阻塞。	严重	节点 node-x:IP 存储服务 xxx日志中有 bad crc 错误，这可能会导致云硬盘IO阻塞，立即告警。	请联系您的软件服务提供商，进行问题排查
节点消息队列服务发生异常	节点 node-x:IP 消息队列服务发生xxx 异常。	信息	节点 node-x:IP 消息队列服务发生xxx 异常，持续10分钟告警。	请联系您的软件服务提供商，进行问题排查
节点网卡发生 ECC Err 错误	节点 node-x:IP 网卡 xxx发生 ECC Err 错误；如果该网卡联通的是存储网络，则可能会导致云硬盘IO阻塞。	警告	节点 node-x:IP 网卡 xxx发生 ECC Err 错误；如果该网卡联通的是存储网络，则可能会导致云硬盘IO阻塞，立即告警。	请联系您的软件服务提供商，进行问题排查
节点服务进程被操作系统杀掉	节点 node-x:IP xxx服务进程因占用内存过多被操作系统杀掉。	警告	节点 node-x:IP xxx服务进程因占用内存过多被操作系统杀掉，立即告警。	服务占用内存过多时，为了整个平台的稳定，系统会杀掉这个服务再重建，这是一种预期的自愈行为。如果该告警不是一直反复出现，请不必太过关注
节点操作系统日志中发现异常字段	节点 node-x:IP 操作系统 xxx日志中发现 xxx 异常字段。	信息	节点 node-x:IP 操作系统 xxx日志中发现 xxx 异常字段，立即告警。	请联系您的软件服务提供商，进行问题排查
节点控制服务日志中发现异常字段	节点 node-x:IP 控制服务 xxx日志中发现 xxx 异常字段。	警告	节点 node-x:IP 控制服务 xxx日志中发现 xxx 异常字段，立即告警。	请联系您的软件服务提供商，进行问题排查
节点高性能缓存数据不一致	节点 node-x:IP 高性能缓存数据不一致。	严重	节点 node-x:IP 高性能缓存数据不一致，立即告警。	等待自动同步恢复
节点操作系统日志中发现RAID卡故障信息	节点 node-x:IP 操作系统日志中发现‘aacraid: Host adapter reset request’RAID卡故障信息。	严重	节点 node-x:IP 操作系统日志中发现‘aacraid: Host adapter reset request’RAID卡故障信息，立即告警。	请联系您的软件服务提供商，进行问题排查
节点操作系统日志中发现RAID卡故障信息	节点 node-x:IP 操作系统日志中发现‘BRCM Debug mfi stat 0x2d’RAID卡故障信息。	严重	节点 node-x:IP 操作系统日志中发现‘BRCM Debug mfi stat 0x2d’RAID卡故障信息，立即告警。	请联系您的软件服务提供商，进行问题排查
节点SDN控制器服务日志中发现异常字段	节点 node-x:IP SDN控制器服务日志中发现 ERR 异常字段。	警告	节点 node-x:IP SDN控制器服务日志中发现 ERR 异常字段，立即告警。	请联系您的软件服务提供商，进行问题排查
节点虚拟交换机数据库服务日志中发现异常字段	节点 node-x:IP 虚拟交换机数据库服务日志中发现 ERR 异常字段。	警告	节点 node-x:IP 虚拟交换机数据库服务日志中发现 ERR 异常字段，立即告警。	请联系您的软件服务提供商，进行问题排查
节点虚拟交换机服务日志中发现异常字段	节点 node-x:IP 虚拟交换机服务日志中发现 ERR 异常字段。	警告	节点 node-x:IP 虚拟交换机服务日志中发现 ERR 异常字段，立即告警。	请联系您的软件服务提供商，进行问题排查
节点虚拟交换机服务异常重启	节点 node-x:IP 虚拟交换机服务异常重启。	警告	节点 node-x:IP 虚拟交换机服务异常重启，立即告警。	等待系统自愈