本文提供云监控服务的功能详情
对全平台的监控信息的全景展现,帮助用户迅速定位集群异常状态。
包括对数字原生引擎控制服务、云产品控制服务运行状态监控。
包含存储集群健康状态、存储集群容量统计、存储集群IOPS/带宽、数据盘Smart信息、磁盘温度和磁盘坏扇区检测信息。
包含节点CPU/内存使用情况、磁盘I/O使用率/速率/延迟、系统负载、网卡流量和温度、电风扇转速信息。
提供包括RabbitMQ、Etcd的集群状态、节点状态、状态趋势和资源监控。
告警概览直观地展示了整个云平台或项目级别的告警消息汇总和告警资源分配情况。
告警消息由触发中的告警规则产生,提供实时和历史告警的状态、级别、详情、来源等信息,帮助用户快速实现故障定位与异常排查,并支持屏蔽、取消屏蔽等操作来暂停和恢复实时消息的通知。
告警分组是关联告警规则与告警订阅的载体,告警分组会将组内规则产生的告警消息发送至目标订阅终端,并支持为关联的告警订阅设置单独的订阅策略。
告警订阅即通知渠道,支持设置邮箱、webhook地址类型的订阅终端,以接收已关联告警分组中的实时消息。
通过配额管理,对云监控服务相关的后台资源数量进行限制。
功能 | 说明 |
---|---|
支持更多类型的告警订阅 | 当前版本支持设置邮箱、webhook地址类型的告警订阅,后续版本将陆续支持企业微信、钉钉、飞书机器人等更多类型。 |
支持自定义告警规则 | 内置告警规则覆盖的是通用场景,而自定义告警规则可以覆盖用户差异化场景。 |
监控告警数据/图表导出 | 将平台运行状态数据离线导出,方便统计平台资源使用情况,有助于运维人员调查定位问题。 |
磁盘监控支持更多raid卡型号 | 引入arcconf raid卡工具,对更多raid卡型号提供支持。 |
...... | ...... |