功能介绍

本文提供可观测服务的功能详情

监控面板

监控概览

对全平台的监控信息的全景展现,帮助用户迅速定位集群异常状态。

控制服务状态

包括对数字原生引擎控制服务、云产品控制服务运行状态监控。

存储集群状态

包含存储集群健康状态、存储集群容量统计、存储集群IOPS/带宽、数据盘Smart信息、磁盘温度和磁盘坏扇区检测信息。

节点状态

包含节点CPU/内存使用情况、磁盘I/O使用率/速率/延迟、系统负载、网卡流量和温度、电风扇转速信息。

其它服务

提供包括RabbitMQ、Etcd、APIServer的集群状态、节点状态、状态趋势和资源监控。

监控目标

监控服务通过监控目标抓取指标数据,生成时间序列持久化到数据库中。

告警概览

告警概览直观地展示了整个云平台或项目级别的告警消息汇总和告警资源分配情况。

告警消息

告警消息由触发中的告警规则产生,提供实时和历史告警的状态、级别、详情、来源等信息,帮助用户快速实现故障定位与异常排查,并支持屏蔽、取消屏蔽等操作来暂停和恢复实时消息的通知。

告警分组

告警分组是关联告警规则与告警订阅的载体,告警分组会将组内规则产生的告警消息发送至目标订阅终端,并支持为关联的告警订阅设置单独的订阅策略。

告警订阅

告警订阅即通知渠道,支持设置邮箱、webhook地址类型的订阅终端,以接收已关联告警分组中的实时消息。

日志下载

提供对平台所有组件的日志按天、按节点收集下载的功能。

配额管理

通过配额管理,对云监控服务相关的后台资源数量进行限制。

功能规划 敬请期待

功能说明
监控告警数据/图表导出将平台运行状态数据离线导出,方便统计平台资源使用情况,有助于运维人员调查定位问题。
磁盘监控支持更多raid卡型号引入arcconf raid卡工具,对更多raid卡型号提供支持。
............