本文提供可观测服务的功能详情
对全平台的监控信息的全景展现,帮助用户迅速定位集群异常状态。
包括对数字原生引擎控制服务、云产品控制服务运行状态监控。
包括存储集群健康状态、存储集群容量统计、存储集群IOPS/带宽、数据盘Smart信息、磁盘温度和磁盘坏扇区检测信息。
包括节点CPU/内存使用情况、磁盘I/O使用率/速率/延迟、系统负载、网卡流量/包速率、网络延迟和温度、风扇转速信息。
包括RabbitMQ、Etcd、APIServer的集群状态、节点状态、状态趋势和资源监控。
监控服务通过监控目标抓取指标数据,生成时间序列持久化到数据库中。
告警概览直观地展示了整个云平台或项目级别的告警消息汇总和告警资源分配情况。
告警消息由触发中的告警规则产生,提供实时和历史告警的状态、级别、详情、来源等信息,帮助用户快速实现故障定位与异常排查,并支持屏蔽、取消屏蔽等操作来暂停和恢复实时消息的通知。
告警分组是关联告警规则与告警订阅的载体,告警分组会将组内规则产生的告警消息发送至目标订阅终端,并支持为关联的告警订阅设置单独的订阅策略。 自定义告警分组、自定义告警规则,帮助用户在复杂的业务场景下定制专属的告警系统,满足差异化需求。
告警订阅即通知渠道,支持设置邮箱、Webhook地址等类型的订阅终端,以接收已关联告警分组中的实时消息。
提供对平台所有组件的日志按天、按节点收集下载的功能。
通过配额管理,对可观测平台相关的后台资源数量进行限制。
功能 | 说明 |
---|---|
云主机监控 | 重构云主机监控架构,优化超大规模环境下数据采集性能。 |
支持重点云产品可观测需求落地 | 高性能云存储自定义告警、多存储池统一监控、volume粒度的性能度量等需求实现。 |
日志租户隔离 | 重构日志持久化方案,适配平台组织架构,支持租户隔离。 |
日志分类收集 | 分类收集数字原生引擎、云产品、用户负载类型资源的日志。 |
日志浏览、搜索、下载 | 支持页面浏览、搜索、下载日志。 |
日志关键字过滤 | 生成指标统计关键字出现的次数,用于图表展示或自定义告警规则。 |
声明式注册日志数据源 | 方便为云产品和用户负载资源定义哪些日志需要收集,实现云产品和用户业务与基础平台解耦。 |
k8s事件持久化 | 将k8s事件持久化到数据库中,方便日后辅助排查具体问题。 |
...... | ...... |