可观测服务(Cloud Observability Service,EMLA)为数字原生引擎、云产品、用户负载各类资源提供监控管理、告警管理、日志管理功能,帮助用户随时掌握平台各类服务的运行状态,在故障发生后能够快速定位问题,提升运维效率。
产品优势
全方位监控
为用户提供全方位的监控能力,一个云平台涵盖数字原生引擎、云产品及用户负载监控数据。
开箱即用
为用户提供云产品开箱即用式的监控体验,用户使用可观测服务即可查看全方位的监控信息。
轻运维
支持跨区域的集中式批量监控,从单实例单资源的低效管理视角中脱离出来,让运维监控变得更高效有序。
定制告警
使用告警功能设置告警规则,帮助用户在复杂的业务场景下定制专属的告警系统,满足差异化需求。
多种通知渠道
告警消息可通过邮件、企业微信、钉钉、飞书等方式推送给用户,方便及时获取平台各类服务的运行状态。
开放API
提供功能完善的OpenAPI,方便用户将监控数据、告警消息等内容与用户的运维平台做集成。
主要功能
监控面板
- 监控概览:对全平台的监控信息的全景展现,帮助用户迅速定位集群异常状态。
- 控制服务状态:包括对数字原生引擎控制服务、云产品控制服务运行状态监控。
- 存储集群状态:包括存储集群健康状态、存储集群容量统计、存储集群IOPS/带宽、数据盘Smart信息、磁盘温度和磁盘坏扇区检测信息。
- 节点状态:包括节点CPU/内存使用情况、磁盘I/O使用率/速率/延迟、系统负载、网卡流量/包速率、网络延迟和温度、风扇转速信息。
- 其它服务:包括RabbitMQ、Etcd、APIServer的集群状态、节点状态、状态趋势和资源监控。
监控目标
监控服务通过监控目标抓取指标数据,生成时间序列持久化到数据库中。
告警概览
告警概览直观地展示了整个云平台或项目级别的告警消息汇总和告警资源分配情况。
告警消息
告警消息由触发中的告警规则产生,提供实时和历史告警的状态、级别、详情、来源等信息,帮助用户快速实现故障定位与异常排查,并支持屏蔽、取消屏蔽等操作来暂停和恢复实时消息的通知。
告警分组
- 告警分组是关联告警规则与告警订阅的载体。告警分组会将组内规则产生的告警消息发送至目标订阅终端,并支持为关联的告警订阅设置单独的订阅策略。
- 自定义告警分组、自定义告警规则,帮助用户在复杂的业务场景下定制专属的告警系统,满足差异化需求。
告警订阅
告警订阅即通知渠道,支持设置邮箱、Webhook地址等类型的订阅终端,以接收已关联告警分组中的实时消息。
日志下载
提供对平台所有组件的日志按天、按节点收集下载的功能。
配额管理
通过配额管理,对可观测平台相关的后台资源数量进行限制。