本页面提供关于可观测服务的一些常见问题的解答
可观测服务对 数字原生引擎、云产品 和 用户负载 都进行了相关监控。 数字原生引擎 包括云平台操作系统及服务器硬件状态,例如:Linux OS,物理磁盘状态、CPU温度、风扇转速等;同时包括云平台核心服务状态,例如:计算、网络、存储、数据库、消息队列等服务。 除此以外,丰富云平台功能的众多 云产品 也在可观测服务的视野当中,例如:容器服务、数据保护、资源编排、多区域管理、Devops等服务,帮助用户时刻掌握云平台各项服务的状态。 用户创建负载均衡实例、裸金属实例、在用户命名空间下创建容器等资源,这些都属于 用户负载,可观测服务通过云产品预先定义的告警规则模板,自动为用户项目或命名空间添加告警规则和告警分组,并在资源状态异常时实时发送告警通知给用户,减少业务中断。
支持通过 邮件、企业微信、钉钉、飞书 和 Webhook 五种方式推送平台监控告警信息。 用户可以创建告警订阅资源,然后与某些告警分组绑定、设置通知策略,按需订阅告警消息,极大提高了告警通知的灵活性。
告警分组关联告警订阅时,需要设置通知策略,默认重复周期为3h。 用户可以通过修改默认值、添加子策略的方式,自定义通知策略。
默认保存最近30天的监控数据、展示最近15天(上限5万条)的告警消息。 目前还不支持用户自定义修改,需要提交变更申请,后台手动变更。
内置告警规则不支持修改告警阈值,如果内置告警规则无法满足用户使用场景,可以禁用内置规则后,创建自定义规则。 自定义告警规则可以进行任何符合校验的设置,以满足用户的差异化需求。
可观测服务支持 Prometheus 原生的查询语言 PromQL,允许即时查询以及范围查询监控数据。查询后的结果可以显示为各式图表(对接 Grafana 等),也可以通过联邦机制对接给其他监控系统。 同时提供实时和历史告警消息的查询,支持获取平台/项目的告警,用于异常情况下的故障分析和第三方告警系统对接等场景。
若不想再收到所有告警的通知,只需去除自己的联系方式即可,如在告警订阅资源中删除自己的邮箱,或者禁用关联的告警订阅资源。若想暂时停止某些告警的通知,只需在告警消息页面勾选这些告警,点击屏蔽消息,完成即可。
判断依据来源于控制服务状态页面的各项服务状态,您可以点击详情,直接跳转至控制服务状态页面进行查看。平台服务状态健康状态与控制服务状态关系如下:
监控页面自动刷新周期默认为5分钟,点击标题行最右侧的齿轮图标,可查看预选值。若想停止刷新,选择“停止刷新”并保存即可。
监控数据展示时间范围默认为3小时,可点击页面右上角的选择框,查看预选值,选择或自定义即可修改。