常见问题

本页面提供关于可观测服务的一些常见问题的解答

一般性问题

监控了哪些内容？

可观测服务对 数字原生引擎、云产品 和 用户负载 都进行了相关监控。 数字原生引擎 包括云平台操作系统及服务器硬件状态，例如：Linux OS，物理磁盘状态、CPU温度、风扇转速等；同时包括云平台核心服务状态，例如：计算、网络、存储、数据库、消息队列等服务。除此以外，丰富云平台功能的众多 云产品 也在可观测服务的视野当中，例如：容器服务、数据保护、资源编排、多区域管理、Devops等服务，帮助用户时刻掌握云平台各项服务的状态。用户创建负载均衡实例、裸金属实例、在用户命名空间下创建容器等资源，这些都属于 用户负载，可观测服务通过云产品预先定义的告警规则模板，自动为用户项目或命名空间添加告警规则和告警分组，并在资源状态异常时实时发送告警通知给用户，减少业务中断。

支持哪些告警通知方式？

支持通过邮件、企业微信、钉钉、飞书 和 Webhook 五种方式推送平台监控告警信息。用户可以创建告警订阅资源，然后与某些告警分组绑定、设置通知策略，按需订阅告警消息，极大提高了告警通知的灵活性。

正在发生的告警，发送通知的策略是什么？

告警分组关联告警订阅时，需要设置通知策略，默认重复周期为3h。用户可以通过修改默认值、添加子策略的方式，自定义通知策略。

可以保存多长时间的监控数据和告警消息？

默认保存最近30天的监控数据、展示最近15天(上限5万条)的告警消息。目前还不支持用户自定义修改，需要提交变更申请，后台手动变更。

如何修改告警阈值？

内置告警规则不支持修改告警阈值，如果内置告警规则无法满足用户使用场景，可以禁用内置规则后，创建自定义规则。 自定义告警规则可以进行任何符合校验的设置，以满足用户的差异化需求。

开放API支持哪些功能对接？

可观测服务支持 Prometheus 原生的查询语言 PromQL，允许即时查询以及范围查询监控数据。查询后的结果可以显示为各式图表（对接 Grafana 等），也可以通过联邦机制对接给其他监控系统。同时提供实时和历史告警消息的查询，支持获取平台/项目的告警，用于异常情况下的故障分析和第三方告警系统对接等场景。

常见问题解决

如何让告警不发通知？

若不想再收到所有告警的通知，只需去除自己的联系方式即可，如在告警订阅资源中删除自己的邮箱，或者禁用关联的告警订阅资源。若想暂时停止某些告警的通知，只需在告警消息页面勾选这些告警，点击屏蔽消息，完成即可。

监控概览的平台服务健康状态的依据是什么？

判断依据来源于控制服务状态页面的各项服务状态，您可以点击详情，直接跳转至控制服务状态页面进行查看。平台服务状态健康状态与控制服务状态关系如下：

健康：控制服务和控制子服务运行状态均为运行中；
警告：控制服务存在警告状态或控制子服务存在警告、停止、无数据和未知状态；
故障：控制服务存在停止、无数据和未知状态。

如何停止监控页面的刷新？

监控页面自动刷新周期默认为5分钟，点击标题行最右侧的齿轮图标，可查看预选值。若想停止刷新，选择“停止刷新”并保存即可。

如何修改监控时间范围？

监控数据展示时间范围默认为3小时，可点击页面右上角的选择框，查看预选值，选择或自定义即可修改。