Loading
close

告警分组

time 更新时间:2024-08-20 19:36:26

本章节主要介绍在内置/自定义告警分组页面中,通过关联告警订阅资源,将内置/自定义告警规则产生的告警消息以分组的形式发送至订阅终端,同时支持为关联的告警订阅设置单独的订阅策略。在云平台的顶部导航栏中,依次选择[产品与服务]-[可观测性]-[告警管理]后,在左侧导航栏中选择[告警分组],即可访问“告警分组”页面。

告警分组

告警分组分为内置分组和自定义分组。

  • 内置分组:平台预定义分组,用户对其有有限的操作权限。
  • 自定义分组:用户创建的分组,对自身创建的资源有全部操作权限。

查看分组

进入[告警分组]页面后,即可查看所有告警分组的基本信息。
告警分组存在三个分类,分别为:

  • 数字原生引擎
  • 云产品
  • 用户负载

用户可以点击左上角复选框来展示所需分类后的告警分组信息,每个类型的告警资源又同时属于某个组件,包括但不限于:

  • 数字原生引擎:自动化中心,云开放平台,微服务编排系统,磐石云操作系统,分布式存储,事件网格,云控制台,主机高可用,身份与访问管理,平台中间件,监控基础服务,日志基础服务,通用;
  • 云产品:高性能存储,容灾服务,资源编排,裸金属服务,Kubernetes容器服务,安全容器服务,应用中心,计算服务,镜像服务,块存储服务,网络服务,可观测服务,计量服务,计费服务,独享型负载均衡,通用;
  • 用户负载:可选项同云产品分类。
tip

其中部门/项目信息只在云管理员权限才会展示。

查看内置分组列表

内置分组为平台预定义分组,用户对其有有限的操作权限。点击左上方的内置分组即可进入内置分组页面。

./images/AlertingGroups/group_list_builtin.png

查看内置分组详情

点击内置告警分组名称即可进入分组详情页,页面上除基本信息以外,还会展示属于该告警分组的告警规则的列表,以及与其关联的告警订阅的信息。

./images/AlertingGroups/group_detail_builtin.png

查看自定义分组列表

自定义分组为用户可创建分组,且对自身创建的资源有全部操作权限。点击左上方的自定义分组即可进入自定义分组页面。

./images/AlertingGroups/group_list_custom.png

查看自定义分组详情

点击自定义告警分组名称即可进入分组详情页,页面上除基本信息以外,还会展示属于该告警分组的告警规则的列表,以及与其关联的告警订阅的信息。

./images/AlertingGroups/group_detail_custom.png

创建分组

点击右上角创建按钮即可以创建自定义告警分组。创建分组时可填字段如下:

  • 名称,该字段只能由中文字符、英文字母、数字及“_”、“-”、“.”、“:”、“/”组成,且同一项目下不能重复;
  • 描述,该字段可填写任意字符,但长度存在限制,只可输入 256 个字符;
  • 分类,该字段可选以下分类:数字原生引擎、云产品、用户负载;
  • 组件,该字段可选项具体查看 查看分组章节
    tip

    当告警分组的分类和组件确定时,在该告警分组下只能创建相同类型的告警规则。

./images/AlertingGroups/group_create.png

编辑分组

点击告警分组列表页右侧 编辑 按钮或者在告警分组详情页点击右上角 更多操作-编辑 按钮即可编辑告警分组。

编辑内置分组

内置分组可编辑字段有:

  • 描述,该字段可填写任意字符,但长度存在限制,只可输入 256 个字符。

./images/AlertingGroups/group_edit_builtin.png

编辑自定义分组

自定义分组可编辑字段有:

  • 名称,该字段只能由中文字符、英文字母、数字及“_”、“-”、“.”、“:”、“/”组成,且同一项目下不能重复;
  • 描述,该字段可填写任意字符,但长度存在限制,只可输入 256 个字符。

./images/AlertingGroups/group_edit_custom.png

删除分组

自定义告警分组支持删除操作,用户可点击告警分组列表页右侧的 删除 按钮或者在自定义告警分组详情页右上角 更多操作-删除 按钮即可删除自定义告警分组,删除告警分组后,分组下的告警规则将一并被删除。

./images/AlertingGroups/group_delete.png

告警规则

查看规则

点击内置/自定义告警分组名称,进入告警分组的详情页面,在该页面即可看到该告警分组下所有的告警规则信息。

查看内置规则列表

内置规则为平台预定义规则,用户对其有有限的操作权限。点击进入内置分组详情页即可查看该告警分组下的内置规则列表。

./images/AlertingGroups/rule_list_builtin.png

查看内置规则详情

点击内置规则名称即可查看规则详情信息,详情页面除基本信息外,还展示了告警规则的详细内容,如告警概述、告警详情、告警表达式、持续时间、监控数据和解决方案,其中监控数据展示了该告警规则在指定时间内的趋势变化,可以调整时间范围,同时可以点击右侧的 展开/收起图例 按钮查看每条线单独的变化。

./images/AlertingGroups/rule_detail_builtin.png

查看自定义规则列表

自定义规则为用户可创建规则,且对自身创建的资源有全部操作权限。点击进入自定义分组详情页即可查看该告警分组下的自定义规则列表。

./images/AlertingGroups/rule_list_custom.png

查看自定义规则详情

点击自定义规则名称即可查看规则详情信息,详情页面除基本信息外,还展示了告警规则的详细内容,如告警概述、告警详情、告警表达式、持续时间、监控数据和解决方案,其中监控数据展示了该告警规则在指定时间内的趋势变化,可以调整时间范围,同时可以点击右侧的 展开/收起图例 按钮查看每条线单独的变化。

./images/AlertingGroups/rule_detail_custom.png

创建规则

点击自定义告警分组详情页-告警规则列表上的 创建 按钮,即可创建自定义告警规则,创建方式分为全新创建和模板创建:

  • 全新创建,可以从零创建告警规则的内容;
  • 模板创建,可用当前项目下同分类、同组件分组中的现有告警规则资源为模板,创建新的告警规则。
    • 类型选择,类型可以选择内置规则和自定义规则;
    • 规则选择,规则可以选择在指定类型下现存的告警规则,选择后将自动填充下方表单。
tip

组件为通用类型的告警分组可跨组件创建规则,否则只能创建同类型同组件的告警规则。

./images/AlertingGroups/rule_create.png

以上表单可填字段解释如下:

  • 告警名称,同一分组下不能重复,最长输入 256 个字符;
  • 告警级别,可选信息、警告、严重;
  • 作用范围,可选当前Region、当前项目、指定命名空间,当选择指定命名空间时,需要填写命名空间的名称。选择作用范围后,告警表达式中的相应标签将被覆盖,最终设置以预览结果为准,且该字段一旦设置并成功创建规则后,将无法修改;
  • 告警概述,描述了该告警规则的摘要信息。例如:节点下服务状态异常,持续 5 分钟告警。,语法参考:
  • 告警详情,描述了该告警规则的详细信息。例如:节点 {{ $labels.instance }} 下服务 {{ $labels.service }} 状态异常。,语法参考:
  • 告警表达式,表示触发告警的 PromQL。例如:node_cpu_utilization > 90,语法参考:
  • 持续时间,监控数据达到阈值,持续指定时间后将触发告警消息;
  • 监控数据查询,一般为告警表达式去除阈值后的 PromQL,以显示连续的历史监控数据,例如:告警表达式: node_cpu_utilization > 90,监控数据查询: node_cpu_utilization,设置完成后可以在下方可视化字段查看查询后的图表;
  • 阈值线,一条带颜色的水平线,可设置线条含义,帮助用户快速识别数据是否超出了预设的安全范围或目标值;
  • 图例,这是显示在图表旁的一个小区域,用于解释图表中每个数据系列的名称和颜色,例如:<node_name>;
  • 单位,用于描述数据的度量标准,例如:%;
  • 标签,告警规则标签将覆盖最终生成的告警消息标签,建议为标签键命名时添加独特的前缀或后缀,谨防覆盖;
  • 解决方案,一般设置为出现告警后的处理措施,最长输入 512 个字符。

编辑规则

点击自定义告警规则列表页右侧的 编辑 按钮或者点击自定义告警规则详情页右上角 更多操作-编辑 来编辑自定义告警规则。

tip

如果该告警规则处于已触发状态,当编辑告警规则指定字段时(告警名称、告警级别、标签),则会产生新的告警消息,之前产生的告警消息会在一段时间后变为已恢复状态。

./images/AlertingGroups/rule_edit.png

启用规则

告警规则支持启用操作,用户可点击告警规则列表页右侧的 启用 按钮或者点击告警规则详情页右上角 更多操作-启用 来开启告警规则。启用的规则触发后将会产生告警消息。

tip

已启用的告警规则不支持再次启用。

./images/AlertingGroups/rule_enable.png

禁用规则

告警规则支持禁用操作,用户可点击告警规则列表页右侧的 禁用 按钮或者点击告警规则详情页右上角 更多操作-禁用 来关闭告警规则。禁用的规则将不会产生告警消息。

tip

已禁用的告警规则不支持再次禁用。

./images/AlertingGroups/rule_disable.png

删除规则

自定义告警规则支持删除操作,用户可点击告警规则列表页右侧的 删除 按钮或者点击告警规则详情页右上角 更多操作-删除 来删除自定义告警规则。

./images/AlertingGroups/rule_delete.png

已关联告警订阅

在内置/自定义告警分组详情页下,点击 已关联告警订阅 可以查看与该告警分组已经关联的告警订阅。

./images/AlertingGroups/subs_related_list.png

关联订阅

在已关联告警订阅页面下,点击左上角的 关联订阅 ,或者在告警分组的列表页面点击操作列中的 关联订阅 来关联一个或多个新的告警订阅。点击关联订阅后,填写弹窗中的配置信息:

  • 订阅名称:点击订阅名称的下拉框可以选择当前项目下的告警订阅,可多选/全选;

  • 订阅策略:

    • 分组等待:告警名称相同的消息会被聚合在一起发送出去,这是最初聚合消息被发送之前的等待时间,通常为0s到几分钟。等待时间越短,告警消息发送就越及时,同时也可能需要分更多次才能发送完所有的告警消息;反之将聚合到更多的初始告警消息,一次发送出去。默认值:30s,取值范围:0s~5m,一般使用默认值即可;

    • 分组间隔:告警名称相同的消息会被聚合在一起发送出去,这是发送完初始聚合消息之后、发送新的告警消息之前的等待时间,通常为5m或更多,这些新消息会被添加到已经聚合的告警消息中。间隔时间越短,新的告警消息发送就越及时,同时也可能需要分更多次才能发送完所有的告警消息;反之将聚合到更多新的告警消息,一次发送出去。默认值:5m,取值范围:15s~15m,一般使用默认值即可;

    • 重复间隔:告警消息发送成功后,再次发送消息的等待时间,通常为3h或更多,如果在此之前告警已经恢复,则不会重复发送。默认值:3h,取值范围:1m~24h。

tip

告警订阅可能会有偶尔重复发送告警通知的现象,且当分组间隔时间设置小于等于1min时,偶现概率会变大,因此建议分组间隔时间设置大于1min,与默认值相近。

用户还可以通过添加子策略的形式,更深层次的定制订阅策略的内容,在子策略中可以通过标签匹配的方式更细粒度的控制告警消息发送通知的策略,标签匹配的内容分为内置和自定义:

  • 内置

    • 标签键:告警级别
    • 操作符:=(等于)、!=(不等于)
    • 标签值:严重、警告、信息
  • 自定义

    • 标签键:需要自定义标签键名称
    • 操作符:=(等于)、!=(不等于)、=~ (正则匹配)、!~ (正则不匹配)
    • 标签值:选择自定义键时,用户需要自定义输入标签值
tip

最多支持2层子策略嵌套,每层最多设置10条子策略。

请注意子策略中的订阅策略优先级大于上级订阅策略,子策略中配置的策略时间会覆盖上级策略配置的策略时间。

./images/AlertingGroups/subs_related.png

查看策略

在内置/自定义告警分组详情页下,点击 已关联告警订阅 可以查看与该分组已经关联的告警订阅。点击列表页中的操作列下的 查看策略 可以查看设置好的订阅策略的详细信息。

./images/AlertingGroups/subs_cat.png

更新策略

在内置/自定义告警分组详情页下,点击 已关联告警订阅 可以查看与该分组已经关联的告警订阅。点击列表页中的操作列下的 更新策略 可以更新订阅策略。

./images/AlertingGroups/subs_update.png

解除订阅

在内置/自定义告警分组详情页下,点击 已关联告警订阅 可以查看与该分组已经关联的告警订阅。点击列表页中的操作列下的 解除订阅 可以解除当前告警分组与已关联订阅的关联关系。

./images/AlertingGroups/subs_unrelated.png

此篇文章对你是否有帮助?
没帮助
locked-file

您暂无权限访问该产品