本章节主要介绍在监控概览页面中,针对云平台整体监控信息的概括说明,帮助用户迅速定位集群异常状态,包括虚拟资源状态、集群状态、存储集群状态和告警。其中,在云平台的顶部导航栏中,依次选择[产品与服务]-[监控与管理]-[云监控服务]后,选择[监控概览]页签,即可访问“监控概览”页面。
虚拟资源状态
虚拟资源状态 是对平台中虚拟资源的概况展示。展示集群中创建的云主机的总数,不同状态的云主机数目,以及vCPU/内存利用率Top 5的云主机名称和对应的具体数据。在 虚拟资源状态 显示区同样也展示虚拟资源的使用情况,包括vCPU/虚拟内存/系统盘/云硬盘的使用情况。
警告:
当您的云主机的操作系统镜像不支持 virtio_ballon 驱动时(一般 windows 操作系统不支持该驱动,需要另行安装。),将无法获取到云主机的内存利用率和使用情况。
集群状态
集群状态 展示项中您可以清晰查看 平台服务健康状态 、 存储服务健康状态 、 物理节点 在线/维护/异常/离线等状态、 物理CPU/内存/存储使用情况 等。
- 集群服务健康状态展示集群微服务的总体健康状态。
- 存储服务健康状态展示后端存储服务的总体健康状态。
- 物理节点显示集群总共物理节点数量,以及不同状态下的节点数。
集群状态 也可以帮助您一目了然的了解到集群的物理资源使用情况,当资源不足时,需要尽快扩容或清理资源。您也可以点击 集群状态 中每一项监控数据右上角的 详情 按钮,进入到对应详细的监控页面。
物理 CPU 使用情况
物理 CPU 总量为您当前云环境的物理节点 CPU 总核数(未计算超售比),物理 CPU 可用数量是总量减去平台控制服务和当前云主机占用的 CPU 核数后,您的云主机与控制平面可以使用的数量(未计算超售比)。
物理存储使用情况
物理存储使用情况为您展现当前集群中已使用存储的容量、可用存储的容量以及整个集群的总容量,当您的可用容量不足时,平台会发出告警通知,您应及时清理数据或扩容集群存储,以避免集群中数据丢失。
物理内存使用情况
物理内存总量为您当前云环境的物理内存总量,物理内存可用数量是总量减去平台控制服务和当前云主机占用的内存数量后,您的云主机与控制平面可以使用的数量。
警告:
CMS将监控所有在线节点的运行情况,当节点处于离线状态(节点控制网络与集群无法联通),这时,CMS将不再监控该节点的运行状态。集群中节点被删除时,CMS仍会保留节点删除前的监控信息。该部分信息不会随着节点删除而被删除。
存储集群状态
存储集群状态 展示集群中缓存盘、数据盘及系统盘的总数和相应的健康状态,集群数据盘IO 延迟 Top5, 以及 存储集群的读写带宽。
告警状态
在 监控概览 页面告警状态分别显示最近3条告警级别为 严重 和 警告 的告警信息,并显示两种状态的告警数目,如果需要解所有告警级别的详细信息数据或者是近7天所有的告警信息,您可以点击 告警 栏上方的 详情 按钮跳转到 告警状态 页面进行查看。
监控概览页面每5分钟会自动进行一次监控数据更新,如果你需要查看实时数据,可以点击页面右上角的 刷新按钮查看各项监控数据信息。