本章节主要介绍在监控概览页面中,针对云平台整体监控信息的概括说明,帮助用户迅速定位集群异常状态,包括虚拟资源状态、集群状态、存储集群状态。其中,在云平台的顶部导航栏中,依次选择[产品与服务]-[可观测性]-[监控管理],然后在左导航栏中,选择[监控面板],即可访问“监控概览”页面。
监控概览页面每5分钟会自动进行一次监控数据更新,如果您需要查看实时数据,可以点击页面右上角的刷新按钮查看各项监控数据信息。
虚拟资源状态
虚拟资源状态 是对平台中虚拟资源的概况展示。展示集群中创建的云主机的总数,不同状态的云主机数目,以及vCPU/内存利用率Top 5的云主机名称和对应的具体数据。在 虚拟资源状态 显示区同样也展示虚拟资源的使用情况,包括vCPU/虚拟内存/云硬盘的使用情况。
当您的云主机的操作系统镜像没有安装 virtio_ballon 驱动时(一般 windows 操作系统默认不安装该驱动,需要另行安装),将无法获取到云主机的内存利用率和使用情况。
集群状态
集群状态 展示项中您可以清晰查看 平台服务健康状态、存储服务健康状态、节点 在线/维护/异常/离线等状态、物理CPU/内存/存储使用情况 等。集群状态 也可以帮助您一目了然的了解到集群的物理资源使用情况,当资源不足时,需要尽快扩容或清理资源。您也可以点击 集群状态 中监控数据右上角标识有 详情的按钮,进入到对应详细的监控页面。
平台服务健康状态
平台服务健康状态展示集群微服务的总体健康状态。
存储服务健康状态
存储服务健康状态展示后端存储服务的总体健康状态。
节点状态
节点状态显示集群中的物理节点和虚拟节点的总量,以及不同状态下的节点数。
物理 CPU 使用情况
物理 CPU 总量为您当前云环境的物理节点 CPU 总核数(未计算超售比),物理 CPU 可用数量是总量减去平台控制服务和当前云主机占用的 CPU 核数后,您的云主机与控制平面可以使用的数量(未计算超售比)。
物理存储使用情况
物理存储使用情况为您展现当前集群中已使用存储的容量、可用存储的容量以及整个集群的总容量,当您的可用容量不足时,平台会发出告警通知,您应及时清理数据或扩容集群存储,以避免集群中数据丢失。
物理内存使用情况
物理内存总量为您当前云环境的物理内存总量,物理内存可用数量是总量减去平台控制服务和当前云主机占用的内存数量后,您的云主机与控制平面可以使用的数量。
可观测服务将监控所有在线节点的运行情况,当节点处于离线状态时(节点控制网络与集群无法联通),可观测服务将不再监控该节点的运行状态。集群中节点被删除时,可观测服务仍会保留节点删除前的监控信息。该部分信息不会随着节点删除而被删除,而是随着监控数据过期后被自动清理。平台默认保存最近30天的监控数据。
存储集群状态
存储集群状态 展示集群中缓存盘、数据盘及系统盘的总数和相应的健康状态,集群数据盘IO 延迟 Top5、存储集群IOPS 以及 存储集群的读写带宽。