本章节主要介绍在节点状态页面中,针对节点状态的监控信息说明,包括节点资源使用情况、节点负载情况、节点磁盘信息和节点硬件信息。其中,在云平台的顶部导航栏中,依次选择[产品与服务]-[监控与管理]-[云监控服务],然后在左导航栏中,选择[监控管理]-[监控面板],点击[节点状态]页签,即可访问“节点状态”页面。
在该页面中,所有信息仅针对某一个节点做监控数据分析,如需切换节点,请在页面上方选择“节点”参数进行切换,“IP”参数是指该节点的IP地址。
当某个运行关键控制服务的节点上的部署网络断开时,可能会导致云监控服务无法获取该节点上的相关状态信息。
节点资源使用情况
在 节点资源使用情况 项,您可以查看到当前节点上物理CPU/ 内存/ 云主机CPU使用率总和/ 云主机内存使用率总和/ 磁盘的使用情况。
节点CPU使用率:在 节点CPU使用率 图表中,您可以清晰查看到当前CPU的使用率,当使用率超过70%时,会触发级别为 警告 的告警通知:节点 node-x:IP CPU使用率大于70%,当前为xx%。当节点CPU的使用率超过阈值90%时,会触发级别为 严重 的告警通知:节点 node-x:IP CPU使用率大于90%,当前为xx%。
节点物理内存使用情况:当鼠标移到图表上时,您可以看到对应图表上四种颜色的线条分别代表的含义以及对应的数值。
- 空闲量:空闲量代表着当前物理节点上内存的剩余 可使用量。
- 已使用量:已使用量代表着当前物理节点上内存已使用的数量。
- Cache使用量:Cache用于文件系统的缓存,Cache使用量 代表Cache已使用的数量。
- Buffers使用量:Buffers是块设备的读写缓冲区,更靠近存储设备,也可以理解为是磁盘的缓冲区,Buffers使用量 代表Buffers已使用的数量。
- 云主机CPU使用率总和:代表节点上云主机CPU负载使用率总和。
- 云主机内存使用率总和:代表节点上云主机内存使用率总和。
节点磁盘I/O使用率:该图表显示当前节点上单块磁盘的I/O使用率,根据磁盘花费的I/O时间的速率来计算的。当节点I/O磁盘使用率超出70%时,会触发级别为 警告 的告警通知:节点 node-x:IP 节点硬盘I/O使用率大于70%,当前为xx%。当节点硬盘I/O使用率超过阈值90%时,会触发级别为 严重 的告警通知:节点硬盘I/O使用率大于90%,当前为xx%。
节点磁盘I/O速率:该图表显示当前节点上所有磁盘的读写I/O速率。将鼠标移动到图表上,可以分别看到每块盘读写的I/O速率。
节点磁盘I/O延迟:该图表显示当前节点上所有磁盘的读写I/O延迟速率。将鼠标移动到图表上,可以分别看到每块盘读写的I/O延迟速率。
节点负载情况
节点负载情况 页面包括 节点系统负载 数据,网络接收数据流量,网络发送数据流量,网络接收数据包速率,网络发送数据包速率。
节点系统负载:节点系统负载是系统CPU繁忙程度的度量,即有多少进程在等待被CPU调度。图标左侧的数据单位是平均负载,即一段时间内系统的平均负载量,时间范围取1分钟、5分钟以及15分钟,您可以通过将鼠标移动到图表上方查看。
节点单核情况下:例如
Load < 0.7时:系统任务空闲,需要考虑部署服务,增加任务进程
0.7 < Load < 1:系统运行状态良好
Load == 1:系统已无额外的资源运行更多的进程
Load > 1:进程堵塞,等待资源
Load > 5:系统严重繁忙
不同Load值说明的问题:
1分钟Load > 5,5分钟Load < 1,15分钟Load < 1:短期内繁忙,中长期空闲,初步判断 是一个抖动或者是拥塞前兆
1分钟Load > 5,5分钟Load > 1,15分钟Load < 1:短期内繁忙,中期内紧张,很可能是一个拥塞的开始
1分钟Load > 5,5分钟Load > 5,15分钟Load > 5:短中长期都繁忙系统正在拥塞
1分钟Load < 1,5分钟Load > 1,15分钟Load > 5:短期内空闲,中长期繁忙,系统拥塞正在好转
您可以 监控概览 页面查看节点核数,Load值说明按照单核说明乘以对应核数的值说明
网络接收数据流量:该图表统计了节点内不同角色的网络在一段时间内接收的数据流量的数值。
网络发送数据流量:该图表统计了节点内不同角色的网络在一段时间内发送的数据流量的数值。
网络接收数据包速率:该图表统计了节点内不同角色的网络在一段时间内接收的数据包速率的数值。
网络发送数据包速率:该图表统计了节点内不同角色的网络在一段时间内发送的数据包速率的数值。
节点磁盘信息
节点磁盘信息 记录所有磁盘的运行健康状态、使用时长、温度监控以及磁盘损坏监控等。
节点磁盘信息列表:在该表格中您可以查看到当前节点上所有的磁盘型号、序列号、磁盘类型、磁盘容量、磁盘使用量、磁盘接口、硬盘以及健康状态,对于SSD盘,您还可以直接查看到固态硬盘的损耗率。当节点机械硬盘出现故障,会触发级别为 严重 的告警通知:节点 node-x:IP机械硬盘xxxxxx疑似出现故障。当节点机械硬盘负载较高,会触发级别为 严重 的告警通知:节点 node-x:IP机械硬盘xxxxxx负载较高,如果是数据盘,可能出现慢盘故障。当节点固态硬盘寿命损耗严重时,会触发级别为 严重 的告警通知:节点 node-x:IP 固态硬盘xxxxxx寿命指标大于90%,当前为xx%。当节点磁盘脱落,会触发级别为 严重 的告警通知:节点 node-x:IP 硬盘xxxxxx脱落。
磁盘温度监控:该图表记录节点上所有磁盘的温度监控数据,鼠标移动到图表上,可以分别查看到某个时间点上每块磁盘的详细温度值。
磁盘损坏扇区监控:该图表监控节点上所有磁盘的损坏情况。当节点机械硬盘出现损坏扇区,会触发级别为 严重 的告警通知:节点 node-x:IP 硬盘xxxxxx出现损坏扇区。
节点硬件信息
节点硬件信息 监控当前节点的CPU的温度/电压、风扇转速以及内存温度。
CPU温度:该图表监控当前节点上每个CPU的温度。
CPU电压:该图表监控当前节点上每个CPU的电压值。
风扇转速:该图表监控当前节点上每个风扇的转速值。
内存温度:该图表监控当前节点上所有内存设备的温度。
由于硬件兼容性的原因,部分硬件设备暂时无法获取CPU温度、CPU电压、内存温度信息或风扇转速的信息,我们将持续扩展硬件的兼容性为您提供更好的服务。
以下为平台暂不支持的硬件型号列表:
DELL: PERC H745P Adapter,PERC H745 Adapter,PERC H345 Adapter,PERC H330 Adapter,PERC FD33xD,PERC FD33xS。
HPE:Smart Array P830, Smart Array P830i, Smart Array P824i-P MR, Smart Array P840i-a, Smart Array P408i-a。
您可以重新自定义监控时间范围与监控频次。通过点击页面右上方的监控时间段与数据刷新间隔,监控时间范围可以细化到分钟,监控间隔可以细化到秒极。右上角的刷新按钮也可以实现实时刷新状态与数据。