本章节主要介绍在存储集群状态页面中,针对存储集群状态的监控信息说明,包括存储集群状态、存储集群实际可用容量、存储集群裸容量、存储集群性能和磁盘信息。其中,在云平台的顶部导航栏中,依次选择[产品与服务]-[监控与管理]-[云监控服务]后,选择[存储集群状态]页签,即可访问“存储集群状态”页面。
存储集群状态
存储集群状态 清晰地展现存储集群的健康状态以及OSD(Object Storage Device:提供块存储资源)的数目和状态。
存储集群健康状态
存储集群健康状态分为健康、警告和错误。
当集群出现如下问题时,集群会处于警告状态
- 存储集群控制服务1个副本(集群共有3个控制服务副本)无法提供服务
- 存储集群中有数据处于降级状态(存储数据的3个副本有1-2个副本数据不一致)。
- 存储集群处于数据再平衡维护状态。
存储集群处于警告状态,系统将会发出告警,告警内容:存储集群健康性异常,处于警告状态以及详细原因。如果控制服务出现停止服务状态,系统将发出告警,告警内容:节点 node-x:IP 存储控制服务停止服务。
存储集群处于数据再平衡维护状态。您可以在存储集群健康状态查看数据再平衡详细信息包括:恢复速度,待平衡进度和预计剩余时长。需要注意的是这些详细信息在数据再平衡过程中会出现闪烁消失直到完成,但是这是系统在界面显示上正常的可预期行为。
当集群出现如下问题时,集群会处于错误状态
- 存储集群控制服务2个副本(集群共有3个控制服务副本)无法提供服务
存储集群处于错误状态,系统将会发出严重告警,告警内容:存储集群健康性异常,处于错误状态以及详细原因。如果控制服务出现停止服务状态,系统将发出告警,告警内容:节点 node-x:IP 存储控制服务停止服务。
OSD 运行状态
页面中将显示集群OSD总数,集群中每个节点有一个OSD作为缓存盘存在, 其他OSD对应一块机械硬盘,正常提供服务的OSD运行状态应该状态Up并且处于In状态,如果OSD出问题会先变成状态会变为Down,并且暂时不提供服务。
OSD Down后,该数据盘将暂时不在存储集群中提供服务,OSD Down的原因有以下几种可能性:1、OSD对应机械硬盘离开服务器;2、OSD对应节点处于下线状态;3、OSD所在节点的OSD服务出现问题。
OSD 处于Down状态后,如果一定时间(默认1h,您可以在自动化中心中更改磁盘离线时间)内OSD状态恢复,会重新变成Up,如果超时后仍然没有加入集群,状态会变为Out状态,这将需要您手动更换磁盘问题。
存储集群实际可用容量
为了保证数据的安全性和可靠性, 在存储集群中数据是以三副本形式存在。所以存储集群可用容量是存储集群总容量除以副本数, 平台产品默认数据副本数为3,您的数据可用容量约为集群物理存储总容量的三分之一, 还有一部分空间用于元数据的存储。
您在 存储集群实际可用容量 展示项中可以查看到集群中用户可使用的、已使用的和总共的可用容量。在右侧的圆饼图中,您也可以查看到集群使用的详细情况,存储集群可用容量主要用于后端的 镜像存储池、控制平面数据存储池、云硬盘备份存储池、云硬盘存储池、监控数据存储池 。
系统会针对存储池使用情况进行监控,当存储池使用率超过70%时,系统会发出告警,告警内容:存储池xxxx使用率大于70%,当前为xx%。当存储池使用率超过90%时,系统会发出严重告警,告警内容:存储池xxxx使用率大于90%,当前为xx%。
当您收到存储池使用率超过阈值告警时,建议您联系您的产品服务提供商,进行云环境扩容。
存储集群裸容量
存储集群裸容量:是存储集群中,用于数据裸存储的物理磁盘裸容量,通过存储集群裸容量,您可以了解到系统数据存储的容量使用情况。
系统会针对存储池OSD容量使用情况进行监控,当某个OSD使用率超过70%时,系统会发出告警,告警内容:节点 node-x:IP OSD.N使用率大于70%,当前为xx%。当某个OSD使用率超过90%时,系统会发出严重告警,告警内容:节点 node-x:IP OSD.N使用率大于90%,当前为xx%。
当您收到存储池使用率超过阈值告警时,建议您联系您的产品服务提供商,进行云环境扩容。
您在 存储集群裸容量 展示项中可以查看到可使用、已使用以及总共的数据裸容量。在右侧的圆饼图中,您也可以直观的查看集群裸容量使用率。
存储集群性能
在 存储集群性能 展示项中您可以查看到存储集群整体的IOPS和带宽。鼠标移动到图表上后,可以分别查看到整个存储集群读写的IOPS和带宽。
- 什么是 IOPS?
IOPS (Input/Output Operations Per Second),即存储集群每秒进行读写(I/O)操作的次数,多用于衡量存储集群的访问性能。这里您看到的集群IOPS是集群在时间段内接收读写以及数据同步请求的次数
磁盘信息
在 磁盘信息 展示项中列出存储集群中所有的磁盘信息,包括磁盘型号、序列号、磁盘类型、磁盘容量、磁盘使用量、磁盘接口、节点、硬盘、健康状态以及固态硬盘寿命损耗率。
警告:
如果固态硬盘损耗率>90%,系统将发出告警,请您及时更换固态硬盘。
您也可以监控到集群所有节点上所有磁盘的温度以及磁盘损坏情况。
警告:
如果出现磁盘损坏情况,请您根据自动化中心管理与维护中的更换磁盘说明及时更换您的磁盘
您可以重新自定义监控时间范围与监控频次,点击页面右上方的监控时间段与数据刷新间隔。监控时间范围可以细化到分钟,监控间隔可以细化到秒级。右上角的刷新按钮也可以实现实时刷新状态与数据。此外,您也可以通过在监控图表中通过鼠标拖动一个时间段,那么整个看板都会显示您选择的监控时间段进行数据展现。