问题描述
在物理服务器中,缓存盘用于存放分布式存储系统的读写缓存数据。在每台物理服务器中,由两块SATA接口的SSD固态硬盘组成RAID1阵列。
缓存盘RAID1阵列中的两块固态硬盘互为冗余,阵列中的一块硬盘发生故障整个平台仍将正常工作,但此时RAID1阵列将降级使缓存盘中的数据失去保护。监控平台会对两块缓存盘的健康性进行监控,如果发现其中一块处于慢盘、损坏、接近使用寿命期限状态时,监控平台会发出告警邮件提醒用户更换这块硬盘,更换操作不会造成缓存盘数据的丢失。
说明:
- 当缓存盘出现问题时,建议立即进行更换。否则,当两块缓存盘都出现问题时,当前的节点将无法提供存储服务,存储服务将会处于服务降级状态,只有两个副本的数据在集群中,但是运行在节点上的云主机仍然能够正常提供服务。
- 当待更换的缓存盘已配置为RAID1时,请在更换前先参考 修改硬盘故障隔离策略 配置硬盘故障隔离策略为“仅告警”,以防止硬盘被误隔离处理。
解决方案
在此系列产品中,由PCIe硬盘控制器(RAID卡)管理缓存盘RAID1阵列。对于缓存盘RAID1阵列中的一块硬盘需要更换的场景,服务器不需要停机。
查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号。
在云平台的顶部导航栏中,依次选择[产品与服务]-[运维管理]-[自动化中心]后,选择“节点信息”区域框,并单击
节点管理
,进入“节点管理”页面。定位硬盘。
单击上述节点名称,进入其详情页面。
选择[硬盘配置]页签后,根据硬盘序列号,找到对应的异常硬盘,并单击其前方的指示灯图标,使服务器中该硬盘的指示灯开始闪烁(此时该硬盘的状态指示灯应显示为蓝色并慢速闪烁),以便在前置硬盘箱或后置硬盘槽位上找到待更换的硬盘。在定位结束后,请再次在页面中单击该其指示灯图标,以关闭指示灯。
说明:
针对一些不支持硬盘点灯功能的服务器,请使用IPMI根据节点与磁盘的SN号定位需要更换的磁盘。
根据异常硬盘的定位,将其从服务器的槽位上拔出。此时,在云平台的[硬盘配置]页签中,可以查看到该硬盘状态由“在线”变为“离线”。
将新的健康的硬盘插回原来的槽位,开始自动进行硬盘的重建并恢复其上数据。此时,在云平台的[硬盘配置]页签中,可以查看到该硬盘处于“重建中”状态。
警告:
- 新插入硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据的空白硬盘,否则硬盘控制器(RAID卡)将无法自动完成硬盘的重建。
- 新插入硬盘后,硬盘控制器(RAID卡)将自动完成硬盘的重建,重建时间与硬盘的容量有关,容量越大则重建时间越长。
- 在重建过程中请不要拔出新硬盘或RAID1阵列中的另一块硬盘,否则将会造成数据丢失并无法恢复。
- 当硬盘控制器没有自动重建硬盘时,请联系产品服务提供商进行问题排查。
待硬盘重建完成后,请通过云监控服务确认新硬盘已正常工作。