问题描述
高性能缓存盘由NVMe或者被设置为直通模式(JBOD模式)的固态硬盘组成,并且提供数据冗余保护能力。云监控服务会对高性能缓存数据盘的健康性进行监控,如果发现有高性能缓存数据盘处于损坏、接近使用寿命期限状态时,云监控服务会发出告警邮件提醒用户更换这块硬盘。
说明:
当高性能缓存盘出现问题时,建议立即进行更换。
解决方案
高性能缓存的数据冗余级别默认设置为三副本。这意味最多允许集群中任意两节点上的高性能缓存盘同时发生故障,而数据不丢失。当存在高性能缓存盘故障的节点数达到三个或三个以上时,数据将会丢失。
警告:
在更换高性能缓存盘前,需要将服务器停机。
查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号。
在云平台的顶部导航栏中,依次选择[产品与服务]-[运维管理]-[自动化中心]后,选择“节点信息”区域框,并单击
节点管理
,进入“节点管理”页面。定位硬盘。
单击上述节点名称,进入其详情页面。
选择[硬盘配置]页签后,根据硬盘序列号,找到对应的异常硬盘,并单击其前方的指示灯图标,使服务器中该硬盘的指示灯开始闪烁(此时该硬盘的状态指示灯应显示为蓝色并慢速闪烁),以便在前置硬盘箱或后置硬盘槽位上找到待更换的硬盘。在定位结束后,请再次在页面中单击该其指示灯图标,以关闭指示灯。
说明:
针对一些不支持硬盘点灯功能的服务器,请使用IPMI根据节点与磁盘的SN号定位需要更换的磁盘。
维护节点。
返回“节点管理”页面中,单击上述节点所在行的
维护
,弹出“进入维护模式”对话框。输入管理员的用户名/密码后,单击维护
,完成操作。关闭节点。
在“节点管理”页面中,单击上述节点节点所在行的
关机
,弹出“关机”提示框。单击关机
,完成操作。根据异常硬盘的定位,将其从服务器的槽位上拔出。
将新的健康的硬盘插回原来的槽位,并开启该节点电源,开始自动进行硬盘的重建并恢复其上数据。
警告:
- 新插入硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据的空白硬盘,否则将无法自动完成高性能缓存盘的重建。
- 新插入硬盘后,系统将自动完成硬盘的重建,重建时间与硬盘的容量有关,容量越大则重建时间越长。
- 在重建过程中请不要拔出新硬盘,否则将会造成重建失败,需要重新进行重建。
- 当硬盘控制器没有自动重建硬盘时,请联系产品服务提供商进行问题排查。
待硬盘重建完成后,请通过云监控服务确认新硬盘已正常工作。