问题描述
在物理服务器中,系统盘用于安装基础操作系统和控制平面服务。在每台物理服务器中,由两块SATA接口的机械硬盘组成RAID1阵列。
系统盘RAID1阵列中的两块机械硬盘互为冗余,阵列中的一块硬盘发生故障整个平台仍将正常工作,但此时RAID1阵列将降级使系统盘中的数据失去保护。云监控服务会对两块系统盘的健康性进行监控,当发现其中一块处于慢盘、损坏、接近使用寿命期限状态时,云监控服务会发出告警邮件提醒用户更换此硬盘,更换操作不会造成系统盘数据的丢失。
解决方案
不停机更换
基于机架式服务器的物理节点通常使用PCIe硬盘控制器(RAID卡)管理系统盘RAID1阵列。对于系统盘RAID1阵列中的一块硬盘需要更换的场景,服务器不需要停机。
查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号。
在云平台的顶部导航栏中,依次选择[产品与服务]-[运维管理]-[自动化中心]后,选择“节点信息”区域框,并单击
节点管理
,进入“节点管理”页面。维护节点。
单击上述节点所在行的
维护
,弹出“进入维护模式”对话框。输入管理员的用户名/密码后,单击维护
,完成操作。定位硬盘。
单击上述节点名称,进入其详情页面。
选择[硬盘配置]页签后,根据硬盘序列号,找到对应的异常硬盘,并单击其前方的指示灯图标,使服务器中该硬盘的指示灯开始闪烁(此时该硬盘的状态指示灯应显示为蓝色并慢速闪烁),以便在前置硬盘箱或后置硬盘槽位上找到待更换的硬盘。在定位结束后,请再次在页面中单击该其指示灯图标,以关闭指示灯。
说明:
针对一些不支持硬盘点灯功能的服务器,请使用IPMI根据节点与磁盘的SN号定位需要更换的磁盘。
根据异常硬盘的定位,将其从服务器的槽位上拔出。此时,在云平台的[硬盘配置]页签中,可以查看到该硬盘状态由“在线”变为“离线”。
将新的健康的硬盘插回原来的槽位,开始自动进行硬盘的重建并恢复其上数据。此时,在云平台的[硬盘配置]页签中,可以查看到该硬盘处于“重建中”状态。
警告:
- 新插入硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据的空白硬盘,否则硬盘控制器(RAID卡)将无法自动完成硬盘的重建。
- 新插入硬盘后,硬盘控制器(RAID卡)将自动完成硬盘的重建,重建时间与硬盘的容量有关,容量越大则重建时间越长。
- 在重建过程中请不要拔出新硬盘或RAID1阵列中的另一块硬盘,否则将会造成数据丢失并无法恢复。
- 当硬盘控制器没有自动重建硬盘时,请联系产品服务提供商进行问题排查。
待硬盘重建完成后,请通过云监控服务确认新硬盘已正常工作。
停机更换
在某些场景下,系统盘安装在服务器节点内部,并且由主板集成RAID控制器管理系统盘RAID1阵列。对于系统盘RAID1阵列中的一块硬盘需要更换的场景,需要先关闭服务器再更换硬盘。
说明:
此操作需要下电节点,请在操作前先手动将该节点上运行的云主机迁移到其他节点,以确保业务正常运行。
查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号。
在云平台的顶部导航栏中,依次选择[产品与服务]-[运维管理]-[自动化中心]后,选择“节点信息”区域框,并单击
节点管理
,进入“节点管理”页面。维护节点。
单击上述节点所在行的
维护
,弹出“进入维护模式”对话框。输入管理员的用户名/密码后,单击维护
,完成操作。关闭服务器。
根据节点名称,在机架中找到对应的服务器,手动关闭服务器电源,并将其从机架中抽出。
更换硬盘。
打开服务器上部外壳。
从服务器内部拆卸下内置硬盘箱,根据序列号将要更换的硬盘拆下,换上新的健康的硬盘。
警告:
- 新插入硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据的空白硬盘,否则主板集成RAID控制器将无法自动完成硬盘的重建。
- 当硬盘控制器没有自动重建硬盘时,请联系产品服务提供商进行问题排查。
- 将内置硬盘箱装回服务器内部,并合上服务器上部外壳后,将服务器重新插回机架,并开启其电源。
等待服务器启动成功后,RAID控制器将自动执行硬盘重建,重建时间与硬盘的容量有关,容量越大重建时间越长。