Loading
close

如何更换系统盘

time 更新时间:2024-04-01 17:41:12

问题描述

在物理服务器中,系统盘用于安装基础操作系统和控制平面服务。在每台物理服务器中,由两块SATA接口的机械硬盘组成RAID1阵列。

系统盘RAID1阵列中的两块机械硬盘互为冗余,阵列中的一块硬盘发生故障整个平台仍将正常工作,但此时RAID1阵列将降级使系统盘中的数据失去保护。云监控服务会对两块系统盘的健康性进行监控,当发现其中一块处于慢盘、损坏、接近使用寿命期限状态时,云监控服务会发出告警邮件提醒用户更换此硬盘,更换操作不会造成系统盘数据的丢失。

解决方案

不停机更换

基于机架式服务器的物理节点通常使用PCIe硬盘控制器(RAID卡)管理系统盘RAID1阵列。对于系统盘RAID1阵列中的一块硬盘需要更换的场景,服务器不需要停机。

  1. 查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号。

  2. 在云平台的顶部导航栏中,依次选择[产品与服务]-[运维管理]-[自动化中心]后,选择“节点信息”区域框,并单击 节点管理,进入“节点管理”页面。

  3. 维护节点。

    单击上述节点所在行的 维护,弹出“进入维护模式”对话框。输入管理员的用户名/密码后,单击 维护,完成操作。

  4. 定位硬盘。

    1. 单击上述节点名称,进入其详情页面。

    2. 选择[硬盘配置]页签后,根据硬盘序列号,找到对应的异常硬盘,并单击其前方的指示灯图标,使服务器中该硬盘的指示灯开始闪烁(此时该硬盘的状态指示灯应显示为蓝色并慢速闪烁),以便在前置硬盘箱或后置硬盘槽位上找到待更换的硬盘。在定位结束后,请再次在页面中单击该其指示灯图标,以关闭指示灯。

    说明:

    针对一些不支持硬盘点灯功能的服务器,请使用IPMI根据节点与磁盘的SN号定位需要更换的磁盘。

  5. 根据异常硬盘的定位,将其从服务器的槽位上拔出。此时,在云平台的[硬盘配置]页签中,可以查看到该硬盘状态由“在线”变为“离线”。

  6. 将新的健康的硬盘插回原来的槽位,开始自动进行硬盘的重建并恢复其上数据。此时,在云平台的[硬盘配置]页签中,可以查看到该硬盘处于“重建中”状态。

    警告:

    • 新插入硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据的空白硬盘,否则硬盘控制器(RAID卡)将无法自动完成硬盘的重建。
    • 新插入硬盘后,硬盘控制器(RAID卡)将自动完成硬盘的重建,重建时间与硬盘的容量有关,容量越大则重建时间越长。
    • 在重建过程中请不要拔出新硬盘或RAID1阵列中的另一块硬盘,否则将会造成数据丢失并无法恢复。
    • 当硬盘控制器没有自动重建硬盘时,请联系产品服务提供商进行问题排查。
  7. 待硬盘重建完成后,请通过云监控服务确认新硬盘已正常工作。

停机更换

在某些场景下,系统盘安装在服务器节点内部,并且由主板集成RAID控制器管理系统盘RAID1阵列。对于系统盘RAID1阵列中的一块硬盘需要更换的场景,需要先关闭服务器再更换硬盘。

说明:

此操作需要下电节点,请在操作前先手动将该节点上运行的云主机迁移到其他节点,以确保业务正常运行。

  1. 查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号。

  2. 在云平台的顶部导航栏中,依次选择[产品与服务]-[运维管理]-[自动化中心]后,选择“节点信息”区域框,并单击 节点管理,进入“节点管理”页面。

  3. 维护节点。

    单击上述节点所在行的 维护,弹出“进入维护模式”对话框。输入管理员的用户名/密码后,单击 维护,完成操作。

  4. 关闭服务器。

    根据节点名称,在机架中找到对应的服务器,手动关闭服务器电源,并将其从机架中抽出。

  5. 更换硬盘。

    1. 打开服务器上部外壳。

    2. 从服务器内部拆卸下内置硬盘箱,根据序列号将要更换的硬盘拆下,换上新的健康的硬盘。

    警告:

    • 新插入硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据的空白硬盘,否则主板集成RAID控制器将无法自动完成硬盘的重建。
    • 当硬盘控制器没有自动重建硬盘时,请联系产品服务提供商进行问题排查。
    1. 将内置硬盘箱装回服务器内部,并合上服务器上部外壳后,将服务器重新插回机架,并开启其电源。
  6. 等待服务器启动成功后,RAID控制器将自动执行硬盘重建,重建时间与硬盘的容量有关,容量越大重建时间越长。

此篇文章对你是否有帮助?
没帮助
locked-file

您暂无权限访问该产品