Loading
close

如何更换数据盘

time 更新时间:2022-04-02 12:13:19

问题描述

数据盘用于存放分布式存储系统的后端数据。在每台物理服务器中,数据盘使用SATA接口的机械硬盘,以直通方式链接在硬盘控制器(RAID卡)上。

所有连接到硬盘控制器(RAID卡)的数据盘,都被设置为直通模式(JBOD模式),由分布式存储控制平面提供数据冗余保护。云监控服务会对所有数据盘的健康性进行监控,如果发现有数据盘处于慢盘、损坏、接近使用寿命期限状态时,云监控服务会发出告警邮件提醒用户更换这块硬盘。

说明:

  • 当数据盘出现问题时,建议及时在系统维护窗口进行更换硬盘操作,并且建议不要同时更换三块及其以上的硬盘。否则,当同时有不同节点的两块硬盘损坏时,系统存储服务将处于降级状态,此时如果在额外节点出现硬盘损坏,将造成三副本数据丢失的风险。
  • 对于型号为Broadcom/LSI MegaRAID SAS-3 3508的RAID卡,建议关闭PR功能(包括环境部署前)。否则,在开启后存储集群IO会产生较大波动。

解决方案

分布式存储服务的数据冗余级别默认设置为三副本。这意味最多允许集群中任意两节点上的数据盘同时发生故障,而数据不丢失。当存在数据盘故障的节点数达到三个或三个以上时,数据将会丢失。

本方案将对更换一块数据盘的场景进行说明,此过程中服务器不需要停机。

  1. 查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号。

  2. 在云平台的顶部导航栏中,依次选择[产品与服务]-[运维管理]-[自动化中心]后,选择“节点信息”区域框,并单击 节点管理,进入“节点管理”页面。

  3. 定位硬盘。

    1. 单击上述节点名称,进入其详情页面。

    2. 选择[硬盘配置]页签后,根据硬盘序列号,找到对应的异常硬盘,并单击其前方的指示灯图标,使服务器中该硬盘的指示灯开始闪烁(此时该硬盘的状态指示灯应显示为蓝色并慢速闪烁),以便在前置硬盘箱或后置硬盘槽位上找到待更换的硬盘。在定位结束后,请再次在页面中单击该其指示灯图标,以关闭指示灯。

    说明:

    针对一些不支持硬盘点灯功能的服务器,请使用IPMI根据节点与磁盘的SN号定位需要更换的磁盘。

  4. 根据异常硬盘的定位,将其从服务器的槽位上拔出。此时,在云平台的[硬盘配置]页签中,可以查看到该硬盘状态由“在线”变为“离线”。

  5. 将新的健康的硬盘插回原来的槽位,开始自动进行硬盘的重建并恢复其上数据。此时,在云平台的[硬盘配置]页签中,可以查看到该硬盘处于“重建中”状态。

    警告:

    • 新插入硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据的空白硬盘,否则硬盘控制器(RAID卡)将无法自动完成硬盘的重建。
    • 当新插入的硬盘含有数据时,系统将识别其为脏数据盘,暂停重建进程。此时,可以直接单击 重建,格式化磁盘并重新构建数据盘,也可以取出当前硬盘使用其他健康硬盘替换。
    • 在重建过程中请不要拔出新硬盘,否则将会造成重建失败。此时,若已拔出,请在同一槽位重新插入新硬盘,使云平台重新开始构建/重建数据盘。
    • 当由于未知错误导致数据构建失败时,请联系产品服务提供商进行问题排查。
  6. 待硬盘重建完成后,请通过云监控服务确认新硬盘已正常工作。

此篇文章对你是否有帮助?
没帮助
locked-file

您暂无权限访问该产品