Loading
close

高性能运维指南

time 更新时间:2022-12-08 10:49:07

文档说明

使用范围

  • 读者对象:运维工程师
  • 适用版本:V6.0.2

修订记录

文档版本 修订日期 修订内容
01 2022-12-07 初版

注意事项

运维工程师请参见《用户指南》进行标准运维操作,如需进行非标操作,请提前联系研发工程师进行确认

常规运维

本章节主要介绍该云产品的一些常规运维操作。

更换高性能使用的物理盘

高性能缓存盘由 nvme 或者被设置为直通模式(JBOD模式)的固态硬盘组成并且提供了数据冗余保护。云监控平台会对高性能缓存数据盘的健康性进行监控,如果发现有高性能缓存数据盘处于损坏、接近使用寿命期限状态时,云监控平台会发出告警邮件提醒用户更换这块硬盘。

高性能缓存的数据冗余级别默认设置为3副本。这意味最多允许集群中任意两节点上的高性能缓存盘同时发生故障,而数据不丢失;当存在高速缓存盘故障的节点数达到3个或3个以上时,数据将会丢失。

前提条件

更换高速缓存盘前需要将服务器停机。

操作步骤

  1. 查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号;
  2. 登录ECAS管理界面,在 概览 页面中点击 节点管理,进入节点管理页面后,选择异常硬盘所在的节点;
  3. 点击节点信息卡上 查看详情,进入节点详情页面后,选择 硬盘配置 标签页;
  4. 在 硬盘配置 页面中,根据硬盘序列号,找到对应的硬盘信息卡,点击右侧的图标打开硬盘指示灯;此时该硬盘的状态指示灯将显示为蓝色并慢速闪烁,您可以在前置硬盘箱槽位上找到待更换的硬盘;(确定硬盘位置后请在管理界面上点击指示灯图标,关闭指示灯)

注意:
一些服务器不支持磁盘点灯功能,这时,您可以使用IPMI根据节点与磁盘的SN号定位需要替换的磁盘。

  1. 定位硬盘后,再次通过步骤2 进入节点管理页面,对节点进行维护关机操作。
  2. 定位硬盘后,将要更换的硬盘从服务器的槽位上抽出;
  3. 将新的健康的硬盘插回原来的槽位;需要注意的是,插入的新硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据空白硬盘,否则将无法自动完成高速缓存盘的重建。
  4. 插入新硬盘,启动节点,节点正常启动将自动完成高速缓存的重建,重建时间与硬盘的容量有关,容量越大则重建时间越长。
  5. 重建过程中请不要拔出重建中的硬盘,否则将会造成硬盘重建失败,并需要重新执行重建操作;
  6. 当高速缓存盘重建完成后,将重新加入高速缓存服务。这时您可以登录到监控平台,查看该高速缓存盘的物理设备和高速缓存服务的运行情况。

注意:
如果高速缓存盘出现问题,我们建议您立即进行高速缓存盘更换操作。当高速缓存盘插回服务器时,如果高速缓存盘存在脏数据,系统将无法自动重建该高速缓存盘,请您确保高速缓存盘是没有任何数据的空硬盘。

硬盘维护注意事项

硬盘状态指示灯说明:

硬盘状态指示灯通过颜色和闪烁频率颜色来表示硬盘的运行状态,您可以根据其判断硬盘当前的健康性。

数据再平衡:

更换高性能硬盘时,会触发数据再平衡。进行数据再平衡时会占用平台一定的存储带宽,并持续一段时间(时间长短由要迁移数据的大小决定),这会导致业务响应出现延迟。所以我们推荐您在维护窗口中进行换盘操作。

1. 601

在 601 高性能版本中,高性能数据再平衡调整方式与 ceph 存储再平衡调整方式共用。

  • 业务优先 模式会在保证业务正常访问的情况下进行数据再平衡,再平衡操作将以最高 5M 带宽恢复。
  • 业务优先(25%恢复带宽) 模式下,再平衡操作将以最高 200M 带宽恢复。
  • 业务与恢复平衡 模式将以最高 400M 带宽恢复。
  • 恢复优先(75%恢复带宽) 模式下,再平衡操作将以最高 600M 带宽恢复。
  • 恢复优先 会加速完成数据再平衡工作,在工作没有完成的期间,数据平衡操作将以最高 2048M 带宽恢复。

在初次激活高性能/更换高性能物理盘/启动部署了高性能节点时,建议您减小业务 io,调整为恢复优先,加速数据恢复。数据恢复完成后,调整为业务优先
调整方法请参考 修改分布式存储数据平衡策略

2. 602

在 602 高性能版本中,高性能数据再平衡调整方式是独立的,以三个节点为一组调整。

  • 5M 模式会在保证业务正常访问的情况下进行数据再平衡,再平衡操作将以最高 5M 带宽恢复。
  • 200M 模式下,再平衡操作将以最高 200M 带宽恢复。
  • 400M 模式将以最高 400M 带宽恢复。
  • 600M 模式下,再平衡操作将以最高 600M 带宽恢复。
  • 2048M 会加速完成数据再平衡工作,在工作没有完成的期间,数据平衡操作将以最高 2048M 带宽恢复。

在初次激活高性能/更换高性能物理盘/启动部署了高性能节点时,建议您减小对应高性能组的业务 io,将高性能组恢复设置调整为2048M,加速数据恢复。数据恢复完成后,将高性能组恢复设置调整为5M

  1. 在“高性能云服务管理”页面,单击要修改那一组“恢复设置”,弹出“恢复设置”对话框。

  2. 配置参数后,单击 确认,完成操作。

    ./images/high-performance_recovery_settings.png

更换高性能物理节点

操作步骤

1. 删除节点

请参考 删除节点

如果遇到节点删除故障,可以强制删除节点,请参考 强制删除节点

2. 扩容节点

注意:
扩容后节点名称(节点id)需要与删除的高性能节点名称(节点id)一样。

请参考 扩容节点

3. 激活高性能

请参考 激活高性能

扩容高性能

扩容高性能需要三个物理节点为一组。节点限制,请参考 使用限制

操作步骤

1. 扩容节点

请参考 扩容节点

2. 激活高性能

请参考 激活高性能

此篇文章对你是否有帮助?
没帮助
locked-file

您暂无权限访问该产品