Loading
close

云环境管理

time 更新时间:2022-06-14 15:55:08

当您完成环境的创建流程后,您将看到环境概览界面,通过环境界面,您可以完成对于环境的配置,更新环境许可信息,维护、扩容您的云环境。

概览界面分为三个部分,包括环境配置、环境详情、节点信息三个部分,如下图所示。

./images/management1.png

环境配置

导出日志

在设置按钮中点击 导出日志 ,将弹出导出日志弹窗。

./images/management5.png

您可以选择导出今天的日志信息,也可以选择过去29天的某一天的日志信息。 今天 的 日志包含当日0点算起至导出日志操作之前的所有日志信息。 最近29天 的日志收集将不包括当日的日志信息,您可以选择自安装部署之日起29天内的其中一天日志进行下载,除此之外,还可以指定节点导出日志。

./images/management6.png

点击 修改 按钮可以指定节点导出日志。

./images/management33.png

下载的日志文件为一个压缩包,您可以将它提交至服务供应商以便进行问题定位。

关闭云环境

在设置按钮中点击 关闭云环境,将弹出 关闭云环境 弹窗。确认关闭后,云环境中所有节点与服务都将有序关闭。若您需要重新开启云环境,则需要手动在物理机器开启所有节点电源。(重新开启节点电源时,无启动顺序要求,您可以按任意顺序启动节点)。

./images/management7.png

警告:

  • 警告:关闭云环境前,您需要登录控制台保证云主机都处于关机状态,否则系统将检测云环境状态,如果仍然有云主机在运行中,您将无法执行该操作。
  • 大于等于10个节点的云环境不允许关闭。

环境详情

您可以通过点击概览界面中的 许可信息环境配置存储配置高级配置 标签切换管理您的许可信息、查看环境容量信息、更改环境配置、调整存储配置、进行高级配置。

./images/management10.png

许可信息的查看与更新

查看详情 :点击 查看详情 ,您可以看到许可的基本信息,包括用户名称、项目名称。产品信息定义了产品的规格、有效期、节点数以及包含的基础服务等。

./images/management8.png

更新许可 :许可文件是一个扩展名为lic的文件,您可以和您的供应商获取最新的许可文件导入到CAS中,以更新您的环境,您可以通过更新许可的方式完成云平台的授权节点的更新、新服务的支持。

./images/management9.png

警告:

注意:环境安装完成后,您将无法删除当前环境的许可信息, 并且,如果在安装许可已经过期情况下,云控制台将暂时无法使用,请您更新安装许可后,在【控制台】-【计算】-【物理节点】页面手动激活计算节点,以恢复云平台的正常使用。

环境配置

环境配置功能可以帮助您在安装环境后,查看当前云环境的网络配置、更改主机高可用的服务状态或者更新您的邮件配置。

./images/management12.png

网络配置:当您的云环境部署完成后,除了IPMI用户名/密码,您将无法修改其他任意配置,恢复默认应用 按钮只对 IPMI 用户名/密码设置生效。另外,当您更改了页面中 IPMI的用户名/密码时, 您同时还需要更改物理节点上的 IPMI 的用户名/密码,请务必保证页面的上的 IPMI 的用户名/密码与其相关节点中保持一致。

邮件配置 :点击 邮件配置 进入配置信息页后,在 邮件配置 页面,您可以更新您在安装部署过程中设置的邮件配置,如果您需要调整SMTP服务器配置、更改告警邮件语言或者增加接收告警邮件的邮箱,都可以在这个页面随时更改邮件与邮件服务器的配置。在完成配置后,请您点击 应用 ,您的更改将被保存下来。

./images/management13.png

警告:如果您已经完成了配置,请您谨慎点击恢复默认按钮,恢复默认操作会将该邮件配置清空恢复到出厂设置。

存储配置

在存储配置中,您可以在环境运行过程中,对分布式存储的数据平衡策略以及硬盘离线超时时间进行调整。

./images/management16.png

分布式存储数据平衡策略:在您进行数据盘更换或节点维护时,您可以通过CAS界面临时调整数据平衡策略点击修改数据平衡策略,您会在弹出的弹窗中看到五种策略,分别是 业务优先业务优先(25%恢复带宽)业务与恢复平衡恢复优先(75%恢复带宽)恢复优先,系统默认会采用业务优先模式进行数据平衡。

当系统进行数据再平衡时:

./images/management17.png

  • 业务优先 模式会在保证业务正常访问的情况下进行数据再平衡,再平衡操作将仅仅占用5%的存储集群网络带宽。
  • 业务优先(25%恢复带宽) 模式下,再平衡操作将占用25%的存储集群网络带宽。
  • 业务与恢复平衡 模式将平衡业务与恢复的带宽使用量。
  • 恢复优先(75%恢复带宽) 模式下,再平衡操作将占用75%的存储集群网络带宽。
  • 恢复优先 会加速完成数据再平衡工作,在工作没有完成的期间,数据平衡操作将占用集群95%存储网络带宽,会对平台中业务的存储性能有影响。

警告:如果您计划扩容多个存储服务节点或者升级您的分布式存储系统,我们建议您从 业务优先恢复优先 进行梯度调整,以最大化利用存储集群带宽进行数据再平衡。

硬盘离线超时时间:当您需要更换数据盘时,您需要考虑硬盘离线超时时间,系统默认会有60分钟的硬盘离线时间,请确保您的换盘操作在60分钟之内完成,超过60分钟,系统将自动执行数据再平衡策略,保证系统数据的完整性与一致性,如果您不想系统在60分钟后自动执行数据平衡策略,可以将时间调长。硬盘离线超时时间最长可以设置为720分钟。

./images/management18.png

警告:无论您的超时时间有多久,数据盘插回节点后,系统都会自动进行数据平衡操作,保证数据的完整性与一致性。同时也需要警告:硬盘长时间离线会存在风险,请合理设置硬盘离线超时时间。

高级配置

您可以通过 高级配置 进入 存储池解决方案配置中心

存储池

存储池是云平台提供的基于企业存储构建的专属云硬盘服务,将不同的业务限制在不同的存储设备上。存储池需要通过将第三方存储以对接包的形式对接到平台上来使用。在开始对接前,需要完成以下检查工作:

1.确认存储池已经完成硬件安装、配置以及必需的软件配置;

2.检查链路连通情况:(1)对接FC-SAN存储,需要检查所有控制节点以及需要连接存储池的计算节点上,已经安装FC-HBA卡,并且FC-HBA卡处于正常工作状态;同时检查FC存储网络配置,确认Zone划分正确,并确保云平台节点的FC-HBA卡通过FC网络与存储池互连;(2)对接IP-SAN存储,需要检查所有控制节点以及需要连接存储池的计算节点上,至少有2个以太网网口,并确保云平台节点的IP网络与存储池互联;

3.确保云平台控制节点能够与存储池的管理口通信;并确认存储池的管理用户名/密码、存储池名以及管理口IP等基本配置信息;

警告:

  • 平台中最多可以对接100套存储池;
  • 如果要对接的存储池支持LUN克隆功能,建议通过配置包开启镜像-云硬盘缓存机制,从而利用该存储的克隆功能,加快云主机镜像创建云硬盘的速度。
  • 平台上已经添加的存储池,如果要进行移除操作,请先删除平台上与该存储池相关的所有云硬盘类型和云硬盘资源。

解决方案配置中心

解决方案配置中心用于云平台与第三方解决方案之间的集成。您需要联系您的服务提供商,并申请服务商工程师完成解决方案配置中心的操作。

服务器硬盘维护

产品提供了监控和维护服务器硬盘的完整功能,用户通过CAS自动化中心,可以在其管理界面上便捷、快速地完成 定位硬盘更换硬盘重建硬盘数据 的工作。

监控平台默认会对云环境集群中所有的硬盘设备进行监控,实时反馈硬盘设备的健康性和IO状态,如果发现硬盘处于慢盘、损坏、接近使用寿命期限时,会向用户指定的收件邮箱发送告警邮件此时我们推荐您立刻更换异常状态的硬盘,降低数据丢失风险。用户收到硬盘告警邮件后,可以根据邮件中节点名称、硬盘设备序列号这些信息,在CAS的管理界面上找到异常状态的的硬盘,并通过硬盘点灯操作定位这块硬盘在服务器前置硬盘箱上的槽位。您需要在硬盘箱槽位上手动更换成健康的硬盘,随后CAS将会自动重建这块硬盘并恢复上面的数据。在这个过程中,如果您插回槽位的是空白的新硬盘,您只需要在管理界面上进行硬盘点灯操作,不需要输入任何操作命令。

更换服务器硬盘操作流程

物理服务器中,从业务上分有三种类型的硬盘:系统盘缓存盘 以及 数据盘

系统盘:用于安装基础操作系统和控制平面服务;在每台物理服务器中,由两块SATA接口的机械硬盘组成Raid1阵列;

缓存盘:用于存放分布式存储系统的读写缓存数据;在每台物理服务器中,由两块SATA接口的SSD固态硬盘组成Raid1阵列;

数据盘:用于存放分布式存储系统的后端数据;在每台物理服务器中,数据盘使用SATA接口的机械硬盘,以直通方式链接在硬盘控制器(Raid卡)上;

对于这三类硬盘,如果处于慢盘、损坏、接近使用寿命期限状态,用户都可以在不影响数据可用性和一致性的前提下,对其进行更换操作。对于系统盘、缓存盘的换盘操作与数据盘进行的换盘操作不同,下面将会进行详细说明。

更换系统盘

1. 不停机更换系统盘

系统盘Raid1阵列中的两块机械硬盘互为冗余,阵列中的一块硬盘发生故障整个平台仍将正常工作,但此时Raid1阵列将降级使系统盘中的数据失去保护。监控平台会对两块系统盘的健康性进行监控,如果发现其中一块处于慢盘、损坏、接近使用寿命期限状态时,云监控平台会发出告警邮件提醒用户更换这块硬盘,更换操作不会造成系统盘数据的丢失。

基于机架式服务器的物理节点通常使用PCIe硬盘控制器(Raid卡)管理系统盘Raid1阵列。对于系统盘Raid1阵列中的一块硬盘需要更换的场景,服务器不需要停机:

1.查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号;

2.在云环境概览界面中点击节点详情中的 节点管理 按钮,进入 节点信息 页面,您可以在界面中选择要维护的节点,点击 维护 按钮。

3.点击节点信息卡上 查看详情,进入节点详情页面后,选择 硬盘配置 标签页;

4.在 硬盘配置 页面中,根据硬盘序列号,找到对应的硬盘信息卡,点击右侧的图标打开硬盘指示灯;此时该硬盘的状态指示灯将显示为蓝色并慢速闪烁,您可以在前置硬盘箱或后置硬盘槽位上找到待更换的硬盘;(确定硬盘位置后请在管理界面上点击指示灯图标,关闭指示灯)

5.定位硬盘后,将要更换的硬盘从服务器的槽位上抽出;

6.将新的健康的硬盘插回原来的槽位;这里要注意,插入的新硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据空白硬盘,否则硬盘控制器(Raid卡)将无法自动完成硬盘的重建;

7.插入新硬盘后,硬盘控制器(Raid卡)将自动完成硬盘的重建,重建时间与硬盘的容量有关,容量越大重则建时间越长;(重建过程中请不要拔出新硬盘或Raid1阵列中的另一块硬盘,否则将会造成数据丢失并无法恢复)

如果硬盘控制器没有自动重建硬盘,联系产品服务提供商进行问题排查。

8.硬盘重建完成后,您可以通过云监控平台确认新硬盘已正常工作。

当硬盘插回服务器时,如果硬盘存在脏数据,系统将无法自动重建该硬盘,请您确保硬盘是没有任何数据的空硬盘。

2.停机更换系统盘

系统盘Raid1阵列中的两块机械硬盘互为冗余,阵列中的一块硬盘发生故障整个平台仍将正常工作,但此时Raid1阵列将降级使系统盘中的数据失去保护。监控平台会对两块系统盘的健康性进行监控,如果发现其中一块处于慢盘、损坏、接近使用寿命期限状态时,云监控平台会发出告警邮件提醒用户更换这块硬盘,更换操作不会造成系统盘数据的丢失。

在某些场景下,系统盘安装在服务器节点内部,并且由主板集成Raid控制器管理系统盘Raid1阵列。对于系统盘Raid1阵列中的一块硬盘需要更换的场景,需要先关闭服务器再更换硬盘:

1.查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号;

2.登录CAS界面,在 概览 页面中点击 节点管理,进入 节点管理 页面后,选择异常硬盘所在的节点;

3.点击节点信息卡上的 维护 按钮,将节点设置为 维护 模式;

4.根据节点名称,在机架中找到对应的服务器,手动关闭服务器电源,随后将服务器从机架中抽出;

5.打开服务器上部外壳;

6.从服务器内部拆卸下内置硬盘箱,根据序列号将要更换的硬盘拆下,换上新的健康的硬盘;这里要注意,插入的新硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据空白硬盘,否则主板集成Raid控制器将无法自动完成硬盘的重建;

警告:

一些服务器不支持磁盘点灯功能,这时,您可以使用IPMI根据节点与磁盘的SN号定位需要替换的磁盘。

7.更换新硬盘后,请将内置硬盘箱装回服务器内部,并合上服务器上部外壳;将服务器重新插回机架,并打开服务器电源;

如果硬盘控制器没有自动重建硬盘,联系产品服务提供商进行问题排查。

8.等待服务器启动成功后,Raid控制器将自动执行硬盘重建,重建时间与硬盘的容量有关,容量越大重建时间越长。

由于节点需要下电,请您手动将该节点上运行的云主机迁移到其他节点,否则节点下电后,运行的云主机将会关机。当硬盘插回服务器时,如果硬盘存在脏数据,系统将无法自动重建该硬盘,请您确保硬盘是没有任何数据的空硬盘。

更换缓存盘

缓存盘Raid1阵列中的两块固态硬盘互为冗余,阵列中的一块硬盘发生故障整个平台仍将正常工作,但此时Raid1阵列将降级使缓存盘中的数据失去保护。监控平台会对两块缓存盘的健康性进行监控,如果发现其中一块处于慢盘、损坏、接近使用寿命期限状态时,监控平台会发出告警邮件提醒用户更换这块硬盘,更换操作不会造成缓存盘数据的丢失。

此系列产品中,由PCIe硬盘控制器(Raid卡)管理缓存盘Raid1阵列。对于缓存盘Raid1阵列中的一块硬盘需要更换的场景,服务器不需要停机:

1.查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号;

2.登录CAS管理界面,在 概览 页面中点击 节点管理,进入节点管理页面后,选择异常硬盘所在的节点;

3.点击节点信息卡上 查看详情,进入节点详情页面后,选择 硬盘配置 标签页;

4.在 硬盘配置 页面中,根据硬盘序列号,找到对应的硬盘信息卡,点击右侧的图标打开硬盘指示灯;此时该硬盘的状态指示灯将显示为蓝色并慢速闪烁,您可以在前置硬盘箱槽位上找到待更换的硬盘;(确定硬盘位置后请在管理界面上点击指示灯图标,关闭指示灯)

警告:

一些服务器不支持磁盘点灯功能,这时,您可以使用IPMI根据节点与磁盘的SN号定位需要替换的磁盘。

5.定位硬盘后,将要更换的硬盘从服务器的槽位上抽出;

6.将新的健康的硬盘插回原来的槽位;这里要注意,插入的新硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据空白硬盘,否则硬盘控制器(Raid卡)将无法自动完成硬盘的重建;

7.插入新硬盘后,硬盘控制器(Raid卡)将自动完成硬盘的重建,重建时间与硬盘的容量有关,容量越大重则建时间越长;(重建过程中请不要拔出新硬盘或Raid1阵列中的另一块硬盘,否则将会造成数据丢失并无法恢复)

8.硬盘重建完成后,您可以通过云监控平台确认新硬盘已正常工作。

如果缓存盘出现问题,我们建议您立即进行缓存盘更换操作,两块缓存盘如果都出现问题,您当前的节点将无法提供存储服务,您的存储服务将会处于服务降级状态,只有两个副本的数据在集群当中,但运行在节点上的云主机仍然能够正常提供服务。当硬盘插回服务器时,如果硬盘存在脏数据,系统将无法自动重建该硬盘,请您确保硬盘是没有任何数据的空硬盘。

更换数据盘

所有连接到硬盘控制器(Raid卡)的数据盘,都被设置为直通模式(JBOD模式),由分布式存储控制平面提供数据冗余保护。云监控平台会对所有数据盘的健康性进行监控,如果发现有数据盘处于慢盘、损坏、接近使用寿命期限状态时,云监控平台会发出告警邮件提醒用户更换这块硬盘。

分布式存储服务的数据冗余级别默认设置为3副本。这意味最多允许集群中任意两节点上的数据盘同时发生故障,而数据不丢失;当存在数据盘故障的节点数达到3个或3个以上时,数据将会丢失。

对于更换一块数据盘的场景,服务器不需要停机:

1.查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号;

2.登录CAS管理界面,在 概览 页面中点击 节点管理,进入节点管理页面后,选择异常硬盘所在的节点;

3.点击节点信息卡上 查看详情,进入节点详情页面后,选择 硬盘配置 标签页;

4.在 硬盘配置 页面中,根据硬盘序列号,找到对应的硬盘信息卡,点击右侧的图标打开硬盘指示灯;此时该硬盘的状态指示灯将显示为蓝色并慢速闪烁,您可以在前置硬盘箱槽位上找到待更换的硬盘;(确定硬盘位置后请在管理界面上点击指示灯图标,关闭指示灯)

警告:

一些服务器不支持磁盘点灯功能,这时,您可以使用IPMI根据节点与磁盘的SN号定位需要替换的磁盘。

5.定位硬盘后,将要更换的硬盘从服务器的槽位上抽出;此时硬盘信息卡上的状态将由 在线 变为 离线

6.将新的健康的硬盘插回原来的槽位,CAS将会自动重建新硬盘并恢复硬盘上的数据,硬盘信息卡上将显示硬盘处于 重建中 状态,同时界面上会显示重建的进度和数据恢复的进度;请注意,插入的新硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,否则CAS无法保证硬盘和数据能够恢复成功;

7.如果换回的新硬盘是经过格式化后没有任何数据空白硬盘,CAS将会自动完成新硬盘的重建工作,不需要有手工操作;

8.如果换回的新硬盘中包含有数据,则将被CAS会识别为脏数据盘,此时重建进程会暂停,并在硬盘信息卡上提示“构建数据盘失败:【错误信息】!您可以点击【重建】按钮,执行硬盘格式化并重新构建数据盘,或者取出当前硬盘使用其他健康硬盘替换!”。遇到这种情况时,请您点击硬盘信息卡右侧的 重建 按钮,执行格式化磁盘操作;之后CAS将会继续新硬盘的重建工作,直至完成;

9.重建过程中请不要拔出重建中的硬盘,否则将会造成硬盘重建失败,并需要重新执行重建操作;

10.当硬盘重建完成后,将重新加入会分布式存储集群。这时您可以登录到监控平台,查看该数据盘的物理设备和OSD的运行情况。

请警告:1.我们建议您不要同时更换3块及3块以上的硬盘,如果同时有不同节点的两块硬盘损坏,系统存储服务将处于降级状态,此时如果在额外节点出现硬盘损坏时,会造成3副本数据丢失风险,请您及时在系统维护窗口进行更换硬盘操作。2.对于型号为Broadcom/LSI MegaRAID SAS-3 3508的Raid卡,我们建议您关闭PR功能(包括环境部署前),开启后存储集群IO会产生较大波动。

构建数据失败的错误信息包括

  • 新盘存在分区
  • 硬盘不属于这个集群
  • 硬盘不属于这个槽位
  • 硬盘存储配置未发现
  • 添加缓存失败
  • 未知错误(遇到未知错误,请联系供应商服务人员协助您定位问题)

更换高性能缓存盘

高性能缓存盘由nvme或者被设置为直通模式(JBOD模式)的固态硬盘组成并且提供了数据冗余保护。云监控平台会对高性能缓存数据盘的健康性进行监控,如果发现有高性能缓存数据盘处于损坏、接近使用寿命期限状态时,云监控平台会发出告警邮件提醒用户更换这块硬盘。

高性能缓存的数据冗余级别默认设置为3副本。这意味最多允许集群中任意两节点上的高性能缓存盘同时发生故障,而数据不丢失;当存在高速缓存盘故障的节点数达到3个或3个以上时,数据将会丢失。

警告:

更换高速缓存盘前需要将服务器停机。

  1. 查看硬盘告警邮件中的信息,确定异常硬盘所在的节点和设备序列号;

  2. 登录ECAS管理界面,在 概览 页面中点击 节点管理,进入节点管理页面后,选择异常硬盘所在的节点;

  3. 点击节点信息卡上 查看详情,进入节点详情页面后,选择 硬盘配置 标签页;

  4. 硬盘配置 页面中,根据硬盘序列号,找到对应的硬盘信息卡,点击右侧的图标打开硬盘指示灯;此时该硬盘的状态指示灯将显示为蓝色并慢速闪烁,您可以在前置硬盘箱槽位上找到待更换的硬盘;(确定硬盘位置后请在管理界面上点击指示灯图标,关闭指示灯)

    警告:

    一些服务器不支持磁盘点灯功能,这时,您可以使用IPMI根据节点与磁盘的SN号定位需要替换的磁盘。

  5. 定位硬盘后,再次通过步骤2 进入节点管理页面,对节点进行维护关机操作。

  6. 定位硬盘后,将要更换的硬盘从服务器的槽位上抽出;

  7. 将新的健康的硬盘插回原来的槽位;需要注意的是,插入的新硬盘的型号/容量必须与换下的异常硬盘的型号/容量完全一致,并且新硬盘必须是格式化后没有任何数据空白硬盘,否则将无法自动完成高速缓存盘的重建。

  8. 插入新硬盘,启动节点,节点正常启动将自动完成高速缓存的重建,重建时间与硬盘的容量有关,容量越大则重建时间越长。

  9. 重建过程中请不要拔出重建中的硬盘,否则将会造成硬盘重建失败,并需要重新执行重建操作;

  10. 当高速缓存盘重建完成后,将重新加入高速缓存服务。这时您可以登录到监控平台,查看该高速缓存盘的物理设备和高速缓存服务的运行情况。

    警告:

    如果高速缓存盘出现问题,我们建议您立即进行高速缓存盘更换操作。当高速缓存盘插回服务器时,如果高速缓存盘存在脏数据,系统将无法自动重建该高速缓存盘,请您确保高速缓存盘是没有任何数据的空硬盘。

硬盘维护注意事项

硬盘状态指示灯说明

硬盘状态指示灯通过颜色和闪烁频率颜色来表示硬盘的运行状态,您可以根据其判断硬盘当前的健康性。

数据再平衡

分布式存储平台具有数据再平衡机制,主要为了保证节点能够均衡地存储数据;数据盘发生故障或更换新硬盘(数据盘重建)时,会触发数据再平衡。进行数据再平衡时会占用平台一定的存储带宽,并持续一段时间(时间长短由要迁移数据的大小决定),这会导致业务响应出现延迟。所以我们推荐您在维护窗口中进行换盘操作。

硬盘离线超时时间

基于数据再平衡机制,当有一块数据盘不能工作时,就会触发数据再平衡。为了降低数据再平衡带来影响,分布式存储平台同时引入硬盘离线超时时间机制,如果数据盘因故障或其他原因而离线时,在硬盘离线超时时间内原来的数据盘重新恢复到集群中,这时分布式存储平台不会执行数据再平衡。所以在更换数据盘时,我们推荐您在硬盘离线超时时间内将新数据盘插回槽位上。默认的硬盘离线超时时间是60分钟,您可以根据自身业务需要调整该参数(支持设置为5到180分钟)。

更换数据盘过程中拔出当前硬盘的处理方式

如果您在构建或重建过程中拔出了硬盘,当前处理进程将停止,数据盘状态将显示为离线;此时您可以在同一槽位插入新的硬盘,CAS将重新执行构建/重建数据盘的操作。

此篇文章对你是否有帮助?
没帮助
locked-file

您暂无权限访问该产品