Loading
close

裸金属服务运维指南

time 更新时间:2024-06-26 11:08:14

文档说明

使用范围

  • 读者对象:运维工程师
  • 适用版本:V6.3.1

修订记录

文档版本 修订日期 修订内容
01 2023-02-08 第一次正式发布
02 2024-01-05 第二次正式发布

注意事项

运维工程师请参见《用户指南》进行标准运维操作,如需进行非标操作,请提前联系研发工程师进行确认。

运维问题

本章节主要介绍裸金属云产品的已知运维问题。

Windows 通过 cloudbase-init 自动配置网卡聚合(nic teaming)偶发性失败

问题描述

使用具有端口组的节点创建 windows 系统的裸金属主机, 进入系统后, 发现并未自动创建 nic teaming 设备。

问题原因

cloudbase-init 使用的 NETLBFO 库, 创建 nic teaming 时会偶发性的失败, 该问题已经在 master 分支上修复: Retry netlbfo team creation · cloudbase/cloudbase-init@ab342fc , 但是目前最新的 1.1.2 版本并未包含修复代码, 故需要手动解决。

问题解决

该问题的解决有两种方式, 推荐方式一:

  • 手动配置裸机bond。
  • 删除 cloudbase-init 在注册表中的值, 并重启服务器, 以便于 cloudbase-init 再次尝试创建 nic teaming。 如果系统已经使用一段时间, 则不推荐, 因该方式会将用户密码等设定为创建裸金属主机时设定的值。

故障状态的裸金属节点对应的裸金属主机删除后, 重置节点提示存在裸金属主机

问题描述

  • 裸金属主机创建过程中, 裸金属节点因意外掉电或网络宕机造成裸金属主机创建失败, 裸金属节点进入故障状态。
  • 裸金属主机创建过程中, 集群不稳定, ironic API 等组件无法响应请求, 造成裸金属主机创建失败, 裸金属节点进入故障状态。
    以上两种情况均会造成: 创建失败的裸金属主机删除后, 在裸金属节点重置状态时, 提示存在裸金属主机。

    问题原因

    裸金属主机创建失败时, nova 会向 ironic 发送 undeploy 请求以清理裸金属主机和裸金属节点间的关联并将裸金属节点设定为可用状态, 但若因裸金属节点 bmc 不可达导致电源设定失败, 或因 ironic API 不可达导致请求失败, 均会造成 undeploy 请求失败, 导致裸金属主机和裸金属节点间的关联未被清理。

    问题解决

    两种方式, 均需要进入后台操作:
  • 通过 client 直接 undeploy 对应的裸金属节点: openstack baremetal node undeploy {node_uuid}
  • 通过 client 清理关联关系: ironic node-update {node_uuid} remove instance_uuid, 然后在界面上重置节点。

裸金属节点状态可用无维护, 创建裸金属主机可选择该节点, 但创建时报错: no valid host

问题描述

裸金属节点状态为可用, 并且没有进入维护模式, 在创建裸金属主机时可以选择该节点, 但是创建时报错: no valid host。

问题原因

裸金属节点有instance_uuid残留。

问题解决

通过 client 清理关联关系: ironic node-update {node_uuid} remove instance_uuid 。

裸金属主机长时间处于创建中, 通过 API/Client 无法删除裸金属主机, 且裸金属节点处于部署中无法操作

问题描述

裸金属主机长时间处于创建中, 通过 API/Client 无法删除裸金属主机, 且裸金属节点处于部署中无法操作。

问题原因

集群DB不稳定, nova/ironic 等组件长时间无法链接数据库, 导致 ironic 中节点的锁无法释放并且持有锁的线程被异常退出, 即该裸金属节点一直有锁。

问题解决

进入后台, 重启 ironic-conductor 服务。

裸金属主机删除失败,进入错误状态

问题描述

裸金属主机删除时偶发删除失败,裸金属主机进入错误状态,裸金属节点处于deleting状态。

问题原因

裸金属节点由于环境或服务状态异常等因素影响,在裸金属主机删除时,状态长时间处于deleting状态没有更新切换,超出nova服务检查裸金属节点状态超时时间120s,nova服务会抛出异常并将裸金属主机置为错误状态。

问题解决

环境或服务异常恢复后再次删除裸金属主机。

裸金属主机详情中控制台显示暂无数据,控制台标签页打开直接断开连接

问题描述

添加裸金属节点,部署裸金属主机完成后,通过裸金属主机详情查看控制台显示暂无数据,通过控制台标签页打开直接断开连接。

问题原因

添加裸金属节点,服务对裸金属节点console进行verify时会由于环境或服务异常等因素影响,verify出现异常,裸金属节点的console_enabled属性被裸金属服务置为False,导致无法连接裸金属节点console。

问题解决

通过后台命令openstack baremetal node console enable 将裸金属节点的console_enabled属性置为True,裸金属主机控制台可以正常连接和输出数据。

创建裸金属主机偶发失败,裸金属主机进入错误状态

问题描述

创建裸金属主机,偶发创建失败,裸金属主机进入错误状态。

问题原因

创建裸金属主机,iscsi阶段dev设备正常创建和挂载,但是ironic-conductor服务检查时没有找到dev设备,导致创建失败。

问题解决

由于该问题属于偶发问题,后来多次测试创建裸机未复现,遇到问题后删除裸机重新创建即可。

裸机连续不断挂载数据盘,可能出现挂载25块数据盘的情况

问题描述

裸机连续不断挂载数据盘,可能出现可挂载数据盘超出24块限制,可以挂载25块数据盘。

问题原因

裸机连续挂载数据盘,由于挂载间隔时间过短,可能在挂载云硬盘时上一个还未挂载上,导致查询挂载云硬盘信息少于实际挂载数目,最终出现超出数目限制的情况。

问题解决

卸载掉多挂载的云硬盘。

裸金属节点处于开机且错误状态, 重置状态失败

问题描述

裸金属节点处于开机且错误状态, 点击重置状态失败。

问题原因

裸金属节点具有 volume target 资源, 但是其对应的云硬盘已被删除. 裸金属节点在开机状态下重置状态时会尝试卸载 volume target 对应的云硬盘, 但因找不到对应的云硬盘而报错。

问题解决

  • 管理界面关闭裸金属节点电源。
  • 登陆后台 busybox, 查询并删除裸金属节点的 volume target。
  • 管理节点重置状态。

裸金属节点处于可用状态,创建裸金属主机无可用节点

问题描述

裸金属节点列表中有可用状态节点,创建裸金属主机显示无可用节点。

问题原因

环境异常导致rabbitmq服务异常,进而导致nova-compute-ironic上报裸金属节点资源失败,rabbitmq恢复后,nova-compute-ironic上报资源没有自动恢复,从而创建裸机因为节点信息没有compute_host而认为是不可用节点。

问题解决

重启nova-compute-ironic服务,恢复资源上报。

华为2288H V5机器uefi启动报错can’t allocate initrd

问题描述

华为2288H V5机器使用uefi模式启动,pxe引导阶段报错can’t allocate initrd。

问题原因

华为2288H V5机器的bios和grub在uefi模式下对ramdisk镜像大小有限制,当镜像过大时会报错。

问题解决

机器采用legacy bios模式启动,uefi启动问题作为已知问题。

裸金属主机断开网络后, 立即连接网络失败

问题描述

为裸金属主机断开网络后, 再立即连接网络, 出现连接网络失败。

问题原因

断开网络在后端是异步操作, 虽然 API 已返回, 但后端依然在处理 unbind port 流程, 此时进行连接网络之类的操作将会被拒绝。

问题解决

待裸金属主机断开网络流程完全结束后, 再次进行连接网络操作。

foundation 611 + neutron 611 + ironic 611 版本, 裸金属网络配置删除纳管交换机,neutron-etc中未清理掉

问题描述

foundation 611 版本 + neutron 611 版本 + ironic 611 版本, 裸金属网络配置删除纳管交换机,neutron-etc中未清理掉。

问题原因

foundation 602和foundation 611修改云产品配置的方式有区别,裸金属611修改neutron配置的方式是兼容neutron 603和proton 611的,对于neutron,采用的是foundation 602的修改config的方式,对于proton,采用的是foundation 611的修改cpconfig的方式,从而对neutron的修改config的方式在foundation 611不会生效。

问题解决

  • 手动编辑 ems 命名空间中的 cpconfig 资源 neutron, 移除相关的交换机配置。
  • 检查 openstack 命名空间中的 cm 资源 neutron-etc, 可见相关交换机配置已被移除。
  • 检查 neutron 相关 pod, 可见其正在重启。

裸金属主机挂载IP-SAN数据盘,卸载后再次挂载,扫盘失败

问题描述

裸金属主机挂载IP-SAN数据盘并扫盘成功后,卸载数据盘,然后再次挂载,执行扫盘命令无输出响应,查看无新增磁盘设备。

问题原因

由于两次挂载盘的服务端target信息一样,所以两次挂盘挂的是同一个target,而卸载盘通过echo 1 > delete进行操作,不会清理target的iscsi会话,所以再次通过iscsiadm建立会话,会使用已有会话,从而扫盘不会进行设备更新。只有通过iscsiadm关闭target会话,再重新建立会话,会进行设备更新。

问题解决

该问题有两种解决办法:

  • 执行如下命令登录iscsi会话,其中,是云硬盘连接器的ID:
    iscsiadm -m node -T <iqn> --rescan
    
  • 在扫盘操作后,执行iscsiadm -m session –R命令进行设备更新。

裸金属主机超限挂载共享盘成功

问题描述

  • 项目下新建共享盘,并挂载到17台裸金属主机。
  • 打开两个浏览器窗口,窗口1,裸金属主机1详情页挂载共享盘,挂载弹窗云硬盘选择该共享盘不点击挂载。
  • 窗口2,裸金属主机2详情页挂载共享盘,挂载弹窗云硬盘选择该共享盘点击挂载。
  • 窗口2裸金属主机2挂载共享盘完成后,共享盘已挂载到18台裸金属主机,再点击窗口1的弹窗挂载按钮仍可以挂载成功

    问题原因

    挂载共享盘超限是在挂载弹窗列表中做的检查,在挂载动作开始后不会对挂载数量做检查;从而弹窗中已经可选择到该共享盘,那么挂载时
    会出现超限情况。

    问题解决

    在挂载动作中增加代码逻辑进行数目检查会较大减慢云盘挂载速度,而这个共享盘多挂场景属于小概率场景,多挂后并不会对云盘数据造成影响,
    综合考虑,可以通过将共享盘从多挂的裸金属主机卸载进行解决。

裸金属主机清理磁盘失败

问题描述

裸金属主机删除时勾选“删除后清除本地磁盘数据”,裸金属节点清除数据失败状态变成故障状态。

问题原因

部分磁盘不支持快速清理功能,遇到该类型磁盘时代码会直接抛出异常导致最终清理失败。

问题解决

在后台执行执行 openstack baremetal node unset –automated-clean 关闭自动清理。

挂载较多数据盘裸金属主机删除失败

问题描述

裸金属主机挂载较多数据盘时(例如挂载24个数据盘),删除裸金属主机会删除失败,裸金属节点变成可用状态。

问题原因

删除裸金属主机时会卸载数据盘,数据盘较多时卸载时间较长超出删除流程等待时间,最终裸金属主机状态显示错误。

问题解决

等待裸金属节点状态变成可用后,页面重新删除裸金属主机。

龙芯裸金属主机重启时状态一直卡在重启,并且裸金属主机无法连接

问题描述

裸金属用户镜像系统:Anolis OS8.8QU1,
裸金属节点型号:Loongson-LS2C50C2,
裸金属节点BIOS版本:Loongson-UDK2018-V4.0.9-Dual,
裸金属节点BMC版本:ls2c5lc2-1.35-0-ge99697-e996974,
使用重启裸金属主机时不勾选强制重启,裸金属主机重启时会卡在Kernel panic 一直无法完成重启。

问题原因

系统运行过程中发生了softlockup,而龙蜥操作系统打开了softlockup_panic开关,所以引起panic。从死机堆栈来看是ipmi driver等待IPMI消息耗时过长,可能是BMC与OS兼容性问题。

问题解决

两种解决办法:

  • 通过bmc将裸金属节点关机,关机成功后再开机。
  • 升级最新版本BMC。
此篇文章对你是否有帮助?
没帮助
locked-file

您暂无权限访问该产品