1、高性能云存储部署形态说明
部署形态 | 支持情况 | 描述 | 说明 |
---|---|---|---|
标准云部署 | 支持 | 通过存储节点的新建或扩容,拓扑预置高性能缓存盘,通过平台云产品激活,提供给当前平台高性能云存储能力。 | NA |
融合部署 | 支持 | 通过计算存储节点的新建,拓扑预置高性能缓存盘,通过平台云产品激活,提供平台高性能云存储能力。 | NA |
第二套部署 | 支持 | 通过第二套部署方式,以iSCSI/NVMe-oF提供给第一套平台存储能力。通过第二套进行监控、节点管理、高性能云产品管理。 | 支持三节点最小规模起 |
一云多芯 | 支持 | 支持纯计算节点异构物理服务器的对接存储,存储节点边界符合一云多芯标准;融合节点需要统一物理架构。 | 支持三节点最小规模起 |
1.1 标准云部署
独立存储节点角色可提供iSCSI/NVMe-oF的高性能块存储能力,需要通过新建或扩容的方式,让任意具备高性能NVMe设备的三节点起的存储节点通过云产品激活为高性能存储节点。
存储集群 | 产品是否支持 | 说明 |
---|---|---|
新建 | 支持 | 3+M个存储节点的环境可以具备3+N个高性能存储节点(M≥N,N≥0) |
扩容 | 支持 | 原存储为621EOS,可扩容3+N个高性能存储节点(N≥0) |
原地升级 | 不支持 | 由于ecas无法动态识别高性能设备,安装部署会依赖ecas的拓扑信息,所以无法支持直接插盘的方式激活高性能 |
删扩升级 | 不支持 | 由于删除扩容对原存储环境有调整冲击,暂未做相关场景的评估和验证,需要针对具体项目和方案讨论 |
1.2 融合部署
形态 | 是否支持 | 说明 |
---|---|---|
控制+计算存储(存储高性能) | 支持 | 当前版本支持 |
控制计算存储超融合(存储高性能) | 支持 | 当前版本支持 |
控制计算存储超融合+计算存储(存储高性能) | 支持 | 当前版本支持 |
计算存储超融合+高性能存储 | 支持 | 当前版本支持 |
控制计算存储+计算存储+高性能存储 | 支持 | 当前版本支持 |
1.3 第二套部署
第二套部署是指,高性能云存储通过独立部署,提供给其他平台iSCSI/NVMe-oF存储能力。
形态为:控制存储计算(计算仅提供云产品能力,屏蔽计算使用入口)+通过存储节点扩容,最小三节点起
1.4 一云多芯
支持纯计算节点异构物理服务器的对接存储,存储节点边界符合一云多芯标准;融合节点需要统一物理架构。一云多芯支持 iSCSI 和 NVMe-oF。最小三节点起。
1.5 高性能使用NVMe-oF + RoCEv2 部署
远程直内存访问 (RDMA) 可提供高吞吐量和超低延迟,以及现代数据中心应用程序所需的低 CPU 开销。RDMA 使用 RoCEv2 协议部署,该协议依赖基于优先级的流量控制 (PFC) 实现无丢弃网络。数据中心量化拥塞通知 (DCQCN) 是 RoCEv2 的端到端拥塞控制方案。
存储集群 | 产品是否支持 | 说明 |
---|---|---|
新建 | 支持 | 3+M个存储节点的环境可以具备3+N个高性能存储节点(M≥N,N≥0)。 |
扩容 | 支持 | 原存储为621EOS,可扩容3+N个高性能存储节点(N≥0)。原环境需要 RoCE 网络 |
原地升级 | 不支持 | 由于ecas无法动态识别高性能设备,安装部署会依赖ecas的拓扑信息,所以无法支持直接插盘的方式激活高性能 |
删扩升级 | 不支持 | 由于删除扩容对原存储环境有调整冲击,暂未做相关场景的评估和验证,需要针对具体项目和方案讨论 |
部署形态 | 支持情况 | 描述 | 说明 |
---|---|---|---|
标准云部署 | 支持 | 通过存储节点的新建或扩容,拓扑预置高性能缓存盘,通过平台云产品激活,提供给当前平台高性能云存储能力。 | NA |
融合部署 | 不支持 | 通过计算存储节点的新建,拓扑预置高性能缓存盘,通过平台云产品激活,提供平台高性能云存储能力。 | NA |
第二套部署 | 支持 | 通过第二套部署方式,以iSCSI/NVMe-oF提供给第一套平台存储能力。通过第二套进行监控、节点管理、高性能云产品管理。 | 支持三节点最小规模起。第一套环境需要 RoCE 网络 |
一云多芯 | 不支持 | 暂未做相关场景的评估和验证。 | NA |
- 需要对接 RoCE 网络对接包。(参见:RoCE对接包使用 ,正式申请请联系网络产品线)
- RoCE 交换机需要明确开启 ECN (拥塞控制) + PFC(流量控制)。
RoCE 是一种基于以太网的远程直接内存访问(RDMA)技术,旨在实现超低延迟、高吞吐量的数据传输。然而,以太网本身是无连接的“尽力而为”网络,原生不支持无损传输,而 RDMA 对丢包极其敏感(丢包会导致性能断崖式下降)。
因此,RoCE 需要网络具备以下能力:
- 避免拥塞导致的丢包(通过 ECN 实现)。
- 在拥塞发生时快速恢复(通过 PFC 实现)。
- ECN: Explicit Congestion Notification,显式拥塞通知。
- PFC: Priority Flow Control,优先级流量控制。
不开启 ECN+PFC 的 RoCE 网络可能因丢包或拥塞导致性能严重下降。
2、产品依赖关系说明
云产品 | 版本 | 说明 |
---|---|---|
云监控服务 | 6.2.1 | 部分依赖,低版本监控无法显示高性能云存储服务在控制服务状态中的信息。 |
3、部署规划原则说明
3.1节点配置原则
- CPU主频建议≥2.2G,不低于2.0G(低于基线)。主频越高性能提升越大,主频提升比例和随机小iops提升在硬件极限范围内约为线性关系。
- CPU为两路超线程10核以上,建议12核以上,核心数越多单节点的可配容量越大。粗略计算,EOS预留8线程,每个OSD预留3线程,高性能80T以下预留8线程,80T以上预留16线程。基于以上,建议单节点cpu线程数 ≥ 单节点OSD数*3+8+(8/16)。
- 一云多芯场景下,高性能的限制要求和存储节点相同,需要和控制节点同架构。
- RoCE 场景下,aarch64 建议鲲鹏 CPU + CX5 Mellanox CX5双光口25G标卡 的机器;x86 建议使用海光 CPU + CX5 Mellanox CX5双光口25G标卡 的机器。
3.2网络配置原则
- 计算端,如ESS和高性能存储在同节点混用,存储业务网(ipsan)和存储前端网(storagepub)计算节点共用一个bond。(便于hostHA检测)
- 存储端,至少两千四万,存储业务网(ipsan)和存储前端网(storagepub)可以共用一个bond,存储后端网(storage)单独一个bond。
- 如有大带宽需求,可以配置lacp提升带宽能力。
- 支持 RoCE 网络的物理环境要求:
- 计算节点:至少增加一个 RoCE 网卡,2 个口可做多 IP 网络平面, 一块万兆给 storage-pub;建议 2 个 RoCE 网卡,交叉端口做多 IP 网络平面支持,剩下 2 个口可以作 TCP bond,给 storage-pub 使用。
- 存储节点:至少增加 2 个 RoCE 网卡,1 个网卡作 linux bond 给高性能副本做 RoCE 网络,1 个网卡 2 个口配置多 IP 网络平面, 一块万兆作 lacp 给stroage, storagepub 共用;建议 3 个 RoCE 网卡,1 块网卡 2 个口可以给高性能副本作 bond,2 块网卡交叉端口做多 IP 网络平面支持,剩下 2 个口做 bond 给stroage,storage-pub 使用。
note:
针对已有高性能环境, 不能通过网络升级来从 TCP 切换到 RDMA, 因为 TCP 网络和 RDMA 无法通信(会导致单副本异常,无法恢复的情况),业务影响会是需要停业务。
当前支持的 Mellonax 网卡:
网卡型号 服务器型号 Mellanox Technologies MT27800 Family [ConnectX-5] 五舟鲲鹏 Mellanox Technologies MT27710 Family [ConnectX-4 Lx] 长城5000C Mellanox Technologies MT27710 Family [ConnectX-4 Lx] 华三5000C
3.3硬盘配置原则
3.3.1高速缓存盘配置原则
高性能云存储支持通过在存储点上配置高速缓存盘加速,支持高速缓存盘接口类型如下:
接口类型 | 说明 |
---|---|
PCI-E NVMe SSD | 设备不支持热拔插和硬盘点灯操作; |
如节点不止一块NVMe磁盘,建议在部署阶段以贴标签的形式记录SSD位置。 | |
U.2 NVMe SSD | 设备不支持点灯操作; |
软件未兼容全部设备的热插拔场景,如有运维诉求,需提前验证。 | |
如节点不止一块NVMe磁盘,建议在部署阶段以贴标签的形式记录SSD位置。 |
- 配置的高速缓存盘型号需满足硬件兼容性要求,同时:
a. 企业级读写混合型SSD
b. DWPD(Diskful Writes Per Day)推荐≥3
c. NVMe随机读/写分别大于15w IOPS (4k Blocks) - 配置的高速缓存盘必须在存储角色节点上
- 每个节点最多可配置2块NVMe,第二块主要提升单节点密度,性能差异不大。
- 高速缓存盘容量推荐使用≥ 2TB,最低1.5TB
- 配置高速缓存盘的节点数≥ 3
- 同一套高性能云存储中,高速缓存盘配置需要一致。
3.1.2容量及性能规划原则
- 高速缓存盘单盘容量≥ 客户高性能裸容量需求 /(高性能存储节点数量每节点高性能缓存盘数量12)
举例:三节点高性能存储,客户需要40TB的高性能云硬盘使用容量(裸容量40*3TB),每个节点2块高速缓存盘,则高性能缓存盘单盘容量 ≥ 1.6TB(120TB/3/2/12)。 - 存储OSD总数量 ≥ 高性能节点数量 * 8
高性能和ceph性能要满足比例关系,ESS能提供的总性能要高于高性能云存储的极限性能/10,以保障业务承接。
按每个OSD可提供1200iops计算,每个高性能可提供100k iops,有N个存储节点,而ESS共有M个OSD,则需满足M1200 ≥ 100kN/10,M ≥ N *100k/1200/10(≈8)
举例:三节点高性能存储,每个节点至少两个SATA SSD的缓存磁盘组各拖4个以上OSD,或者一组OSD数量大于8的NVMe缓存磁盘组(一个SATA SSD可以拖4-6个osd,一个NVMe可以拖8-10个osd)。
3.4推荐配置方案
单节点80T以下,推荐cpu配置为两路12核及以上可超线程2.1G及以上服务器,采用1块3.2TB及以上企业级读写混合NVMe作为高性能缓存,采用两块960G以上 SATA SSD或一块1.6T及以上NVMe作为磁盘组缓存,磁盘组建议配置12块6T或10块8T机械盘。
单节点80T以上,推荐cpu配置为两路14核及以上可超线程2.3G及以上服务器,采用1块6.4TB或2块3.2TB及以上企业级读写混合NVMe作为高性能缓存,采用两块960G以上 SATA SSD或一块1.6T及以上NVMe作为磁盘组缓存,磁盘组建议配置12块8T或10块10T机械盘。