下一代人工智能存储:美光®ssd, WEKA™，AMD EPYC™和超微-沙巴体育结算平台

Storage

下一代人工智能存储:美光®ssd, WEKA™，AMD EPYC™和超微

作者:瑞安梅雷迪思 - 2023-01-20

超级计算2022，微米^® 数据中心工作量工程组， WEKA, AMD and 超微型计算机携手成为第一个在WEKA AI工作负载分布式存储解决方案中测试第四代AMD EPYC平台的公司.

我们部署了一个解决方案，利用了最先进的硬件和软件，并使用了MLPerf™存储工作组的新基准来衡量其支持苛刻的人工智能工作负载的能力.

当我第一次在领英上发布这项工作时, 我了解到，这个团队是第一个大规模测试MLPerf存储的团队，也是第一个在AMD热那亚处理器上测试WEKA的团队. Liran Zvibel (WEKA的联合创始人兼首席技术官)评论道他很高兴这个过程进行得如此顺利，“第一次在一个全新的平台(新的PCIe)上运行”经常会遇到一些困难^® 总线、新CPU等).”

WEKA版本4 扩展其软件定义的存储堆栈，以提高每个节点的可伸缩性和性能, 这是利用下一代系统的必要条件. 根据WEKA的说法，它还:

数据平台是为NVMe设计的吗^TM 现代网络.
提高带宽和IOPs的性能，减少延迟和元数据.
支持对本地或云中数据的广泛、多协议访问.
在不需要调优的情况下，对于混合工作负载和小文件是否比本地磁盘更快.

超微公司提供了其中的6个新沙巴体育结算平台 - 1115 - cs - tnr 用于WEKA集群节点的系统. 这些平台利用了第四代AMD EPYC cpu和PCIe^® Gen5底板. 测试系统的具体情况如下:

AMD第4代EPYC 9654P CPU(96核)
12微米DDR5 4800MT/s rdimm
10x 美光7450 NVMe固态硬盘
2x NVIDIA^® Connectx^®-6 对200年gbe网卡

我们利用美光DDR5 DRAM的优势部署了这个解决方案, 它提供了比上一代DDR4更高的性能和吞吐量以及更快的传输速度.

我们还使用了美光7450 NVMe固态硬盘-采用美光176层CMOS在阵列(CuA)下构建。. 它结合了高性能和优质的服务, 提供卓越的应用程序性能和响应时间.

对网络, 我们使用NVIDIA ConnectX-6 200Gbe网卡，每个存储节点2个网卡，每个客户端1个网卡. 我们建议在有可用的PCIe Gen5 400Gbe NVIDIA ConnectX-7网卡时使用它，以简化网络配置和部署，并具有类似的性能.

基线结果

我们在12个负载生成客户机上测试了FIO性能，以测量最大系统吞吐量, 在所有客户机中，每个客户机的队列深度(QD)从1扩展到32.

对于1MB的读和1MB的写，我们分别达到了142 GB/s和103 GB/s. 考虑到WEKA使用的擦除编码4+2方案，写吞吐量是惊人的. 这得益于AMD第四代EPYC CPU的极高计算性能和美光DDR5 DRAM的性能提升.

在随机工作负载上，我们测量了6.3百万4KB读IOPS和1.700万4KB随机写IOPS. 这反映了集群出色的小块随机性能, 这是由美光7450 NVMe SSD的性能和延迟以及WEKA对优于本地小块NVMe性能的关注所实现的.

AI/ML工作负载:MLPerf Storage

MLPerf存储基准测试旨在测试多个模型的人工智能训练的实际存储性能. 它使用测量的睡眠时间来模拟GPU请求数据所需的时间, 处理它, 然后请求下一批数据. 这些步骤创建了一个非常突发的工作负载，其中存储将在短时间内达到最大吞吐量，然后是睡眠. 这个AI基准有一些主要优势:

是否关注AI/ML中的存储影响
具有现实的存储和预处理设置
不需要GPU加速器运行
可以从种子数据生成每个模型的大数据集吗

我们测试了以下设置:

MLPerf Storage v0.4(预览)
工作内容:医学影像分割训练
模型:Unet3D
种子数据:KiTS19组图像
生成的数据集大小:2TB (500GB x 4)
框架:PyTorch
模拟GPU: NVIDIA A100

这个基准测试的一个重要方面是，每个MLPerf Process代表一个运行AI训练过程的单个GPU. Scaling up MLPerf storage processes reaches a maximum throughput of 45 GB/s; however, 每个进程的性能在288个进程左右开始下降. 该数据点代表288个同时运行Unet3D医学图像分割训练过程的NVIDIA A100 gpu, 或相当于36个NVIDIA DGX A100系统!

你想知道更多吗?

一定要查看以下资源:

瑞安梅雷迪思

瑞安·梅雷迪思是美光存储事业部数据中心工作负载工程总监, 测试新技术，以帮助建立美光在人工智能和NVMe-oF/TCP等领域的思想领导力和意识, 以及全闪存软件定义的存储技术.

继续阅读

Storage

下一代人工智能存储:美光®ssd, WEKA™，AMD EPYC™和超微

瑞安梅雷迪思

相关的帖子

创新//内存//存储

FMS ' 23:性能固态硬盘的ATS/ATC支持

Storage

Graphics DirectStorage:性能ssd不仅仅是一款游戏

创新//内存//存储

美光7500:现实世界的主流NVMe