Storage

下一代人工智能存储:美光®ssd, WEKA™,AMD EPYC™和超微

作者:瑞安梅雷迪思 - 2023-01-20

超级计算2022,微米® 数据中心工作量工程组, WEKA, AMD and 超微型计算机 携手成为第一个在WEKA AI工作负载分布式存储解决方案中测试第四代AMD EPYC平台的公司.

我们部署了一个解决方案,利用了最先进的硬件和软件,并使用了MLPerf™存储工作组的新基准来衡量其支持苛刻的人工智能工作负载的能力.

当我第一次在领英上发布这项工作时, 我了解到,这个团队是第一个大规模测试MLPerf存储的团队,也是第一个在AMD热那亚处理器上测试WEKA的团队. Liran Zvibel (WEKA的联合创始人兼首席技术官)评论道 他很高兴这个过程进行得如此顺利,“第一次在一个全新的平台(新的PCIe)上运行”经常会遇到一些困难® 总线、新CPU等).”

WEKA版本4 扩展其软件定义的存储堆栈,以提高每个节点的可伸缩性和性能, 这是利用下一代系统的必要条件. 根据WEKA的说法,它还:

  • 数据平台是为NVMe设计的吗TM 现代网络.
  • 提高带宽和IOPs的性能,减少延迟和元数据.
  • 支持对本地或云中数据的广泛、多协议访问.
  • 在不需要调优的情况下,对于混合工作负载和小文件是否比本地磁盘更快.

超微公司提供了其中的6个新沙巴体育结算平台 - 1115 - cs - tnr 用于WEKA集群节点的系统. 这些平台利用了第四代AMD EPYC cpu和PCIe® Gen5底板. 测试系统的具体情况如下:

我们利用美光DDR5 DRAM的优势部署了这个解决方案, 它提供了比上一代DDR4更高的性能和吞吐量以及更快的传输速度.

我们还使用了美光7450 NVMe固态硬盘-采用美光176层CMOS在阵列(CuA)下构建。. 它结合了高性能和优质的服务, 提供卓越的应用程序性能和响应时间.

对网络, 我们使用NVIDIA ConnectX-6 200Gbe网卡,每个存储节点2个网卡,每个客户端1个网卡. 我们建议在有可用的PCIe Gen5 400Gbe NVIDIA ConnectX-7网卡时使用它,以简化网络配置和部署,并具有类似的性能.

基线结果

我们在12个负载生成客户机上测试了FIO性能,以测量最大系统吞吐量, 在所有客户机中,每个客户机的队列深度(QD)从1扩展到32.

对于1MB的读和1MB的写,我们分别达到了142 GB/s和103 GB/s. 考虑到WEKA使用的擦除编码4+2方案,写吞吐量是惊人的. 这得益于AMD第四代EPYC CPU的极高计算性能和美光DDR5 DRAM的性能提升.

在随机工作负载上,我们测量了6.3百万4KB读IOPS和1.700万4KB随机写IOPS. 这反映了集群出色的小块随机性能, 这是由美光7450 NVMe SSD的性能和延迟以及WEKA对优于本地小块NVMe性能的关注所实现的.

AI/ML工作负载:MLPerf Storage

MLPerf存储基准测试旨在测试多个模型的人工智能训练的实际存储性能. 它使用测量的睡眠时间来模拟GPU请求数据所需的时间, 处理它, 然后请求下一批数据. 这些步骤创建了一个非常突发的工作负载,其中存储将在短时间内达到最大吞吐量,然后是睡眠. 这个AI基准有一些主要优势:

  • 是否关注AI/ML中的存储影响
  • 具有现实的存储和预处理设置
  • 不需要GPU加速器运行
  • 可以从种子数据生成每个模型的大数据集吗

我们测试了以下设置:

  • MLPerf Storage v0.4(预览)
  • 工作内容:医学影像分割训练
  • 模型:Unet3D
  • 种子数据:KiTS19组图像
  • 生成的数据集大小:2TB (500GB x 4)
  • 框架:PyTorch
  • 模拟GPU: NVIDIA A100

这个基准测试的一个重要方面是,每个MLPerf Process代表一个运行AI训练过程的单个GPU. Scaling up MLPerf storage processes reaches a maximum throughput of 45 GB/s; however, 每个进程的性能在288个进程左右开始下降. 该数据点代表288个同时运行Unet3D医学图像分割训练过程的NVIDIA A100 gpu, 或相当于36个NVIDIA DGX A100系统!

你想知道更多吗?

一定要查看以下资源:

瑞安梅雷迪思

瑞安梅雷迪思

瑞安·梅雷迪思是美光存储事业部数据中心工作负载工程总监, 测试新技术,以帮助建立美光在人工智能和NVMe-oF/TCP等领域的思想领导力和意识, 以及全闪存软件定义的存储技术.

+