如何获得最佳的GPU存储性能

demi 在周一, 11/30/2020 - 11:49 提交

作者：Tyler Dong
来源：存储加速器（TopStorage）

支持AI人工智能和ML机器学习部署的数据中心依靠基于图形处理单元（GPU）的服务器为其计算密集型架构提供支持。到2024年，在多个行业中，GPU使用量的增长将使GPU服务器的复合年增长率超过31％。这意味着将有更多的系统架构师承担承担相应的职责，以确保GPU系统具有最高的性能和成本效益。

然而，为这些基于GPU的AI / ML工作负载优化存储并非易事。存储系统必须高速处理海量数据，与此同时需要注意以下两个挑战：

1）服务器利用率。GPU服务器对于训练大型AI / ML数据集所需的矩阵乘法和卷积非常高效。但是，GPU服务器的成本是典型CPU服务器的3倍。为了保持ROI，IT员工需要让GPU使用率足够饱和。但不幸的是，很多部署经验表明GPU仅有30％的使用率。

2）GPU存储瓶颈。ML训练数据集通常远远超过GPU的本地RAM容量，从而产生了一个I / O瓶颈，分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源，这是因为它们庞大的数据阻碍了及时访问，从而影响了性能。

为了解决这个问题，NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘，成为Al / ML存储的首选。NVMe支持大规模的IO并行性，性能约为同类SATA SSD的6倍，并且延迟降低了10倍，并且具有更高的电源效率。正如GPU推动了高性能计算的发展一样，NVMe闪存在降低延迟的同时，实现了更高的存储性能、带宽和吞吐量。NVMe闪存解决方案可以使AI和ML数据集加载到应用程序的速度更快，并且可以避免GPU匮乏。

此外，NVMe Over Fabrics可以虚拟化整个高速网络上的Nvme资源，通过NVMeoF技术可以更好的适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池，因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据，以便他们更快地获得更好的结果。

要获得最佳的GPU存储性能，就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑。

1. 有效扩展GPU存储容量

例如，某存储公司为不需要运行自己的AI堆栈的组织提供了AI即服务解决方案。因此，这家公司需要最大的ROI和可扩展性。特别是对多租户的需求，这意味着为满足各种工作负载和客户端的性能要求，基础架构必须随时准备就绪。

该基础架构团队在部署其第一个GPU服务器系统的早期就了解到，本地GPU服务器的存储容量将太有限，只有4TB的本地存储，而客户的工作量则需要10到100 TB的数据。该团队研究了外部存储选项，并注意到，使用传统阵列它们将获得更多的容量，但性能最终会阻碍AI工作负载，因为应用程序需要将数据移入和移出GPU系统，从而中断工作流程并影响系统效率。

最终这家公司通过使用软件定义存储在快速的RDMA网络上合并NVMe闪存（一种将数据集加载速度提高10倍的方法），最终可以实现更高的GPU容量利用率，消除了GPU瓶颈并提高了ROI，因此现有的GPU变得更加充分利用。（注：参考lnstaDeep）

2. 大规模调整性能

AI部署的快速增长和ML训练数据集的大小增加了计算基础架构的负担，STFC（The Science and Technology Facilities Council ）则是这种典型的代表。尽管STFC已添加了高端GPU服务器以提供更高的计算支持，但STFC缺乏在数百个Researchers 中扩展资源所需的企业级存储功能。

通过在具有RDMA功能的高速网络（例如Infiniband或融合以太网（RoCE）v2上的RDMA）上实现NVMe-over-Fabrics协议，大型AI / ML用户组（例如STFC）可以虚拟化NVMe SSD在各种服务器上未使用的存储资源池，因此它们的性能就像在本地一样。通过这样做，可以在一个小时内完成机器学习培训任务，而以前则需要三到四天。即使具有复杂的模型训练任务，GPU存储也不再是瓶颈。

3. 在并行文件系统下使用NVMe池化存储

当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时，作为存储基础架构就必须部署并行分布式文件系统。并行文件系统还使存储更容易实现大多数AI / ML使用所需的高吞吐量和低延迟。在并行文件系统下具有快速、灵活的池化NVMe存储，可以改善对元数据的处理，从而实现更高的读取性能和更低的延迟，从而提高GPU服务器的利用率。

例如，一家超大型技术提供商最近推出了一种AI解决方案，用于预估保险公司使用的车辆碰撞场景。为了开发应用程序背后的AI逻辑，应用程序工作流涉及培训模型，方法是摄取多达2000万个小文件数据集，其中每个文件大小在150-700 KB之间。数据提取通常每8小时以100万个文件的速度或者每个客户端每秒最多35,000个文件进行。

通过在并行分布式文件系统下使用池化NVMe存储方法，该技术提供商消除了它遇到的存储瓶颈，并将存储性能提高了3-4倍。

4. 检查特定于GPU的“高速公路”

新的数据中心架构正在以统一的方式提高服务器、网络和存储的性能。一种类似的方法于2019年秋季首次亮相，它将来自多个供应商的基础架构元素与GPU优化的网络和存储进行集成，以在GPU内存和存储之间打开直接的数据通道，从而完全绕开CPU。这使数据能够在GPU、存储和网络设备提供的“开放高速公路”上进行传输，从而实现了对NVMe企业级卓越性能的无障碍访问。

总结

AI和ML的创新步伐迅捷，这意味着当今的部署依赖及关键技术在一年前可能是不存在的，在明年也可能被新技术取代。现在精通微调GPU存储性能的IT团队已经意识到它们之前的许多新选择，可以实现最佳的系统利用率和ROI，从而为其组织带来竞争优势。

参考链接：https://www.enterpriseai.news/2020/03/17/how-to-beat-the-gpu-storage-bot...

来源：存储加速器，作者：Tyler Dong
转载此文目的在于传递更多信息，版权归原作者所有。

Imagination独创的GPU虚拟化架构——HyperLane	关于GPU和渲染不知道的那些事	从手机到云，如果GPU都需要能效，那架构该长什么样？
PowerVR性能建议-黄金法则	简单理解什么是CPU、GPU、NPU、TPU，及算力对比	真正的全局光照：IMG DXT面向大众的光线追踪方案

最新文章

最新文章