采用 NVIDIA DGX A100 系统和 Mellanox 频谱以太网交换机的 NetApp ONTAP AI NVA 设计(下)
解决方案架构
此架构经过验证,可满足运行深度学习工作负载的要求。有了这个验证结果,数据科学家可以在经过预先验证的基础架构上部署深度学习框架和应用程序,因此有助于消除风险,让企业集中精力从数据中获得有价值的洞察。此架构还可以为其他 HPC 工作负载提供出色的存储性能,而且无需对基础架构进行任何修改或调整。
主机配置
对于网络连接,每个 DGX A100 系统都配置有八个用于计算集群连接的 ConnectX-6 单端口网络接口卡
和两个用于存储和客户端访问连接的 ConnectX-6 双端口卡。对于 InfiniBand 和以太网,这些卡支持高达
200 GB 的链路速度。在此参考架构中,为 200 GB RoCE 配置了八个单端口卡,并将其连接到一对
SN3700V 交换机,以实现计算集群连接。双端口卡上的端口连接到另一对 SN3700V 交换机,用于存储
和客户端网络连接。图 7 显示了 DGX A100 系统的网络端口和 VLAN 配置。
对于以太网存储网络,主机端和交换机端的两个物理端口分别配置为 LACP 端口通道和 MLAG。另外两
个端口配置为另一个 LACP 绑定,用于带内管理和客户端访问流量。由于 AFF A800 存储系统具有高性能
功能,因此在此测试中已禁用主机端 NFS 文件系统缓存。
DGX OS 4.99 及更高版本使用 Linux 5.3 内核,其中包括 NFS nConnect 功能,可显著提高 NFSv3 存储
性能。通过 nConnect,一个 NFS 挂载可以利用多个 TCP 会话来增加可用带宽,从而可能达到最大线
速。此架构已通过 nConnect 的验证,可简化主机配置,同时提供与先前多个挂载配置相当的性能。下面
列出了此测试中使用的特定主机端挂载参数:
• nConnect=8。为每个挂载的卷创建八个 TCP 会话以提高整体性能。
• rsize=262144,wsize=262144。将最大读写传输大小设置为 256k。ONTAP 支持高达 1 MB 的
NFS 传输大小,但测试表明,256 K 可以以最低延迟提供最大吞吐量。
解决方案验证
此参考架构已通过综合基准实用程序和深度学习基准测试进行验证,以确定系统的基线性能和操作。本
节所述的每个测试都使用 技术要求中列出的特定设备和软件执行。
如此验证所示,AFF A800 系统可轻松支持由八个 DGX A100 系统生成的深度学习培训工作负载。对于具
有更高存储性能需求的更大规模部署,则可以在 NetApp ONTAP 集群中增加更多 AFF A800 系统。
ONTAP 9 在一个集群中最多支持 12 个 HA 对(24 个节点)。借助此解决方案中验证的 FlexGroup 技术,一个 24 节点集群可以在一个卷中提供 20 PB 以上的吞吐量,并可提供高达 300 Gbps 的吞吐量。
虽然此验证中使用的数据集相对较小,但 ONTAP 9 可以通过线性性能可扩展性扩展到令人惊叹的容
量,因为每个 HA 对的性能均可与本文档中验证的级别相当。
AFF A400 等其他 NetApp 存储系统可为较小的部署提供较低的性能和容量选项,并且成本较低。根据此测
试的结果,AFF A400 存储系统可以支持一个或两个 DGX A100 系统以及所测试的工作负载。由于
ONTAP 9 支持混合模式集群,因此您可以从更小占用空间起步,然后随着您的容量和性能需求的增长在集
群中添加更多或更大的存储系统。
21 采用 NVIDIA DGX A100 系统的 NetApp ONTAP AI © 2020 NetApp, Inc.。保留所有权利。
结论
DGX A100 系统是下一代深度学习平台,需要同样高级的存储和数据管理功能。通过将 DGX A100 与
NetApp AFF 系统相结合,可以几乎任意规模地实施这一经过验证的架构,从与 AFF A400 存储系统配
对的单个 DGX A100 到 12 节点 AFF A800 集群上可能有 48 个 DGX A100 系统。AFF 与 NetApp
ONTAP 的卓越云集成功能以及软件定义的功能相结合,可为成功实施深度学习项目提供跨边缘、核心
和云的完整数据管道。