十年前,AWS(Amazon Web Services)发布了首个采用 NVIDIA M2050 GPU 的实例。当时,基于 CUDA 的应用主要专注于加速科学模拟,AI 和深度学习还遥遥无期。
自那时起,AW 就不断扩充云端 GPU 实例阵容,包括 K80(p2)、K520(g3)、M60(g4)、V100(p3 / p3dn)和 T4(g4)。
现在,已全面上市的全新 AWS P4d 实例采用最新 NVIDIA A100 Tensor Core GPU,开启了加速计算的下一个十年。
全新的 P4d 实例,为机器学习训练和高性能计算应用提供 AWS 上性能与成本效益最高的 GPU 平台。与默认的 FP32 精度相比,全新实例将 FP16 机器学习模型的训练时间减少多达 3 倍,将 TF32 机器学习模型的训练的时间减少多达 6 倍。
这些实例还提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基准测试中一骑绝尘,实现了比 CPU 快 237 倍的性能。

每个 P4d 实例均内置八个 NVIDIA A100 GPU,通过 AWS UltraClusters,客户可以利用 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 提供的可扩展高性能存储,按需、可扩展地同时访问多达 4,000 多个 GPU。P4d 提供 400Gbps 网络,通过使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技术,进一步加速深度学习训练的工作负载。EFA 上的 NVIDIA GPUDirect RDMA 在服务器之间可通过 GPU 传输数据,无需通过 CPU 和系统内存,从而确保网络的低延迟。
此外,许多 AWS 服务都支持 P4d 实例,包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 和 Amazon SageMaker。P4d 还可使用所有 NGC 提供的经过优化的容器化软件,包括 HPC 应用、AI 框架、预训练模型、Helm 图表以及 TensorRT 和 Triton Inference Server 等推理软件。
目前,P4d 实例已在美国东部和西部上市,并将很快扩展到其他地区。用户可以通过按需实例(On-Demand)、Savings Plans、预留实例(Reserved Instances)或竞价型实例(Spot Instances)几种不同的方式进行购买。
GPU 云计算发展最初的十年,已为市场带来超过 100 exaflops 的 AI 计算。随着基于 NVIDIA A100 GPU 的 Amazon EC2 P4d 实例的问世,GPU 云计算的下一个十年将迎来一个美好的开端。
NVIDIA 和 AWS 不断帮助各种应用突破 AI 的界限,以便了解客户将如何运用 AI 强大的性能。
编辑:hfy
-
NVIDIA
+关注
关注
14文章
5685浏览量
110111 -
gpu
+关注
关注
28文章
5271浏览量
136059 -
AI
+关注
关注
91文章
41057浏览量
302561 -
机器学习
+关注
关注
67文章
8562浏览量
137209 -
AWS
+关注
关注
0文章
444浏览量
26631
发布评论请先 登录
借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程
NVIDIA RTX PRO 5000 Blackwell GPU的深度评测
NVIDIA RTX PRO 4000 Blackwell GPU性能测试
在Python中借助NVIDIA CUDA Tile简化GPU编程
NVIDIA RTX PRO 2000 Blackwell GPU性能测试
NVIDIA NVQLink技术被全球十余家超级计算中心广泛采用
Lambda采用Supermicro NVIDIA Blackwell GPU服务器集群构建人工智能工厂
NVIDIA RTX PRO 4500 Blackwell GPU测试分析
首个采用NVIDIA M2050 GPU的实例 开启GPU云计算下个十年
评论