0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

首个采用NVIDIA M2050 GPU的实例 开启GPU云计算下个十年

454398 来源:人工智能学习网 作者:云水禅心 2021-02-24 12:08 次阅读

十年前,AWS(Amazon Web Services)发布了首个采用 NVIDIA M2050 GPU 的实例。当时,基于 CUDA 的应用主要专注于加速科学模拟AI深度学习还遥遥无期。

自那时起,AW 就不断扩充云端 GPU 实例阵容,包括 K80(p2)、K520(g3)、M60(g4)、V100(p3 / p3dn)和 T4(g4)。

现在,已全面上市的全新 AWS P4d 实例采用最新 NVIDIA A100 Tensor Core GPU,开启了加速计算的下一个十年。

全新的 P4d 实例,为机器学习训练和高性能计算应用提供 AWS 上性能与成本效益最高的 GPU 平台。与默认的 FP32 精度相比,全新实例将 FP16 机器学习模型的训练时间减少多达 3 倍,将 TF32 机器学习模型的训练的时间减少多达 6 倍。

这些实例还提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基准测试中一骑绝尘,实现了比 CPU 快 237 倍的性能。

pIYBAF-ha8qAbYI-AACa8sem2nU309.png

每个 P4d 实例均内置八个 NVIDIA A100 GPU,通过 AWS UltraClusters,客户可以利用 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 提供的可扩展高性能存储,按需、可扩展地同时访问多达 4,000 多个 GPU。P4d 提供 400Gbps 网络,通过使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技术,进一步加速深度学习训练的工作负载。EFA 上的 NVIDIA GPUDirect RDMA 在服务器之间可通过 GPU 传输数据,无需通过 CPU 和系统内存,从而确保网络的低延迟。

此外,许多 AWS 服务都支持 P4d 实例,包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 和 Amazon SageMaker。P4d 还可使用所有 NGC 提供的经过优化的容器化软件,包括 HPC 应用、AI 框架、预训练模型、Helm 图表以及 TensorRT 和 Triton Inference Server 等推理软件。

目前,P4d 实例已在美国东部和西部上市,并将很快扩展到其他地区。用户可以通过按需实例(On-Demand)、Savings Plans、预留实例(Reserved Instances)或竞价型实例(Spot Instances)几种不同的方式进行购买。

GPU 云计算发展最初的十年,已为市场带来超过 100 exaflops 的 AI 计算。随着基于 NVIDIA A100 GPU 的 Amazon EC2 P4d 实例的问世,GPU 云计算的下一个十年将迎来一个美好的开端。

NVIDIA 和 AWS 不断帮助各种应用突破 AI 的界限,以便了解客户将如何运用 AI 强大的性能。

编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101703
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4416

    浏览量

    126668
  • AI
    AI
    +关注

    关注

    87

    文章

    26430

    浏览量

    264035
  • 机器学习
    +关注

    关注

    66

    文章

    8120

    浏览量

    130550
  • AWS
    AWS
    +关注

    关注

    0

    文章

    393

    浏览量

    23929
收藏 人收藏

    评论

    相关推荐

    NVIDIA推出两款基于NVIDIA Ampere架构的全新台式机GPU

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-26 11:25 55次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 152次阅读

    RTX 5880 Ada Generation GPU与RTX™ A6000 GPU对比

    NVIDIA RTX™ 5880 Ada Generation GPU 是目前国内重量级 GPU,基于全新 NVIDIA Ada Lovelace 架构构建,
    的头像 发表于 04-19 10:20 134次阅读
    RTX 5880 Ada Generation <b class='flag-5'>GPU</b>与RTX™ A6000 <b class='flag-5'>GPU</b>对比

    FPGA在深度学习应用中或将取代GPU

    现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题 在过去的十年里,人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅
    发表于 03-21 15:19

    超微gpu服务器评测

    对超微GPU服务器进行评测。 一、超微GPU服务器概述 超微GPU服务器是一种基于超微服务器平台与GPU技术相结合的高性能计算设备。它
    的头像 发表于 01-10 10:37 424次阅读

    NVIDIA GPU的核心架构及架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此
    发表于 11-21 09:40 433次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架构及架构演进

    177倍加速!NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经存储在
    的头像 发表于 11-09 16:46 553次阅读
    177倍加速!<b class='flag-5'>NVIDIA</b>最新开源 | <b class='flag-5'>GPU</b>加速各种SDF建图!

    NVIDIA与NTT DOCOMO联手打造全球首个GPU加速5G网络,欧盟要求苹果开放生态

    大家好,欢迎收看河套IT WALK第113期。 NVIDIA与NTT DOCOMO合作推出了全球首个GPU加速的5G网络,这一突破性技术将改变我们对5G网络的认知和使用方式。欧盟对苹果提出了一个灵魂
    的头像 发表于 09-27 21:20 503次阅读
    <b class='flag-5'>NVIDIA</b>与NTT DOCOMO联手打造全球<b class='flag-5'>首个</b><b class='flag-5'>GPU</b>加速5G网络,欧盟要求苹果开放生态

    Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

    也即将在 OCI Compute 上推出。 OCI 上的 NVIDIA  H100 Tensor Core GPU 实例 OCI Co mpute 裸机实例配备了具有 
    的头像 发表于 09-25 20:40 283次阅读
    Oracle 云基础设施提供新的 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> 加速<b class='flag-5'>计算</b><b class='flag-5'>实例</b>

    Arm Mali™ GPU OpenCL开发者指南

    多得多的处理单元。这使马里™ GPU可以在不使用更多功率的情况下以比应用程序处理器更高的速率进行计算。 马里™ GPU可以有一个或多个着色器核心。 标量指令是并行执行的,因此GPU同时
    发表于 08-10 07:47

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗
    的头像 发表于 08-01 14:46 295次阅读

    NVIDIA Hopper GPU上的新cuBLAS12.0功能和矩阵乘法性能

    NVIDIA Hopper GPU 上的新 cuBLAS 12.0 功能和矩阵乘法性能
    的头像 发表于 07-05 16:30 1756次阅读
    <b class='flag-5'>NVIDIA</b> Hopper <b class='flag-5'>GPU</b>上的新cuBLAS12.0功能和矩阵乘法性能

    GPU利用率低的本质原因

    最近经常有同学反馈 GPU 利用率低,严重浪费 GPU 资源的问题,经过对一些实例分析后,借着这篇文档和大家分享一下解决方案,希望能对使用 GPU 的同学有些帮助。 一、
    的头像 发表于 06-19 14:07 694次阅读
    <b class='flag-5'>GPU</b>利用率低的本质原因

    GPU如何在imx8m plus上工作以及GPU驱动程序如何集成到DRM驱动程序框架中?

    我正在研究 imx8m plus 的 DRM 驱动程序。在linux内核源代码中,我找到了CRTC、Encoder和Connector的驱动源,但是GPU驱动在哪里呢?我知道 vivante GPU
    发表于 06-08 08:23

    HPM6750有没有开启LV_USE_GPU_HPM_PDMA的例程?

    HPM6750, 有没有开启LV_USE_GPU_HPM_PDMA的例程? 现有例程启用 LV_USE_GPU_HPM_PDMA后无法正常运行lvgl的demo, 显示异常. 另外: 编译
    发表于 05-26 06:14