0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA为需要加速计算的企业客户运行测试服务器

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-12-15 15:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

借助 NVIDIA AI,戴尔、浪潮、Microsoft Azure 和 Supermicro 在今天发布的新 MLPerf 基准测试中创下快速训练 AI 模型的记录

看看谁刚刚在快速训练 AI 模型方面创下新速度记录:戴尔科技、浪潮、Supermicro以及在 MLPerf 基准测试中首次亮相的 Azure 均在使用 NVIDIA AI。

在今天宣布的 MLPerf 训练 1.1 结果中,NVIDIA平台在所有八个热门工作负载中都创下了记录。

图示:在新一轮的测试中,NVIDIA AI 训练所有模型的速度都快于替代方案

NVIDIA A100 Tensor Core GPU 提供了最出色每芯片性能, Selene 是NVIDIA内部基于模块化NVIDIA DGX SuperPOD架构构建的AI超级计算机,借助NVIDIA InfiniBand网络和NVIDIA软件栈进行扩展,A100在Selene上实现了最快的AI训练速度 。

图示:NVIDIA A100 GPU 在所有八项 MLPerf 1.1 测试中均实现最好的每芯片训练性能

云服务更上一层楼

根据最新结果,在训练 AI 模型方面,Azure 的 NDm A100 v4 实例的速度遥遥领先。它运行了新一轮的每项测试,扩展到多达 2,048 个 A100 GPU。

Azure 不仅展示了出色性能,而且在美国的六个地区,现在所有人都可以租借和使用其出色性能。

AI 训练是一项需要大量投入的大型工作。NVIDIA希望用户借助他们选择的服务或系统以创纪录的速度训练模型。

因此,NVIDIA将 NVIDIA AI 与面向云服务、主机托管服务、企业和科学计算中心的产品相结合。

服务器制造商各显身手

在OEM 中,浪潮凭借其八路GPU服务器NF5688M6 和NF5488A5液冷服务器在单节点性能方面创下了最多记录。戴尔和 Supermicro 在四路 A100 GPU 系统上创下了记录。

共有 10 家 NVIDIA 合作伙伴提交了本轮测试结果,其中包含 8 家 OEM 和 2 家云服务提供商。它们占所有提交的 90% 以上。

这是 NVIDIA 生态系统在 MLPerf 训练测试中的第五次亮相,也是到目前为止最出色的亮相。

NVIDIA的合作伙伴之所以积极参与,是因为他们知道 MLPerf 是唯一符合行业标准、经过同行评审的 AI 训练和推理基准测试。对于评估 AI 平台和供应商的客户来说,这是一个有价值的工具。

为速度认证的服务器

百度 PaddlePaddle、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想和 Supermicro 提交了基于本地数据中心的结果(单节点和多节点任务)。

NVIDIA几乎所有的 OEM 合作伙伴都在 NVIDIA 认证系统上运行了测试,NVIDIA为需要加速计算的企业客户验证了服务器。

提交的范围展示了 NVIDIA 平台的广度和成熟度,该平台为各种规模的企业提供最佳的解决方案。

既快速又灵活

NVIDIA AI 是唯一用于提交所有基准测试和用例的平台参与者,这展示了其通用性和高性能。快速灵活的系统提供客户所需的生产力,以加快他们的工作速度。

AI训练基准测试涵盖当今最热门的八个 AI 工作负载和场景,例如计算机视觉、自然语言处理、推荐系统、增强学习等。

MLPerf 测试透明、客观,因此用户可以依靠结果做出明智的购买决策。该行业基准测试组织成立于 2018 年 5 月,得到阿里巴巴、ARM、Google、Intel 和 NVIDIA 等数十家行业领先公司的支持。

三年内加速 20 倍

回顾过去,数据显示,仅在过去 18 个月,NVIDIA A100 GPU 的性能就提升了 5 倍以上。这要归功于软件的持续创新,这也是NVIDIA目前工作的重心。

自从三年前 MLPerf 测试首次亮相,NVIDIA 的性能提高了 20 倍以上。这种大规模加速源于NVIDIA在全栈 GPU、网络、系统和软件方面取得的进步。

图示:NVIDIA AI 在三年内实现了 20 倍以上的改进

持续改进软件

NVIDIA的新进展来自多项软件改进。

例如,借助一类新的内存复制操作,NVIDIA在针对医学成像的 3D-UNet 基准测试中实现 2.5 倍的操作加速。

得益于微调 GPU 以进行并行处理的方式,NVIDIA在针对物体检测的 Mask R-CNN 测试中实现 10% 的速度提升,而在针对推荐系统的测试中实现了 27% 的提升。NVIDIA只是重叠了独立操作,这种技术尤其适合跨多个 GPU 运行的作业。

NVIDIA扩展了 CUDA 图形的使用范围,尽可能减少与主机 CPU通信。得益于此,NVIDIA在针对图像分类的 ResNet-50 基准测试中实现了 6% 的性能提升。

NVIDIA在NCCL 上实施了两种新技术。NCCL 是NVIDIA的库,用于优化 GPU 之间的通信。对于 BERT 等大型语言模型,这样可以将结果加速高达 5%。

利用NVIDIA的工作结果

NVIDIA使用的所有软件均在 MLPerf 仓库提供,因此每个人都可以获得NVIDIA的出色结果。NVIDIA不断将这些优化整合到 NGC(NVIDIA的 GPU 应用程序软件中心)上的容器。

它是全栈平台的一部分,已在新的行业基准测试中得到验证,可从各种合作伙伴处获得,能够处理当今真正的 AI 作业。

原文标题:MLPerf | 云服务、OEM 借助 NVIDIA AI 让 AI 训练更上层楼

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110102
  • 服务器
    +关注

    关注

    14

    文章

    10345

    浏览量

    91739
  • 数据中心
    +关注

    关注

    18

    文章

    5756

    浏览量

    75195

原文标题:MLPerf | 云服务、OEM 借助 NVIDIA AI 让 AI 训练更上层楼

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    服务器电源有进行老化测试的必要吗?

    CPET深圳市中科源电子有限公司,深耕电力电子测试领域十余年,以自主研发的老化测试智能装备,服务器电源可靠性保驾护航,用科技力量守住企业
    的头像 发表于 04-10 10:48 46次阅读
    <b class='flag-5'>服务器</b>电源有进行老化<b class='flag-5'>测试</b>的必要吗?

    服务器发展趋势:迎接数字时代新变革

    的迅猛发展对服务器性能提出了更高要求。AI训练和推理任务需要强大的并行计算能力,传统CPU架构已难以满足。因此,搭载GPU、TPU、FPGA等专用加速芯片的AI
    的头像 发表于 03-19 16:58 223次阅读
    <b class='flag-5'>服务器</b>发展趋势:迎接数字时代新变革

    NVIDIA加速计算平台助力从地球到太空的AI应用

    NVIDIA 今日宣布,其最新一代加速计算平台正在开启太空创新的新时代,将为轨道数据中心 (ODC)、地理空间信息收集以及自主太空运行提供 AI 算力。
    的头像 发表于 03-18 14:44 502次阅读

    EtherCAT FOE工作原理揭秘:客户端-服务器模型如何运转?

    上期我们聊了EtherCATFOE的五大应用场景,本期深入解析其底层工作机制。FOE究竟是如何实现文件传输的?答案藏在客户端-服务器模型中。核心架构:一客户端多服务器在EtherCAT
    的头像 发表于 03-02 11:50 205次阅读
    EtherCAT FOE工作原理揭秘:<b class='flag-5'>客户</b>端-<b class='flag-5'>服务器</b>模型如何运转?

    普通服务器电源与AI服务器电源的区别(上)

    普通服务器电源与AI服务器电源的区别,相关测试及应用工作提供参考。输出电压精度方面的区别输出电压精度是服务器电源的关键指标之一。普通
    的头像 发表于 01-12 09:31 1373次阅读
    普通<b class='flag-5'>服务器</b>电源与AI<b class='flag-5'>服务器</b>电源的区别(上)

    什么是企业服务器-云计算

    企业服务器是指为企业提供的基于云计算技术的服务器解决方案。华纳云是一家云计算
    的头像 发表于 12-29 17:57 1036次阅读

    服务器电源的测试项目有哪些呢?

    服务器电源的应用场景主要为工业级场景,因此服务器电源测试聚焦稳定性、冗余容错、远程管理等关键需求,所以服务器电源的测试项目主要针对的是这些方
    的头像 发表于 12-26 19:26 432次阅读
    <b class='flag-5'>服务器</b>电源的<b class='flag-5'>测试</b>项目有哪些呢?

    AI 服务器电源测试项目研究报告

    01项目背景随着人工智能技术的飞速发展,AI服务器的需求急剧增加。电源作为AI服务器的关键组件,其性能直接影响服务器的稳定性、可靠性和能源效率。因此,开展AI服务器电源
    的头像 发表于 12-16 10:22 952次阅读
    AI <b class='flag-5'>服务器</b>电源<b class='flag-5'>测试</b>项目研究报告

    恒讯科技解析:服务器监控与告警设置—企业必备指南

    一、为什么企业必须配置服务器监控和告警 要是没有监控系统,企业,就只能在故障出现之后,才发觉问题,进而造成业务方面的损失。恒讯科技长期服务企业
    的头像 发表于 11-25 17:42 810次阅读

    加速是如何隐藏源服务器ip的

    服务器IP是保护服务器的一项重要安全措施。 华纳云 大家分享受一下内容: 隐藏源服务器IP的主要目的是防止恶意攻击者通过直接访问服务器IP
    的头像 发表于 09-12 16:31 799次阅读

    Lambda采用Supermicro NVIDIA Blackwell GPU服务器集群构建人工智能工厂

    大批量 Supermicro GPU 优化服务器(包括基于 NVIDIA Blackwell 的系统),以扩展其人工智能基础设施并向客户交付高性能计算系统。此次合作于今年 6 月率先在
    的头像 发表于 08-30 16:55 926次阅读

    硅谷GPU云服务器是什么意思?使用指南详解

    硅谷GPU云服务器本质上是一种IaaS(基础设施即服务)产品,它将物理服务器上的GPU资源通过虚拟化技术分割成可弹性调配的云服务。与普通CPU云服务
    的头像 发表于 06-16 09:41 717次阅读

    云存储服务器租用的好处有哪些?

    随着企业数字化转型加速,云存储服务器租用成为越来越多企业的首选方案。云存储服务器租用的好处在于弹性灵活、成本可控、安全可靠,同时避免了传统
    的头像 发表于 05-16 11:03 934次阅读

    云电竞服务器 工作原理

    云电竞服务器工作原理详解 一、核心架构原理 虚拟化资源池‌ 通过 ‌KVM/VMware‌ 等虚拟化技术将物理服务器(含NVIDIA GPU集群)抽象可动态分配的算力资源池,每个用户
    的头像 发表于 05-14 07:44 754次阅读
    云电竞<b class='flag-5'>服务器</b> 工作原理

    如何选择 边缘计算服务器

    边缘计算服务器选型指南(2025年更新版) 一、明确应用场景需求 场景细分‌ 工业控制、自动驾驶等需‌毫秒级响应‌的场景,优先选择集成多核处理(如Xeon D系列)和实时算法加速模块
    的头像 发表于 05-06 07:58 921次阅读
    如何选择 边缘<b class='flag-5'>计算</b><b class='flag-5'>服务器</b>