0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云震旦异构计算加速平台基于NVIDIA Tensor Core GPU

GLeX_murata_eet 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-08-13 10:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

阿里云震旦异构计算加速平台基于NVIDIA Tensor Core GPU,通过机器学习模型的自动优化技术,大幅提升了算子的执行效率,刷新了NVIDIA A100、A10、T4的GPU单卡性能。并基于8张NVIDIA A100 GPU和开放规则,以离线场景下每秒处理107.8万张图片的成绩,打破MLPerf 1.0推理性能测试纪录。

阿里云自研震旦异构计算加速平台,适配GPU、ASIC等多种异构AI芯片,优化编译代码,深挖和释放异构芯片算力,支持TensorFlow、Caffe、PAI等多种深度学习框架,可实现AI框架及算法的无缝迁移适配,支持云变端多场景快速部署,大幅提升AI应用开发效率。

在MLPerf推理性能测试结果1.0版中,震旦异构计算加速平台,基于8卡NVIDIA A100 GPU配置上性能夺魁,在开放规则的离线场景下取得每秒处理107.8万张图片的成绩。

首先在顶层算法模型上,使用基于自动机器学习(AutoML)的模型设计方式,这种方式可以获得比人工设计更高效的模型。震旦基于MIT的先进的神经网络架构搜索算法Once-For-All。

使用了基于强化学习的自研搜索算法获得了高性能子网络;之后通过INT8量化获得硬件加速继续提高性能,并在量化前进行深度重训练,以保证量化后的精度能够达到测试的精度要求。

IRB即反转残差块(Inverted Residual Block),是用于网络架构搜索的基本模块。每个反转残差块包括三层卷积算子,图上反转残差块的长度代表了该块的输出channel数量。

一般机器学习框架的算子实现专注于优化主流的神经网络架构,而对于NAS的反转残差块则效率不佳,震旦使用了基于自动调优的大规模算子融合技术,大幅提高了推理时算子对GPU的利用率,并且可根据不同的架构自动调优到最佳算子实现。

因此能快速发掘全新GPU架构的潜力,例如对于A100上通过MIG(多实例GPU)技术产生的具有不同计算资源的GPU实例,震旦算子优化技术可以通过自动调优来进一步提升计算资源利用率。

打破纪录的背后,在硬件平台上也得益于NVIDIA A100 GPU 强大的算力支持,近5倍于上一代的INT8性能使得超越百万级性能成为可能。另外,NVIDIA GPU的通用性,即通过CUDA直接对硬件编程,使得用户可以针对其特有的神经网络模型进行定制优化,这让震旦基于GPU的自动算子调优技术成为了现实。

最终获得的调优算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享内存,从而交出了软硬件协同优化的满意答卷。

在MLPerf推理性能测试结果1.0版本图像分类性能测试中,阿里云震旦异构计算加速平台,基于NVIDIA A100 GPU平台和开放规则,在离线场景下以每秒处理107.8万张图片的成绩,打破了此前谷歌保持的绝对性能榜单的世界纪录。这也是阿里在通用GPU平台第一次取得100万+这样的成绩。

此次阿里云震旦异构计算加速平台基于NVIDIA通用GPU硬件,通过机器学习模型的自动优化技术,大幅提升了算子的执行效率,刷新了NVIDIA GPU单卡性能。无论是新推出的A100和A10,还是已面市3年的T4,都带来了单卡性能的大幅提升。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • asic
    +关注

    关注

    34

    文章

    1277

    浏览量

    124929
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5266

    浏览量

    136040
  • AI芯片
    +关注

    关注

    17

    文章

    2161

    浏览量

    36863

原文标题:NVIDIA A100 GPU助力阿里云打破MLPerf推理性能测试纪录

文章出处:【微信号:murata-eetrend,微信公众号:murata-eetrend】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于openEuler平台的CPU、GPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样算力支持 方面表现出色,能够高效调度 CPU、GPU、FPGA
    的头像 发表于 04-08 11:02 581次阅读
    基于openEuler<b class='flag-5'>平台</b>的CPU、<b class='flag-5'>GPU</b>与FPGA<b class='flag-5'>异构</b><b class='flag-5'>加速</b>实战

    NVIDIA加速计算平台助力从地球到太空的AI应用

    NVIDIA 今日宣布,其最新一代加速计算平台正在开启太空创新的新时代,将为轨道数据中心 (ODC)、地理空间信息收集以及自主太空运行提供 AI 算力。
    的头像 发表于 03-18 14:44 501次阅读

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU
    的头像 发表于 02-10 10:31 503次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的
    的头像 发表于 01-06 09:51 3877次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度评测

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    模型更高的层级来实现算法。至于如何将计算任务拆分到各个线程,完全由编译器和运行时在底层自动处理。不仅如此,tile kernels 还能够屏蔽 Tensor Core 等专用硬件的细节,写出的代码还能
    的头像 发表于 12-13 10:12 1392次阅读
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile简化<b class='flag-5'>GPU</b>编程

    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能异构计算平台

    TEC100TAI-KIT是一款基于国产100TAI的全国产智能异构计算平台开发套件,该套件包含1个100TAI核心板和1个PCIE规格的扩展底板。 该套件的核心板集成了100TAI的最小
    的头像 发表于 09-19 17:16 1076次阅读
    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能<b class='flag-5'>异构计算</b><b class='flag-5'>平台</b>

    PCIe协议分析仪能测试哪些设备?

    PCIe协议分析仪能测试多种依赖PCIe总线进行高速数据传输的设备,其测试范围覆盖计算、存储、网络及异构计算等多个领域,具体设备类型及测试场景如下:一、核心计算设备 GPU(图形处理器
    发表于 07-25 14:09

    NVIDIA助力CoreWeave平台性能升级

    AI 变革正在重塑数据中心格局,亟需能够提供更灵活、高性价比的计算和数据能力的平台。为了满足这些需求,作为推动 AI 变革的超大规模服务提供商,CoreWeave 致力于开发一种用于加速
    的头像 发表于 07-23 10:49 1474次阅读
    <b class='flag-5'>NVIDIA</b>助力CoreWeave<b class='flag-5'>云</b><b class='flag-5'>平台</b>性能升级

    异构计算解决方案(兼容不同硬件架构)

    异构计算解决方案通过整合不同类型处理器(如CPU、GPU、NPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术与实践方案如下: 一、硬件架构设计 异构处理
    的头像 发表于 06-23 07:40 1036次阅读

    NVIDIA计划打造全球首个工业AI平台

    NVIDIA 宣布,其正在为欧洲制造商构建全球首个工业 AI 。这家总部位于德国的 AI 工厂将配备 1 万个 GPU,包括通过 NVIDIA DGX B200 系统 和
    的头像 发表于 06-16 14:17 1601次阅读

    硅谷GPU服务器是什么意思?使用指南详解

    硅谷GPU服务器本质上是一种IaaS(基础设施即服务)产品,它将物理服务器上的GPU资源通过虚拟化技术分割成可弹性调配的服务。与普通CPU
    的头像 发表于 06-16 09:41 716次阅读

    如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

    报告作者:PallaviSharma,Imaginaiton产品管理总监Dr.EricNorige,BayaSystems首席软件架构师关注Imagination公众号,消息框发送【异构计算】,即可
    的头像 发表于 06-13 08:33 1363次阅读
    如何释放<b class='flag-5'>异构计算</b>的潜能?Imagination与Baya Systems的系统架构实践启示

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 4261次阅读

    Imagination与澎峰科技携手推动GPU+AI解决方案,共拓计算生态

    近日, Imagination Technologies 与国内领先的异构计算软件与智算混合服务提供商 澎峰科技 ( PerfXLab )正式签署合作备忘录( MoU ),围绕 GPU 与 AI
    发表于 05-21 09:40 1290次阅读

    Imagination与澎峰科技携手推动GPU+AI解决方案,共拓计算生态

    近日,ImaginationTechnologies与国内领先的异构计算软件与智算混合服务提供商澎峰科技(PerfXLab)正式签署合作备忘录(MoU),围绕GPU与AI的深度融合展开合作。双方将
    的头像 发表于 05-20 08:33 1018次阅读
    Imagination与澎峰科技携手推动<b class='flag-5'>GPU</b>+AI解决方案,共拓<b class='flag-5'>计算</b>生态