0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

采用阿里云倚天实例g8y对深度学习推理性能进行测试和比较

jf_9aVl32Dp 来源:阿里云开发者社区 作者:弹性计算-百晓生 2022-11-25 10:33 次阅读

简介:本次实测涵盖图像分类识别、图像目标检测、自然语言处理以及搜索推荐等四种常见的深度学习推理场景

近几年,深度学习在视觉、自然语言处理、搜索广告推荐等工业界的各个领域广泛落地。深度学习模型参数量的指数级上升、以及新的业务对复杂模型的需求,都要求云厂商的弹性计算能够降低算力成本、提高计算效率,尤其是深度学习的推理,将会成为优化的重点。在此因素影响下,阿里云平头哥团队推出了全球首个5nm 制程的 ARM Server 芯片倚天710。该芯片基于 ARM Neoverse N2 架构,支持最新的 ARMv9 指令集,其中包括 i8mm,bf16等扩展指令集,能在科学/AI计算领域获得性能优势。

在本文中,我们聚焦于采用倚天710芯片的 ECS倚天实例g8y,对深度学习推理任务的性能进行了测试和比较。

01 Workloads

本次分析,我们选择了四种常见的深度学习推理场景,涵盖图像分类识别、图像目标检测、自然语言处理以及搜索推荐领域。所使用的代表性模型如下:

Area Task Model
Vision Image Classification Resnet50-v1.5 and VGG19
Vision Object Detection SSD-Resnet34
Language Natural Language Processing BERT-Large
Recommendation Click-Through Rate Prediction DIN

02 Platforms

实例类型

我们在阿里云两种实例类型上进行测试,分别是ECS g8y(倚天710) 和 ECS g7(Ice Lake),实例均为 8-vCPU

Deep Learning Framework

在所有平台,我们使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 设备上,TensorFlow 支持两种后端,我们使用 OneDNN 后端。OneDNN 是一个开源的跨平台深度学习库,并且能够集成 Arm Compute Library(Arm设备的机器学习计算库)。在 Arm 设备上使用该后端能够取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是实验版本,因此在 PyTorch 框架上使用默认的 OpenBLAS 后端。

BFloat16

BFloat16 (BF16) 是一种浮点数表示形式,其指数位与单精度浮点数(IEEE FP32)保持一致,但是小数位只有 7 位,因此 BF16 的表示范围与 FP32 几乎一致,但是精度较低。BF16 非常适合深度学习,因为通常精度下降并不会显著降低模型的预测精度,但是16位的数据格式却能够节省空间、加速计算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令,大幅提升了深度学习模型的推理性能,在多个场景下跑出了比 g7 更优秀的数据。此外,倚天 710 作为自研芯片,相比 g7 最大有 30% 的价格优势。

下面四幅图分别是 Resnet50,SSD,BERT 和 DIN 模型下的对比结果,其中,Resnet,SSD 和 BERT 都来自 MLPerf Inference Benchmark 项目,DIN 是 alibaba 提出的点击率预测模型。蓝色柱状条是直接性能对比,橙色柱状条是考虑了单位价格的性能对比,例如在 Resnet50 上,g8y 的性能是 g7 的 1.43倍,单位价格的性能是 g7 的 2.05 倍。

b3637baa-6c03-11ed-8abf-dac502259ad0.png

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能对比图

说明:此处设置 Batch Size = 32,测试图像尺寸为 224 * 224

b3a2567c-6c03-11ed-8abf-dac502259ad0.png

Figure 2: SSD 性能对比图

说明:此处 Batch Size = 1,测试图像尺寸为1200 * 1200

b3bdb886-6c03-11ed-8abf-dac502259ad0.png

Figure 3: BERT 性能对比图

b3dae80c-6c03-11ed-8abf-dac502259ad0.png

Figure 4: DIN 性能对比图

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是实验性质,因此本次实验采用默认的 OpenBLAS 后端。OpenBLAS 是一个开源的线性代数库,我们为其添加了针对 Arm Neoverse N2 的 BFloat16 矩阵乘法计算的优化实现。

OpenBLAS BFloat16 矩阵乘法优化

矩阵乘法和深度学习存在非常紧密的关系,例如深度学习中常见的 Fully Connected Layer,Convolutional Layer等,最终是被转换成矩阵乘法实现的。因此,加速矩阵乘法最终能加速模型的计算。

OpenBLAS 是一个广泛使用的计算库,默认作为 Numpy,PyTorch 等库的后端,我们在调研中发现该库不支持倚天 710 的 bf16 指令扩展,在和社区交流后,我们决定利用倚天 710 支持的 BFMMLA 等向量指令实现支持 bf16 数据格式的矩阵乘法,实现后性能的到大幅提升,性能对比如图 5 所示。该实现目前已经贡献给开源社区,OpenBLAS 的最新版本 0.3.21 也已经合入。

b3fcf8c0-6c03-11ed-8abf-dac502259ad0.png

Figure5: OpenBLAS 矩阵乘法性能对比

说明:参与运算的矩阵的行数和列数均为 1000。

PyTorch CNN Performance

OpenBLAS 作为 PyTorch 的默认后端,在矩阵乘法上的优化可以体现在 PyTorch 实现的深度学习模型中,我们以卷积计算占比较高的模型 VGG19 为例,该模型推理时,所有的卷积算子会被转换为矩阵乘法,并调用 OpenBLAS 完成计算。下图是 VGG 19 的性能对比:

b41e7e28-6c03-11ed-8abf-dac502259ad0.png

Figure 6: VGG19性能对比图

05 结论

本文的分析显示,在阿里云倚天实例g8y上,多个深度学习模型的推理性能高于同规格 g7,这主要得益于 Arm Neoverse N2 的新指令以及不断更新的软件支持(OneDNN、ACL 和 OpenBLAS)。在这个过程中,阿里云编译器团队贡献了一部分软件优化,后续我们将继续关注该领域的软硬件优化,提高 Arm 系列实例在 ML/AI 方面的竞争力。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    446

    文章

    47691

    浏览量

    408833
  • ARM
    ARM
    +关注

    关注

    134

    文章

    8639

    浏览量

    361641
  • 深度学习
    +关注

    关注

    73

    文章

    5221

    浏览量

    119863

原文标题:性能最高提升50%,ECS倚天实例深度学习推理性能实测

文章出处:【微信号:Arm软件开发者,微信公众号:Arm软件开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自然语言处理应用LLM推理优化综述

    当前,业界在将传统优化技术引入 LLM 推理的同时,同时也在探索从大模型自回归解码特点出发,通过调整推理过程和引入新的模型结构来进一步提升推理性能
    发表于 04-10 11:48 69次阅读
    自然语言处理应用LLM<b class='flag-5'>推理</b>优化综述

    阿里云第八代企业级实例g8i搭载第五代英特尔至强可扩展处理器

    +CIPU」架构体系,ECS g8i 实例的整机性能最高提升 85%*,AI 推理性能最高提升 7 倍*,可支撑高达 72B 参数的大语言模型,帮助中小规模模型起建成本降低 50%*。同时新
    的头像 发表于 01-15 11:28 497次阅读
    <b class='flag-5'>阿里</b>云第八代企业级<b class='flag-5'>实例</b>g8i搭载第五代英特尔至强可扩展处理器

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习
    的头像 发表于 01-09 16:41 354次阅读
    Torch TensorRT是一个优化PyTorch模型<b class='flag-5'>推理性能</b>的工具

    用上这个工具包,大模型推理性能加速达40倍

    作者: 英特尔公司 沈海豪、罗屿、孟恒宇、董波、林俊 编者按: 只需不到9行代码, 就能在CPU上实现出色的LLM推理性能。 英特尔  Extension for Transformer 创新
    的头像 发表于 12-01 20:40 613次阅读
    用上这个工具包,大模型<b class='flag-5'>推理性能</b>加速达40倍

    Google的第五代TPU,推理性能提升2.5倍

     Gridspace 机器学习主管Wonkyum Lee表示:“我们的速度基准测试表明,在 Google Cloud TPU v5e 上训练和运行时,AI 模型的速度提高了 5 倍。我们还看到推理
    发表于 11-24 10:27 243次阅读
    Google的第五代TPU,<b class='flag-5'>推理性能</b>提升2.5倍

    阿里倚天实例已为数千家企业提供算力,性价比提升超30%

    在2023云栖大会上,阿里云宣布倚天ECS实例已服务数千家企业,覆盖电商、生命科学、交通物流及游戏等领域,整体算力性价比提升超30%。 2022年,平头哥自研云原生CPU倚天710在
    的头像 发表于 11-03 11:25 593次阅读
    <b class='flag-5'>阿里</b>云<b class='flag-5'>倚天</b><b class='flag-5'>实例</b>已为数千家企业提供算力,性价比提升超30%

    Nvidia 通过开源库提升 LLM 推理性能

    加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库,将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。 正如对相同硬件一轮又一轮改进
    的头像 发表于 10-23 16:10 314次阅读

    最新MLPerf v3.1测试结果认证,Gaudi2在GPT-J模型上推理性能惊人

    英特尔产品在全新MLCommons AI推理性能测试中尽显优势 今日,MLCommons公布针对 60 亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的 MLPerf推理v3.1
    的头像 发表于 09-12 17:54 227次阅读
    最新MLPerf v3.1<b class='flag-5'>测试</b>结果认证,Gaudi2在GPT-J模型上<b class='flag-5'>推理性能</b>惊人

    深度学习框架区分训练还是推理

    深度学习框架区分训练还是推理深度学习框架是一个非常重要的技术,它们能够加速深度
    的头像 发表于 08-17 16:03 1022次阅读

    求助,为什么将不同的权重应用于模型会影响推理性能

    生成两个 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的类似模型,以不同的 fps (27fps 和 6fps) 运行 更多样化的权重是否会影响 Myriad X 上的推理性能
    发表于 08-15 07:00

    如何提高YOLOv4模型的推理性能

    使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。 将 权重转换为 ONNX 文件,然后转换为中间表示 (IR)。 无法确定如何获得更好的推理性能
    发表于 08-15 06:58

    利剑出鞘!10+专家齐聚,倚天实例迁移课程重磅上线!

    、基于CPU的机器学习和游戏服务等场景,在性能表现上,编解码场景实现80%的性价比提升,数据库场景、AI推理场景、大数据场景也都分别有着30%、70%、50%的性价比有效提升。 倚天
    的头像 发表于 08-03 14:10 491次阅读
    利剑出鞘!10+专家齐聚,<b class='flag-5'>倚天</b><b class='flag-5'>实例</b>迁移课程重磅上线!

    英特尔® AMX 助力百度ERNIE-Tiny AI推理性能提升2.66倍,尽释AI加速潜能

    科技赋能千行百业 人民网携手英特尔启动“数智加速度”计划 WAIC 2023:英特尔以技术之力推动边缘人工智能发展,打造数字化未来“芯”时代 英特尔 AMX 加速AI推理性能,助阿里电商推荐系统成功应对峰值负载压力 原文标题:英特尔® AMX 助力百度ERNIE-T
    的头像 发表于 07-14 20:10 262次阅读
    英特尔® AMX 助力百度ERNIE-Tiny AI<b class='flag-5'>推理性能</b>提升2.66倍,尽释AI加速潜能

    英特尔® AMX 加速AI推理性能,助阿里电商推荐系统成功应对峰值负载压力

    达沃斯论坛|英特尔王锐:AI驱动工业元宇宙,释放数实融合无穷潜力 英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图 英特尔内部代工模式的最新进展 原文标题:英特尔® AMX 加速AI推理性能,助阿里电商推荐系统成功应对峰值负载
    的头像 发表于 07-08 14:15 321次阅读
    英特尔® AMX 加速AI<b class='flag-5'>推理性能</b>,助<b class='flag-5'>阿里</b>电商推荐系统成功应对峰值负载压力

    性价比提升15%,阿里云发布第八代企业级计算实例g8a和性能增强型实例g8ae

    大规模加速能力,网络延时低至 8 微秒。其中,g8a 综合性价比平均提升 15% 以上,g8ae 算力最高提升 55%,在 AI 推理与训练、深度学习、高性能数据库等应用场景
    的头像 发表于 05-19 13:29 258次阅读
    性价比提升15%,<b class='flag-5'>阿里</b>云发布第八代企业级计算<b class='flag-5'>实例</b>g8a和<b class='flag-5'>性能</b>增强型<b class='flag-5'>实例</b>g8ae