0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大规模推理时代深度学习加速的天花板在哪?

智能计算芯世界 来源:智能计算芯世界 作者:智能计算芯世界 2022-12-15 10:51 次阅读

从数据分析、经典机器学习到搜索、推荐,再到语言处理和图像识别,每个 AI 任务运行的背后都需要海量的数学计算。可以说,AI 真的就是数学,但却是很多很多的数学。 尤其是在 AI 进入大模型时代的当下,模型的大规模训练和推理更是对计算资源有着巨大的需求。但同时,算力的掣肘正在阻碍着 AI 走向大规模落地。 当前 AI 面临的“数学题”都是何种难度?“算珠”又该如何拨弄得更快才能追得上不断增长的计算需求呢? 让我们从 CPU 的 AI 算力谈起。

1

大规模推理时代

深度学习加速的天花板在哪?

人工智能迎来第三次浪潮后,以深度学习为代表的AI已经进入应用阶段。而深度学习 AI 需要进行大量矩阵乘法以训练神经网络模型,并利用推理将这些模型应用于实际任务。

也就是说,深度学习分为训练和推理两个阶段,而推理则是推动AI大规模走向落地的关键。

训练深度学习模型可能需要数小时或数天的算力。而深度学习推理可能需要几分之一秒到几分钟,具体取决于模型的复杂程度和对结果的准确度的要求。在推理过程中,计算机将输入数据与模型进行比较,然后推断数据的含义。

让人工智能落地更多是推理层面的工作,无论是推荐引擎、图像识别、媒体分析、语言翻译 、自然语言处理、强化学习等负载中推理性能的大幅提升对落地应用的贡献都十分重要。

在此背景下,硬件架构将成为AI落地的重中之重。

而做大规模推理,CPU平台具有较大优势——用户学习门槛低、部署速度快等,在类似推荐系统的应用中,CPU也担当着算力支撑,那么如何提升CPU的AI算力?

CPU的算力取决于 CPU 特定加速指令集或运算单元的持续引入及改进,那么通过强化算力单元和增加算力单元数量并举,即Scale-Up与Scale-Out相结合,提升CPU的AI算力。

回望英特尔历代至强 可扩展处理器的深度学习加速技术(即DL Boost),已经将这一提升路径充分实践并拉高优化天花板:从第一代至强可扩展处理器引入的AVX-512——中低端型号每核心配备1个FMA单元、高端型号每核心配备2个FMA单元,到代号Ice Lake-SP的双路第三代至强可扩展处理器将此类配置扩展到全系列产品,并将最高核心数从28增加至40个,CPU的向量处理能力得以大幅提升。

6ac25558-7c19-11ed-8abf-dac502259ad0.png

指令优化方面,第二代英特尔至强 可扩展处理器引入了简称VNNI(Vector Neural Network Instruction,矢量神经网络指令)的扩展,提高了数据格式INT8推理的效率;代号Cooper Lake的第三代英特尔至强可扩展处理器又引入了数据格式bfloat16(BF16)加速功能,可以用于推理和训练。 目前,前三代英特尔至强 可扩展处理器的加速路径,主要依靠现有的计算单元,即AVX-512,配合指令集、算法和数据上的优化,输出AI算力。 但加速的天花板就到此为止了吗?

还有别的思路——内置硬件加速器,且与本就高性能的CPU内核无缝配合,叠加buff推高天花板。

2

硬件直接“贴贴”加速

第四代至强内置多种专用加速器

在今年11月,英特尔宣布将在2023年1月11日发布代号为Sapphire Rapids的全新第四代英特尔至强 可扩展处理器。

Sapphire Rapids将为广泛的标量和并行工作负载提供跨越式的性能提升,更重要的是,它的基本架构旨在实现弹性计算模型(如容器化微服务)的突破性性能,以及在所有形式的以数据为中心的计算中快速扩展 AI 的使用。

第四代英特尔至强可扩展处理器的核心数量有显著增长,并支持DDR5、PCIe 5.0和CXL 1.1等下一代内存和接口标准,在内置硬件加速上,Sapphire Rapids也集成了5项加速器:

用于AI的高级矩阵扩展(Advanced Matrix Extensions),简称AMX;

用于数据分析的存内分析加速器(In-Memory Analytics Accelerator),简称IAA;

用于5G/网络的数据流加速器(Data Streaming Accelerator),简称DSA;

用于存储的动态负载均衡器(Dynamic Load Balancer),简称DLB;

用于数据压缩和加解密的QuickAssist技术,英特尔数据保护与压缩加速技术,简称QAT。

首先,内置加速器可以消除在将数据从 CPU 移至协处理器加速器时产生的大部分开销。

同时,Sapphire Rapids还引入了加速器接口架构 (AIA),解决了无缝集成加速引擎和高性能核心时面临的关键挑战——能够处理 CPU 内核与内置加速器之间的数据高效调度、同步和信令传递,而不是高开销内核模式。

内置的硬件加速器也易获得更出色的性能,而不必将时间浪费在进行片外传输设置上。

AMX与上述其他4个加速器的一大区别,就是它本身就集成在了CPU核心内,与AVX-512一样,随核心数同步增长,线性提升处理能力。

3

开启全新计算单元

AMX升维加速深度学习工作负载

AMX与AVX-512又有什么区别?

AMX是全新的计算单元,有自己的存储和操作电路,并行度高,以便为AI工作负载加速Tensor运算,支持bfloat16和INT8两种数据类型。

Tensor处理是深度学习算法的核心,AMX功能可以实现每个循环2000次int8运算和1000次bfloat16运算。

同时,AMX的寄存器(名为Tile)是二维的,寄存器组是三维的,均比AVX-512高一个维度,寄存器组存储的数据相当于一个小型矩阵,这样AMX 能够在每个时钟周期执行更多矩阵乘法以每时钟周期来看。

理论上,AMX的TMUL(矩阵乘法运算)对AVX-512的2个FMA(融合乘加操作)单元,INT8性能高达8倍;处理浮点数据,AMX使用动态范围与FP32相当的BF16,性能可达AVX-512的16倍。

如此,有全新可扩展二维寄存器文件和全新矩阵乘法指令,可增强各种深度学习工作负载中推理及训练性能,也就代表着计算能力的大幅提升,这些计算能力可以通过行业标准框架和运行时无缝访问。

据今年1月数据表明,基于TensorFlow框架,INT8 精度下每秒检测的图像的数量增幅以及高达 6 倍多 BF16 精度下进行对象检测时每秒检测的图像的数量增幅明显增加:

56核的第四代英特尔 至强可扩展处理器全新的AMX,对比40核的第三代英特尔 至强可扩展处理器,在SSD-ResNet34上进行实时推理时,每秒处理的图像数量增加高达4.5倍。(注:实际性能受使用情况、配置和其他因素的差异影响,且性能测试结果基于配置信息中显示的日期进行的测试[1])

当然AVX-512本身就以FP32、FP64等高精度浮点数据的运算见长,依然可以专注于如数据分析、科学计算、经典机器学习等高精度计算。

如今第三代人工智能浪潮是以深度学习为代表,并非只有深度学习,AI的范围正在不断扩大,计算需求也在多元化,当人工智能的工作负载出现混合精度计算需求,AMX和AVX-512就可搭配使用,发展各自长处。

对于数据精度不高但要求高准确度的推理场景,如图像识别、推荐引擎、媒体分析、语言翻译、自然语言处理(NLP)、强化学习等典型AI应用场景,AMX其实属于降维打击,可发挥空间很大。

根据预告,英特尔第四代至强可扩展处理器是处理AI等更现代化、更新兴并行工作负载的基础设施,在进行整体设计时也考虑到了未来技术发展趋势——绝大多数新的可扩展服务将采用容器化微服务等弹性计算模型进行开发。

新版Windows、Linux Kernel和虚拟化软件也确实都具备支持AMX指令集的条件,所谓“引领”就是要更先一步到达未来。

1月11号,让我们期待至强新品的发布和更多信息吧~可以先点击阅读原文,提前了解至强产品组合~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10442

    浏览量

    206560
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230601
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14354

原文标题:明年1月,推高CPU人工智能算力天花板

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    座舱SoC天花板是SA8295P?

    座舱SoC天花板是SA8295P?当然不是,AMD的一系列嵌入式处理器都可以碾压SA8295P
    的头像 发表于 12-12 14:55 1848次阅读
    座舱SoC<b class='flag-5'>天花板</b>是SA8295P?

    深度学习在人工智能中的 8 种常见应用

    深度学习简介深度学习是人工智能(AI)的一个分支,它教神经网络学习推理。近年来,它解决复杂问题
    的头像 发表于 12-01 08:27 970次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>在人工智能中的 8 种常见应用

    北大&amp;华为提出:多模态基础大模型的高效微调

    深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显
    的头像 发表于 11-08 16:20 315次阅读
    北大&amp;华为提出:多模态基础大模型的高效微调

    WiFi 6下的大规模部署策略

    随着数字化时代的快速发展,我们正处于一个多设备、高密度连接的时代。在这个背景下,WiFi 6(802.11ax)作为一项新的无线通信标准,被广泛认为是满足未来大规模连接需求的关键技术。本文将深入研究WiFi 6在
    的头像 发表于 11-02 16:33 214次阅读

    天花板嵌入式led灯电路图

    天花板嵌入式led灯电路图  天花板嵌入式LED灯是一种现代家居装饰中常见的一种照明灯具。它不仅可以起到照明作用,还可以增加空间的美感和整体的装饰效果。本文将详细介绍天花板嵌入式LED灯的电路图
    的头像 发表于 10-16 16:29 2000次阅读
    <b class='flag-5'>天花板</b>嵌入式led灯电路图

    GPU的张量核心: 深度学习的秘密武器

    深度学习中的大规模矩阵和张量运算是计算密集型的,正是GPU的张量核心赋予了GPU这一计算工具在深度学习中的强大性能。张量核心简介张量核心是
    的头像 发表于 09-26 08:29 529次阅读
    GPU的张量核心: <b class='flag-5'>深度</b><b class='flag-5'>学习</b>的秘密武器

    深度学习框架区分训练还是推理

    深度学习框架区分训练还是推理深度学习框架是一个非常重要的技术,它们能够加速
    的头像 发表于 08-17 16:03 1030次阅读

    如何加速深度学习AI应用

    深度学习 AI 应用是解锁生产力新时代的关键,人类的创造力能够通过机器得到提高与增强。我们致力于将大量培训数据和海量数学运算用于全面训练每个神经网络。训练可使用大规模批处理功能离线进行
    发表于 08-04 11:29 408次阅读

    Gaudi Training系统介绍

    ,这就转化为对训练系统高效扩展的日益增长的需求。 典型的深度学习训练算法包括多种类型的算子,这些算子加起来要进行数十亿次运算。这些大量的操作可以通过使用先进GPU提供的固有并行处理来加速。然而,GPU主要
    发表于 08-04 06:48

    大模型算力新选择——宝德AI服务器采用8颗英特尔Gaudi®2加速

    近日,英特尔专门针对中国市场推出深度学习加速器Habana® Gaudi®2.以领先的性价比优势,加速AI训练及推理,提高
    的头像 发表于 07-19 14:43 494次阅读

    英特尔全新Gaudi2处理器面世中国市场,加速大规模深度学习训练与推理

    ,Gaudi2致力于以领先的性价比优势,加速AI训练及推理,为中国用户提供更高的深度学习性能和效率,从而成为大规模部署AI的更优解。 英特尔
    的头像 发表于 07-14 20:10 380次阅读
    英特尔全新Gaudi2处理器面世中国市场,<b class='flag-5'>加速</b><b class='flag-5'>大规模</b><b class='flag-5'>深度</b><b class='flag-5'>学习</b>训练与<b class='flag-5'>推理</b>

    深度学习而生,英特尔全新Gaudi2处理器正式登陆中国

    致力于以领先的性价比优势,加速AI训练及推理,为中国用户提供更高的深度学习性能和效率,从而成为大规模部署AI的更优解。
    的头像 发表于 07-13 09:48 544次阅读

    MP6951|重新定义的同步整流天花板

    点击标题下「MPS芯源系统」可快速关注 适配器圈内人士都知道, MP6908 系列就像同步整流控制器中天花板一样的存在。其超快的关断速度、独创的斜率检测功能、以及无需辅组绕组的高端自供电功能曾经满足
    的头像 发表于 06-28 12:05 1228次阅读
    MP6951|重新定义的同步整流<b class='flag-5'>天花板</b>

    Meta自研RISC-V AI推理芯片

    Meta取消了大规模推出内部推理芯片的计划,并开始着手开发能够执行训练和推理的芯片。
    的头像 发表于 05-20 10:03 1562次阅读
    Meta自研RISC-V AI<b class='flag-5'>推理</b>芯片

    GPU引领的深度学习

    早期的机器学习以搜索为基础,主要依靠进行过一定优化的暴力方法。但是随着机器学习逐渐成熟,它开始专注于加速技术已经很成熟的统计方法和优化问题。同时深度
    的头像 发表于 05-09 09:58 567次阅读