0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔最新GPU Gaudi2架构相关信息介绍

要长高 来源:半导体产业纵横 作者:半导体产业纵横 2022-05-12 15:26 次阅读

英伟达并不是唯一一家创建专业计算单元的公司,这些计算单元擅长矩阵数学和张量处理,这些计算单元支持AI训练,并且可以重新用于运行AI推理。英特尔已经收购了两家这样的公司—Nervana Systems,并紧随其后的是Habana Labs,后者已被英特尔产品化,并紧随英伟达的GPU加速器之后。

英特尔是一家优秀的公司,该公司认为将在未来五年内获得500亿美元的人工智能计算机会(用于训练和推理),从现在到2027年,英特尔将以25%的复合年增长率增长,达到这一水平。鉴于“Ponte Vecchio”Xe HPC GPU加速器即将推出的相当大的矩阵和矢量数学,以及即将到来的“Sapphire Rapids”Xeon SP CPU中AMX矩阵数学单元中很可能有足够的推理容量,因此有理由想知道英特尔预计会销售多少Gaudi训练和Goya推理芯片

我们了解到,当英特尔在2016年8月以3.5亿美元与Nervana Systems达成交易并在2019年12月以20亿美元收购Habana Labs时,它追求的是知识产权和人,当然,因为这就是这场IT战争的玩法,但我们一直想知道这些设备,以及来自竞争对手GraphCore的设计, Cerebras,SambaNova Systems和Groq将部署在类似于主流的东西中。上述四家公司迄今为止共筹集了28.7亿美元。

所有这些产品都刚刚开始滚动,这就是为什么英特尔将其赌注对冲到Nervana和Habana,就像它对数据中心FPGA感到恐惧一样(主要归功于Microsoft Azure),并在2015年6月斥资167亿美元收购了Altera。在2015年至2020年器件,在数据中心计算方面英特尔的Xeon CPU占据主导地位,并且通过收购方式,减少了一些竞争对手。

在本周举行的Intel Vision 2022大会上,Gaudi2 AI训练芯片是芯片制造商推出的大型新计算引擎,顺便说一句,它不是英特尔实际制造的芯片,而是像其前身Gaudi1一样,由竞争对手台积电代工蚀刻而成。英特尔尚未透露对Gaudi2架构的深入研究,但这是我们所知道的。

通过Gaudi2,英特尔正在转向台积电的7纳米工艺,随着这种收缩,它能够将芯片上的TPC数量从10个增加到24个,并增加了对新的8位FP8数据格式的支持,英伟达还将其添加到其“Hopper”GH100 GPU计算引擎中,该引擎于3月份推出,并在第三季度发货。使用FP8格式,现在可以以相同的格式获得低分辨率推理数据和高分辨率训练数据,并且在从训练移动到推理时不必在浮点和整数之间转换模型。这对AI来说是一个真正的福音,尽管较低精度的整数格式可能会在未来许多年内保留在矩阵和矢量计算引擎中,以支持遗留代码和其他类型的应用程序。Gaudi2芯片具有48 MB的SRAM,如果它与TPC数量线性扩展,将能达到2.4倍而不是2倍的SRAM,或57.6 MB。

Gaudi2芯片上有HBM2e内存组,可提供2.45 TB /秒的带宽,比Gaudi1芯片增加了2.45倍。HBM2e内存库的数量没有透露,但六个16 GB HBM2e的存储体为Gaudi2提供了诀窍,而Gaudi 1的四个存储体为8 GB HBM2。仅两个 HBM2e 内存控制器的增加就可将带宽提高 1.33 倍,而带宽的剩余增加来自提高内存速度。

Gaudi1芯片有十个100Gb/秒以太网端口,支持RoCE直接内存访问协议,事实证明,每个TPC一个,但我们当时并不知道,因为只显示了八个。但是Gaudi2有24个以太网端口以100 Gb / sec的速度运行,每个TPC一个。它的功率为650瓦。我们假设此设备插入PCI-Express 5.0插槽,但英特尔尚未确认这一点。

假设没有重大的架构变化,并且该过程产生的时钟速度从16纳米缩小到7纳米,我们预计Gaudi2芯片的性能将是Gaudi2的2.5倍。(还假设在任何给定应用程序中处理的精度水平相同。)但英特尔实际上并没有说是否有任何架构变化(除了它增加了一些媒体处理功能)以及时钟速度是如何变化的,所以我们必须推断出来。

我们通过查看ResNet-50机器视觉训练操作的图表来做到这一点,该图表使Gaudi1和Gaudi2与过去两代英伟达GPU加速器竞争:

poYBAGJ8tZyAXOkSAAHREWHl00k459.png

与Nervana Systems一样,Habana Labs非常认真地致力于创建一套芯片,为AI工作负载提供最佳收益和最佳性能。哈瓦那戈雅HL-1000推理芯片于2019年初宣布,Gaudi1 AI训练芯片(也称为HL-2000)于当年夏天晚些时候首次亮相。Gaudi1架构有一个通用矩阵乘法(GEMM)前端,后端由十个张量处理器内核或TPC组成,芯片只向用户公开其中的八个,以帮助提高封装的良率。

Gaudi1使用了第二代TPC,而Goya HL-1000 AI推理芯片则使用了不那么强大和不那么复杂的原始TPC设计。Gadui1芯片中的TPC可以使用C编程语言直接寻址,并具有张量寻址以及BF16和FP32浮点以及INT8,INT16和INT32整数格式的支持。TPC指令集具有加速Sigmoid,GeLU,Tanh和其他特殊功能的电路。Gaudi 1采用台积电的16纳米工艺,具有24 MB片上SRAM,四组HBM2存储器,容量为32 GB,带宽为1 TB/秒。Gaudi1插入PCI-Express 4.0 x16插槽,消耗了350瓦的果汁,并将几乎所有的果汁转换为热量,就像芯片一样。

英特尔尚未透露对Gaudi2架构的深入研究。

根据ResNet-50的比较,Gaudi2的性能是Gaudi1的3.2倍,但很难估计有多少性能是由于整个芯片的容量增加。这个特定的测试正在运行TensorFlow框架来执行图像识别训练,显示的数据是每秒处理的图像数量。

有一件事没有显示,而且很重要,那就是Gaudi2加速器将如何与Hopper GPU堆叠,但英伟达尚未透露任何特定测试的性能结果。但是,由于 H100 中的 HBM3 内存运行速度比 A100 加速器中使用的 HBM2e 内存快 1.5 倍,而FP16、TF32 和 FP64 在新的 Tensor Core 上提供的性能是 3 倍,因此可以合理地预期 H100 的性能将是 ResNet-50 视觉训练工作负载的 1.5 倍到 3 倍。因此,H100将在ResNet-50测试中每秒提供4,395至8,790张图像的性能。我们的猜测是,它将比前者更接近后者,并且比英特尔通过Gaudi2可以提供的更大幅度更大。

与使用BERT模型的自然语言处理相比,图像识别和视频处理相对容易。以下是Gaudi2与英伟达V100和A100的对比,请注意Gaudi1丢失了:

poYBAGJ8taiAPNPHAAHxA4oiaTc243.png

BERT 模型也在TensorFlow 框架上运行,此数据显示了两个不同训练阶段中每秒吞吐量的序列数。在一次预审中,哈瓦那实验室部门首席商务官Eitan Medina表示,Gaudi2的性能不到A100的2倍。但是,H100拥有自己的FP8格式及其Transformer Engine,可以动态地改变AI训练工作流程不同部分的数据精度和处理,可以做得更好。我们不知道具体到什么,但我们强烈怀疑英伟达至少可以缩小与Gaudi2的差距,并且很可能超越它。

有趣的是,英特尔在亚马逊网络服务上启动了DL1Gaudi1实例,然后分别基于A100和V100 GPU的p4d和p3实例,并进行了一些价格/性能分析,以计算ResNet-50基准测试中认可的每张图像的成本。请看一下:

poYBAGJ8tcCAFKhGAAK_5Whik6E208.png

这张图表的意思是,Gaudi1的性能略好于V100,使用上图中ResNet-50中英特尔的性能数据为27.3% ,并且价格提高了约60%,这意味着DL1实例的成本比使用V100的p3实例低得多。随着迁移到基于A100的p4d实例,该实例具有40GB的HBM2e内存,英伟达设备在ResNet-50上的吞吐量比Gaudi1高出58.6%,但Gaudi1处理的每个图像的成本降低了46%。这意味着A100实例确实要贵得多。如果我们对Hopper GPU加速器定价的猜测是正确的,并且英伟达收取大约2倍的费用,大约3倍的性能,英特尔将不得不保持出售给AWS的Gaudi2芯片的价格,因为AWS仍然可以显示出比运行AI训练的H100实例更好的性价比。

无论如何,英特尔在其实验室中运行了超过1000个Gaudi2,因此它可以调整SynapseAI软件堆栈,其中包括在Habana的图形编译器,内核库和通信库上运行的PyTorch和TensorFlow框架。Gaudi2芯片现在正在发货。

除了Gaudi2芯片外,英特尔还在预览其Greco后续Goya推理引擎,该引擎也在台积电跃升至7纳米至16纳米工艺。

Greco 推理卡具有 16GB 的 LPDDR5 主内存,可提供 204 GB/秒的内存带宽,而使用先前的 Goya 推理引擎的 DDR4 内存块为 40 GB/秒。哈瓦那架构的Greco变体支持INT4,BF16和FP16格式,功耗为75瓦,大大低于2019年初宣布的HL-1000设备的200瓦。如上图所示,它被压缩成一个更紧凑的半高,半长的PCI-Express卡。目前还没有关于这个的性能或定价的消息。

综合:半导体产业纵横编辑部

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9413

    浏览量

    168787
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4415

    浏览量

    126652
  • 图像识别
    +关注

    关注

    8

    文章

    447

    浏览量

    37907
  • Gaudi2
    +关注

    关注

    0

    文章

    13

    浏览量

    57
收藏 人收藏

    评论

    相关推荐

    英特尔Gaudi2C处理器或为Gaudi2的简化版,Gaudi3预计2024年面世

    对于Gaudi2C和Gaudi2之间的差别,有推测认为它可能是“部分”改动后的产品,针对中国市场专门定制。Tomshardware则猜测可能是Gaudi2的简化版。
    的头像 发表于 12-20 13:44 601次阅读

    今日看点丨传英特尔将推Gaudi2降规版抢攻中国大陆市场;搭载自研电竞芯片,iQOO 12系列发布

    1. 美国升级AI 芯片禁令,传英特尔将推Gaudi2 降规版抢攻中国大陆市场   美国加强对华人工智能(AI)芯片管制,英特尔率先应变提出对策。英特尔供应链透露,
    发表于 11-08 11:35 568次阅读
    今日看点丨传<b class='flag-5'>英特尔</b>将推<b class='flag-5'>Gaudi2</b>降规版抢攻中国大陆市场;搭载自研电竞芯片,iQOO 12系列发布

    #高通 #英特尔 #Elite 高通X Elite芯片或终结苹果、英特尔的芯片王朝

    高通英特尔苹果
    深圳市浮思特科技有限公司
    发布于 :2023年10月27日 16:46:07

    有消息透露称,英特尔Gaudi 2处理器订单增多,Gaudi 3预计明年上市

    此前有消息称,今年 7月,英特尔面向中国市场推出了一款全新的 Gaudi2处理器,主要应用于加速 AI训练及推理。而今这款“特供版”AI处理器Gaudi 2订单增多,现已向台积电追加该类型产品。
    的头像 发表于 09-20 10:50 670次阅读

    Gaudi2夹层卡HL-225B数据表

    高迪第二代Al深度学习夹层卡HL-225B专为数据中心的大规模扩展而设计。训练处理器基于第一代高迪的高效架构,目前采用7nm工艺技术,在性能、可扩展性和能效方面实现飞跃。Gaudi2夹层卡符合oCP
    发表于 08-04 07:54

    HLS-GAUD12深度学习服务器数据资料

    相关联,该架构专门为Al培训和推理而构建,并且能够使用标准接口和fuil软件包、参考模型和操作指南扩展到大量处理器。 8个Gaudi2板卡内部互连,使用从每个Gaudi2到其他7个处理
    发表于 08-04 06:58

    英特尔媒体加速器参考软件Linux版用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放器应用软件,它利用固定功能硬件加速来提高媒体流速、改进工作量平衡和资源利用,以及定制的图形处理股(GPU)管道解决方案。该用户指南将介绍
    发表于 08-04 06:34

    Gaudi2架构和软件的全面解释

    Gaudi2以其架构为基础,为数据中心和云的深度学习带来了新的性能和效率。 Gaudi2由SynapseAI®软件套件支持,该软件套件与TensorFlow和PyTorch框架集成。我们在哈瓦那的GitHub
    发表于 08-04 06:15

    gpt-4怎么用 英特尔Gaudi2加速卡GPT-4详细参数

    介绍GPT-4 详细参数及英特尔发布 Gaudi2 加速器相关内容,对大模型及 GPU 生态进行探讨和展望。
    发表于 07-21 10:50 622次阅读
    gpt-4怎么用 <b class='flag-5'>英特尔</b><b class='flag-5'>Gaudi2</b>加速卡GPT-4详细参数

    英特尔面向中国市场发布Gaudi2处理器,加速大模型训练和推理

    推出的Gaudi2 AI加速器,将通过其合作伙伴浪潮提供给中国客户。   Gaudi2在训练和推理上的出色表现   英特尔此次推出的Gaudi2深度学习加速器暨
    的头像 发表于 07-17 00:01 1276次阅读
    <b class='flag-5'>英特尔</b>面向中国市场发布<b class='flag-5'>Gaudi2</b>处理器,加速大模型训练和推理

    英特尔全新Gaudi2处理器面世中国市场,加速大规模深度学习训练与推理

    7月11日,英特尔AI产品战略暨Gaudi2新品发布会在京举行。会上,英特尔正式于中国市场推出第二代Gaudi深度学习加速器——Habana  Ga
    的头像 发表于 07-14 20:10 379次阅读
    <b class='flag-5'>英特尔</b>全新<b class='flag-5'>Gaudi2</b>处理器面世中国市场,加速大规模深度学习训练与推理

    英特尔推出AI加速器性价比产品Gaudi2

    在两项测试中,Gaudi2均使用了英特尔推出的 SynapseAI1.10套件和OptimumHabana1.6;其中前者是面向Gaudi系列加速卡的SDK开发套件,能够对TensorFlow和Pytorch等流行框架提供支持,
    的头像 发表于 07-14 16:42 654次阅读
    <b class='flag-5'>英特尔</b>推出AI加速器性价比产品<b class='flag-5'>Gaudi2</b>

    【机器视觉】欢创播报 | 英特尔发布Gaudi2争夺AI芯片市场

    1 英特尔发布Gaudi2争夺AI芯片市场 7月11日,英特尔面向中国市场推出了AI芯片 Habana Gaudi 2,Gaudi 2直接对
    的头像 发表于 07-13 11:21 383次阅读

    为深度学习而生,英特尔全新Gaudi2处理器正式登陆中国

    英特尔AI产品战略暨Gaudi2新品发布会在京举行。会上,英特尔正式于中国市场推出第二代Gaudi深度学习加速器——Habana® Gaudi
    的头像 发表于 07-13 09:48 543次阅读

    英特尔发布中国定制版大模型专用芯片Gaudi2,用性价比挑战英伟达

    在性能方面,这款中国定制版训练最主要的性能裁剪在于网络端口。Gaudi2有21个百兆端口,而国际版有24个。不过,英特尔Habana Labs首席运营官Eitan Medina表示,“从客户使用情况来看,预计影响会非常小”。
    的头像 发表于 07-12 14:40 413次阅读