0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔最新GPU Gaudi2架构相关信息介绍

要长高 来源:半导体产业纵横 作者:半导体产业纵横 2022-05-12 15:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

英伟达并不是唯一一家创建专业计算单元的公司,这些计算单元擅长矩阵数学和张量处理,这些计算单元支持AI训练,并且可以重新用于运行AI推理。英特尔已经收购了两家这样的公司—Nervana Systems,并紧随其后的是Habana Labs,后者已被英特尔产品化,并紧随英伟达的GPU加速器之后。

英特尔是一家优秀的公司,该公司认为将在未来五年内获得500亿美元的人工智能计算机会(用于训练和推理),从现在到2027年,英特尔将以25%的复合年增长率增长,达到这一水平。鉴于“Ponte Vecchio”Xe HPC GPU加速器即将推出的相当大的矩阵和矢量数学,以及即将到来的“Sapphire Rapids”Xeon SP CPU中AMX矩阵数学单元中很可能有足够的推理容量,因此有理由想知道英特尔预计会销售多少Gaudi训练和Goya推理芯片。

我们了解到,当英特尔在2016年8月以3.5亿美元与Nervana Systems达成交易并在2019年12月以20亿美元收购Habana Labs时,它追求的是知识产权和人,当然,因为这就是这场IT战争的玩法,但我们一直想知道这些设备,以及来自竞争对手GraphCore的设计, Cerebras,SambaNova Systems和Groq将部署在类似于主流的东西中。上述四家公司迄今为止共筹集了28.7亿美元。

所有这些产品都刚刚开始滚动,这就是为什么英特尔将其赌注对冲到Nervana和Habana,就像它对数据中心FPGA感到恐惧一样(主要归功于Microsoft Azure),并在2015年6月斥资167亿美元收购了Altera。在2015年至2020年器件,在数据中心计算方面英特尔的Xeon CPU占据主导地位,并且通过收购方式,减少了一些竞争对手。

在本周举行的Intel Vision 2022大会上,Gaudi2 AI训练芯片是芯片制造商推出的大型新计算引擎,顺便说一句,它不是英特尔实际制造的芯片,而是像其前身Gaudi1一样,由竞争对手台积电代工蚀刻而成。英特尔尚未透露对Gaudi2架构的深入研究,但这是我们所知道的。

通过Gaudi2,英特尔正在转向台积电的7纳米工艺,随着这种收缩,它能够将芯片上的TPC数量从10个增加到24个,并增加了对新的8位FP8数据格式的支持,英伟达还将其添加到其“Hopper”GH100 GPU计算引擎中,该引擎于3月份推出,并在第三季度发货。使用FP8格式,现在可以以相同的格式获得低分辨率推理数据和高分辨率训练数据,并且在从训练移动到推理时不必在浮点和整数之间转换模型。这对AI来说是一个真正的福音,尽管较低精度的整数格式可能会在未来许多年内保留在矩阵和矢量计算引擎中,以支持遗留代码和其他类型的应用程序。Gaudi2芯片具有48 MB的SRAM,如果它与TPC数量线性扩展,将能达到2.4倍而不是2倍的SRAM,或57.6 MB。

Gaudi2芯片上有HBM2e内存组,可提供2.45 TB /秒的带宽,比Gaudi1芯片增加了2.45倍。HBM2e内存库的数量没有透露,但六个16 GB HBM2e的存储体为Gaudi2提供了诀窍,而Gaudi 1的四个存储体为8 GB HBM2。仅两个 HBM2e 内存控制器的增加就可将带宽提高 1.33 倍,而带宽的剩余增加来自提高内存速度。

Gaudi1芯片有十个100Gb/秒以太网端口,支持RoCE直接内存访问协议,事实证明,每个TPC一个,但我们当时并不知道,因为只显示了八个。但是Gaudi2有24个以太网端口以100 Gb / sec的速度运行,每个TPC一个。它的功率为650瓦。我们假设此设备插入PCI-Express 5.0插槽,但英特尔尚未确认这一点。

假设没有重大的架构变化,并且该过程产生的时钟速度从16纳米缩小到7纳米,我们预计Gaudi2芯片的性能将是Gaudi2的2.5倍。(还假设在任何给定应用程序中处理的精度水平相同。)但英特尔实际上并没有说是否有任何架构变化(除了它增加了一些媒体处理功能)以及时钟速度是如何变化的,所以我们必须推断出来。

我们通过查看ResNet-50机器视觉训练操作的图表来做到这一点,该图表使Gaudi1和Gaudi2与过去两代英伟达GPU加速器竞争:

poYBAGJ8tZyAXOkSAAHREWHl00k459.png

与Nervana Systems一样,Habana Labs非常认真地致力于创建一套芯片,为AI工作负载提供最佳收益和最佳性能。哈瓦那戈雅HL-1000推理芯片于2019年初宣布,Gaudi1 AI训练芯片(也称为HL-2000)于当年夏天晚些时候首次亮相。Gaudi1架构有一个通用矩阵乘法(GEMM)前端,后端由十个张量处理器内核或TPC组成,芯片只向用户公开其中的八个,以帮助提高封装的良率。

Gaudi1使用了第二代TPC,而Goya HL-1000 AI推理芯片则使用了不那么强大和不那么复杂的原始TPC设计。Gadui1芯片中的TPC可以使用C编程语言直接寻址,并具有张量寻址以及BF16和FP32浮点以及INT8,INT16和INT32整数格式的支持。TPC指令集具有加速Sigmoid,GeLU,Tanh和其他特殊功能的电路。Gaudi 1采用台积电的16纳米工艺,具有24 MB片上SRAM,四组HBM2存储器,容量为32 GB,带宽为1 TB/秒。Gaudi1插入PCI-Express 4.0 x16插槽,消耗了350瓦的果汁,并将几乎所有的果汁转换为热量,就像芯片一样。

英特尔尚未透露对Gaudi2架构的深入研究。

根据ResNet-50的比较,Gaudi2的性能是Gaudi1的3.2倍,但很难估计有多少性能是由于整个芯片的容量增加。这个特定的测试正在运行TensorFlow框架来执行图像识别训练,显示的数据是每秒处理的图像数量。

有一件事没有显示,而且很重要,那就是Gaudi2加速器将如何与Hopper GPU堆叠,但英伟达尚未透露任何特定测试的性能结果。但是,由于 H100 中的 HBM3 内存运行速度比 A100 加速器中使用的 HBM2e 内存快 1.5 倍,而FP16、TF32 和 FP64 在新的 Tensor Core 上提供的性能是 3 倍,因此可以合理地预期 H100 的性能将是 ResNet-50 视觉训练工作负载的 1.5 倍到 3 倍。因此,H100将在ResNet-50测试中每秒提供4,395至8,790张图像的性能。我们的猜测是,它将比前者更接近后者,并且比英特尔通过Gaudi2可以提供的更大幅度更大。

与使用BERT模型的自然语言处理相比,图像识别和视频处理相对容易。以下是Gaudi2与英伟达V100和A100的对比,请注意Gaudi1丢失了:

poYBAGJ8taiAPNPHAAHxA4oiaTc243.png

BERT 模型也在TensorFlow 框架上运行,此数据显示了两个不同训练阶段中每秒吞吐量的序列数。在一次预审中,哈瓦那实验室部门首席商务官Eitan Medina表示,Gaudi2的性能不到A100的2倍。但是,H100拥有自己的FP8格式及其Transformer Engine,可以动态地改变AI训练工作流程不同部分的数据精度和处理,可以做得更好。我们不知道具体到什么,但我们强烈怀疑英伟达至少可以缩小与Gaudi2的差距,并且很可能超越它。

有趣的是,英特尔在亚马逊网络服务上启动了DL1Gaudi1实例,然后分别基于A100和V100 GPU的p4d和p3实例,并进行了一些价格/性能分析,以计算ResNet-50基准测试中认可的每张图像的成本。请看一下:

poYBAGJ8tcCAFKhGAAK_5Whik6E208.png

这张图表的意思是,Gaudi1的性能略好于V100,使用上图中ResNet-50中英特尔的性能数据为27.3% ,并且价格提高了约60%,这意味着DL1实例的成本比使用V100的p3实例低得多。随着迁移到基于A100的p4d实例,该实例具有40GB的HBM2e内存,英伟达设备在ResNet-50上的吞吐量比Gaudi1高出58.6%,但Gaudi1处理的每个图像的成本降低了46%。这意味着A100实例确实要贵得多。如果我们对Hopper GPU加速器定价的猜测是正确的,并且英伟达收取大约2倍的费用,大约3倍的性能,英特尔将不得不保持出售给AWS的Gaudi2芯片的价格,因为AWS仍然可以显示出比运行AI训练的H100实例更好的性价比。

无论如何,英特尔在其实验室中运行了超过1000个Gaudi2,因此它可以调整SynapseAI软件堆栈,其中包括在Habana的图形编译器,内核库和通信库上运行的PyTorch和TensorFlow框架。Gaudi2芯片现在正在发货。

除了Gaudi2芯片外,英特尔还在预览其Greco后续Goya推理引擎,该引擎也在台积电跃升至7纳米至16纳米工艺。

Greco 推理卡具有 16GB 的 LPDDR5 主内存,可提供 204 GB/秒的内存带宽,而使用先前的 Goya 推理引擎的 DDR4 内存块为 40 GB/秒。哈瓦那架构的Greco变体支持INT4,BF16和FP16格式,功耗为75瓦,大大低于2019年初宣布的HL-1000设备的200瓦。如上图所示,它被压缩成一个更紧凑的半高,半长的PCI-Express卡。目前还没有关于这个的性能或定价的消息。

综合:半导体产业纵横编辑部

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179284
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134454
  • 图像识别
    +关注

    关注

    9

    文章

    529

    浏览量

    39837
  • Gaudi2
    +关注

    关注

    0

    文章

    13

    浏览量

    256
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi
    的头像 发表于 08-26 19:18 2580次阅读
    <b class='flag-5'>英特尔</b><b class='flag-5'>Gaudi</b> <b class='flag-5'>2</b>E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔锐炫Pro B系列,边缘AI的“智能引擎”

    2025年6月19日,上海—— 在MWC 25上海期间,英特尔展示了一幅由英特尔锐炫™ Pro B系列GPU所驱动的“实时响应、安全高效、成本可控”的边缘AI图景。 英特尔客户端计算事
    的头像 发表于 06-20 17:32 695次阅读
    <b class='flag-5'>英特尔</b>锐炫Pro B系列,边缘AI的“智能引擎”

    直击Computex 2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4倍

    B60和英特尔锐炫Pro B50 GPU,AI加速器产品—英特尔Gaudi 3 AI加速器。 英特尔副总裁兼客户端显卡总经理Vivian
    的头像 发表于 05-21 00:57 6960次阅读
    直击Computex 2025:<b class='flag-5'>英特尔</b>重磅发布新一代<b class='flag-5'>GPU</b>,图形和AI性能跃升3.4倍

    直击Computex2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4倍

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——
    的头像 发表于 05-20 12:27 5154次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅发布新一代<b class='flag-5'>GPU</b>,图形和AI性能跃升3.4倍

    英特尔发布全新GPU,AI和工作站迎来新选择

    英特尔推出面向准专业用户和AI开发者的英特尔锐炫Pro GPU系列,发布英特尔® Gaudi 3 AI加速器机架级和PCIe部署方案   2
    发表于 05-20 11:03 1665次阅读

    英特尔宣布裁员20% 或2万人失业

    建以工程师为导向的企业文化。 这也不是英特尔首次裁员,因为英特尔持续恶化的财务数据英特尔已经进行了多轮裁员;在2024年英特尔为削减开支,裁员15%,当时涉及1.5万人。
    的头像 发表于 04-25 17:34 483次阅读

    英特尔酷睿Ultra AI PC上部署多种图像生成模型

    全新英特尔酷睿Ultra 200V系列处理器对比上代Meteor Lake,升级了模块化结构、封装工艺,采用全新性能核与能效核、英特尔硬件线程调度器、Xe2架构锐炫
    的头像 发表于 04-02 15:47 1135次阅读
    在<b class='flag-5'>英特尔</b>酷睿Ultra AI PC上部署多种图像生成模型

    为什么无法检测到OpenVINO™工具套件中的英特尔®集成图形处理单元?

    在 Ubuntu* Desktop 22.04 上安装了 英特尔® Graphics Driver 版本并OpenVINO™ 2023.1。 运行 python 代码: python -c
    发表于 03-05 08:36

    请问OpenVINO™工具套件英特尔®Distribution是否与Windows® 10物联网企业版兼容?

    无法在基于 Windows® 10 物联网企业版的目标系统上使用 英特尔® Distribution OpenVINO™ 2021* 版本推断模型。
    发表于 03-05 08:32

    英特尔®独立显卡与OpenVINO™工具套件结合使用时,无法运行推理怎么解决?

    使用英特尔®独立显卡与OpenVINO™工具套件时无法运行推理
    发表于 03-05 06:56

    英特尔®NCS2运行演示时“无法在启动后找到启动设备”怎么解决?

    使用 英特尔® NCS2 运行 推断管道演示脚本 。 在首次尝试中成功运行演示应用程序。 从第二次尝试开始遇到错误:E: [ncAPI] [ 150951] [security_barrie
    发表于 03-05 06:48

    英特尔Michelle Johnston Holthaus:深耕x86,持续为AI数据中心注入芯动力

    英特尔深耕数据中心市场数十余年,并通过x86架构引领标准制定和行业发展。目前,英特尔的处理器正为绝大多数数据中心提供动力。”英特尔临时联合首席执行官兼
    的头像 发表于 02-28 15:29 564次阅读
    <b class='flag-5'>英特尔</b>Michelle Johnston Holthaus:深耕x86,持续为AI数据中心注入芯动力

    英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    近日,DeepSeek公司发布了备受瞩目的Janus Pro模型,其凭借超强性能和高精度在业界引发了广泛关注。为了进一步提升该模型的应用效能,英特尔宣布其Gaudi 2D AI加速器已针对Janus
    的头像 发表于 02-10 11:10 927次阅读

    DeepSeek发布Janus Pro模型,英特尔Gaudi 2D AI加速器优化支持

    Gaudi 2D AI加速器现已针对该模型进行了全面优化。这一优化举措使得AI开发者能够更轻松地实现复杂任务的部署与优化,从而有效满足行业应用对于推理算力的迫切需求。 英特尔Gaudi
    的头像 发表于 02-08 14:35 913次阅读

    英特尔推出全新英特尔锐炫B系列显卡

    备受玩家青睐的价格提供卓越的性能与价值1,很好地满足现代游戏需求,并为AI工作负载提供加速。其配备的英特尔Xe矩阵计算引擎(XMX),为新推出的XeSS 2提供强大支持。XeSS 2的三项核心技术协同工作,共同提高性能表现、增强
    的头像 发表于 12-07 10:16 1920次阅读
    <b class='flag-5'>英特尔</b>推出全新<b class='flag-5'>英特尔</b>锐炫B系列显卡