0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔Gaudi 3 AI芯片:5nm工艺设计,训练推理皆强

微云疏影 来源:综合整理 作者:综合整理 2024-04-10 11:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

4 月 9 日,英特尔在 Vision 2024 大会上公布最新一代 Gaudi 3 AI 芯片并宣布将于同年第三季度批量上市。相较于英伟达 H100,Gaudi 3 训练性能提升 170%,推理能力增幅 50%,效率提升 40%,而成本显著降低。

此外,英特尔在发布会上还宣布更改旗下数据中心CPU产品名称:原“Granite Rapids”和“Sierra Forest”将更名为“Xeon 6”系列。新品预计今年发售,并支持性能提升后的标准化 MXFP4 数据格式。

除此之外,英特尔正研发适用于以太网的 AI NIC ASIC 及 AI NIC 小芯片。这两款产品尤其适合于其未来的 XPU 和 Gaudi 3 处理器,有望通过英特尔代工厂对外销售。有关网络产品的详细信息尚未公开。

据悉,Gaudi 3 采用 5nm 制程,FP8性能较前代翻番,BF16性能增大至四倍,网络带宽增加一倍,内存带宽扩大约 1.5 倍,能够提供Mezz卡、板载以及PCIe三种形式。

Gaudi 3拥有64个第五代张量处理核心和8个矩阵计算引擎,并配备128GBHBM内存和96MBSRAM。设计有24条200GBERoCE标准以太网总线和最多16条PCIe5.0总线。

在板载版,聚类产品型号为HLB-325。由八块Gaudi 3 Mezz卡组成的模块提供约14.6PFLOPS的FP8性能,极大的带宽速率达29.6TB/s的HBM2e内存,64个线性计算引擎,192条200GBE网络总线和上述所有。

在PCIe版本,型号为HL-338的卡具有单卡达1835TFLOPS的FP8峰值性能,128GBHBM2e内存,8个线性计算引擎,24条200GBE网络总线,功率消耗600W,占两卡槽的整体空间高度。

一个由8个Gaudi 3 AI加速器构成的节点可提供14.7PF FP8计算性能,128GB的内存,8.4TB/s的网络读写速度,而64个节点的集群(512个AI加速器)能提供的最大计算性能为7.52EF FP8,525.3TB的内存和614TB/s的网络读写速度。更高的,1024个节点的集群可以达到15EF FP8的计算性能,1PB的内存和1,229PB每秒的网络读写速度。

在实际测试中,与英伟达的主流产品H100比较,Gaudi 3在相同节点数时的平均训练时间要高出约1.7倍,LLAMA2 70亿的模型参数的情况下超过了H100的1.5倍,对于LLAMA2 130亿参数的模型,Gaudi 3在最高时也超过了H100的1.7倍,同样,GPT 3已达到1750亿参数,且Gaudi 3在推理速度和能效表现上均优

英特尔近日发布了其下一代 GPU 路线规划——Gaudi 3,包括风冷和液冷版本,计划于明年三至四季度相继批量交付。Gaudi 3 由戴尔、惠普、联想及超微等众多合作伙伴负责生产和销售,据称下半年有望登陆英特尔自家的云服务——Developer Cloud。除了 Gaudi 3,英特尔还向我们展示了公司在各层面的 AI 产品线的最新进展。

为了更好地优化 AI 的表现,英特尔发布了全新的 Xeon 6 处理器,主要用于大模型的训练。Xeon 6 采用了高效能的 E-core 核心和高性能的 P-core 核心,其中 E-core 核心代号为 Sierra Forest,能效较前一代提升了整整两倍半,而 P-core 则代号为 Granite Rapids,支持 MXFP4。值得一提的是,比起前一代 Xeon 处理器,Xeon 6 的机身架构扩展了整整 2.7 倍,已经开始被许多用户用来升级老旧设备,以此达到节能减排的目的。

值得一提的还有物联网的应用。今年,英特尔预计将共售出超过 4000 万台基于酷睿 Ultra 处理器的 AI PC,除了消费级市场,AI 也正逐渐走进人们生活的方方面面,如工业制造、医疗健康等领域。据悉,该公司将于年内发布一系列新的边缘芯片,这些产品将涵盖酷睿 Ultra、酷睿、凌动处理器和 Arc GPU,旨在覆盖多个不同行业的应用需求。

另外,英特尔还透露计划此次与Ultra Ethernet Consortium合作,推出一种名为 AI Ethernet 的网络解决方案,专门解决海量数据迁移中的网络拥堵问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10326

    浏览量

    181137
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11332

    浏览量

    225994
  • 数据中心
    +关注

    关注

    18

    文章

    5780

    浏览量

    75214
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    净利暴涨156%!英特尔释出Q1财报“王炸”,CPU迎史诗级“价值回归”?

    电子发烧友网报道(文/席安帝) 在AI大模型“一路狂奔”的时代,凭借GPU持续统治AI算力“江湖”的英伟达,曾一路将英特尔远远甩在身后。   但随着AI
    的头像 发表于 04-27 09:07 1892次阅读
    净利暴涨156%!<b class='flag-5'>英特尔</b>释出Q1财报“王炸”,CPU迎史诗级“价值回归”?

    英特尔炮轰,AMD回击!掌机市场芯片之争

    英特尔推出的才是专为掌机设计的最新处理器,信心源于新一代旗舰产品Panther Lake处理器。该处理器是首款基于英特尔18A工艺节点制造的消费级SoC,在“每瓦性能”数据上表现优异,结合XeSS
    的头像 发表于 01-12 09:09 5421次阅读

    超越台积电?英特尔首个18A工艺芯片迈向大规模量产

    Lake作为英特尔首款基于Intel 18A制程工艺打造的产品,意义非凡。这一制程是英特尔研发并制造的最先进半导体工艺,标志着英特尔在技术
    的头像 发表于 10-11 08:14 9432次阅读
    超越台积电?<b class='flag-5'>英特尔</b>首个18A<b class='flag-5'>工艺</b><b class='flag-5'>芯片</b>迈向大规模量产

    AI工作站本地养龙虾!英特尔双芯混合算力,告别云端Token焦虑

    4月23日,英特尔公司在北京举办新一代AI工作站平台发布会,英特尔中国区技术部总经理高宇宣布,面向AI工作站,英特尔推出两大重磅产品:
    的头像 发表于 04-26 16:27 1.1w次阅读
    <b class='flag-5'>AI</b>工作站本地养龙虾!<b class='flag-5'>英特尔</b>双芯混合算力,告别云端Token焦虑

    英特尔至强6“芯”动GTC 2026,为英伟达DCG Rubin解锁系统级性能

    的关键阶段,至强系列处理器为GPU加速AI系统,提供架构一致性与强大扩展能力所发挥的重要支撑作用。 英特尔公司副总裁兼数据中心战略项目总经理Jeff McVeigh表示: “当前,AI发展正从大规模
    的头像 发表于 03-19 16:43 427次阅读

    发力图形工作站和AI推理市场,英特尔大显存GPU亮相湾芯展

    英特尔发布了面向专业的锐炫Pro B50和B60。这两款显卡比较RTX2000和5660Ti,有哪些性能上的优势?在支持AI推理工作站和大模型部署上,B60有哪些独到之处?10月16日,在深圳举行的湾区半导体大会上,
    的头像 发表于 10-22 13:40 1.2w次阅读
    发力图形工作站和<b class='flag-5'>AI</b><b class='flag-5'>推理</b>市场,<b class='flag-5'>英特尔</b>大显存GPU亮相湾芯展

    18A工艺大单!英特尔将代工微软AI芯片Maia 2

    电子发烧友网综合报道 据科技媒体SemiAccurate报道,微软已正式向英特尔晶圆代工(Intel Foundry)下达订单,委托其使用先进的18A工艺节点生产下一代AI加速器Maia 2
    的头像 发表于 10-21 08:52 6180次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+半导体芯片产业的前沿技术

    MI300,是AMD首款数据中心HPC级的APU ③英特尔数据中心GPU Max系列 3)新粒技术的主要使用场景 4)IP即芯粒 IP即芯粒旨在以芯粒实现特殊功能IP的即插即用,解决5nm
    发表于 09-15 14:50

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型
    的头像 发表于 08-26 19:18 3358次阅读
    <b class='flag-5'>英特尔</b><b class='flag-5'>Gaudi</b> 2E <b class='flag-5'>AI</b>加速器为DeepSeek-V3.1提供加速支持

    4450亿美元!Edge AI市场大爆发,英特尔布局哪些AI SoC芯片

    AI是边缘计算和IoT增长的最大驱动力,预计到2030年,AI将成为全球边缘市场的重要驱动力,市场规模有望达到4450亿美元。英特尔在边缘AI领域布局哪些
    的头像 发表于 08-04 08:46 7457次阅读
    4450亿美元!Edge <b class='flag-5'>AI</b>市场大爆发,<b class='flag-5'>英特尔</b>布局哪些<b class='flag-5'>AI</b> SoC<b class='flag-5'>芯片</b>?

    主控CPU全能选手,英特尔至强6助力AI系统高效运转

    2025年3月,英伟达发布了DGX B300 AI加速计算平台。2025年5月,英特尔发布了三款全新英特尔至强6性能核处理器,其中一款677
    的头像 发表于 06-27 11:44 1062次阅读
    主控CPU全能选手,<b class='flag-5'>英特尔</b>至强6助力<b class='flag-5'>AI</b>系统高效运转

    英特尔锐炫Pro B系列,边缘AI的“智能引擎”

    2025年6月19日,上海—— 在MWC 25上海期间,英特尔展示了一幅由英特尔锐炫™ Pro B系列GPU所驱动的“实时响应、安全高效、成本可控”的边缘AI图景。 英特尔客户端计算事
    的头像 发表于 06-20 17:32 1082次阅读
    <b class='flag-5'>英特尔</b>锐炫Pro B系列,边缘<b class='flag-5'>AI</b>的“智能引擎”

    直击Computex 2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4倍

    B60和英特尔锐炫Pro B50 GPU,AI加速器产品—英特尔Gaudi 3 AI加速器。
    的头像 发表于 05-21 00:57 7799次阅读
    直击Computex 2025:<b class='flag-5'>英特尔</b>重磅发布新一代GPU,图形和<b class='flag-5'>AI</b>性能跃升3.4倍

    直击Computex2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4倍

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——
    的头像 发表于 05-20 12:27 5712次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅发布新一代GPU,图形和<b class='flag-5'>AI</b>性能跃升3.4倍

    英特尔发布全新GPU,AI和工作站迎来新选择

    英特尔推出面向准专业用户和AI开发者的英特尔锐炫Pro GPU系列,发布英特尔® Gaudi 3
    发表于 05-20 11:03 1930次阅读