0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔发布中国定制版大模型专用芯片Gaudi2,用性价比挑战英伟达

甲子光年 来源:甲子光年 2023-07-12 14:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

训练大模型,英伟达GPU不再是唯一选项。

7月11日,英特尔在北京举办AI产品战略暨Gaudi2新品发布会,正式于中国市场推出第二代深度学习加速器——Habana Gaudi2。

Habana是成立于2016年的AI芯片厂商,总部位于以色列,为数据中心提供可编程深度学习加速器。Habana在2019年推出了第一代Gaudi芯片,并在这一年12月被其早期投资人英特尔收购。

其实在2022年5月,英特尔已经发布过Gaudi2。而这一次在北京的产品发布,是面向中国市场的“定制版”,类似英伟达推出A100与H100的定制版A800与H800。

英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera强调,Gaudi2是完全合法合规的。

在性能方面,这款中国定制版训练最主要的性能裁剪在于网络端口。Gaudi2有21个百兆端口,而国际版有24个。不过,英特尔Habana Labs首席运营官Eitan Medina表示,“从客户使用情况来看,预计影响会非常小”。

Gaudi2的推出,为训练大模型提供了英伟达之外的替代方案。在此之前,英伟达的GPU芯片——A100与H100,几乎垄断了训练大模型的市场。供需的极度不平衡也让GPU一芯难求。

相比英伟达GPU,Gaudi2最显著的优势在于“更高的性价比”。英特尔表示,将致力于为中国用户提供更高的深度学习性能和效率,从而成为大规模部署AI的更优解。

目前,英特尔正与浪潮信息合作,打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器。此外,新华三与超聚变也是英特尔的合作伙伴。

1.用性价比挑战英伟达

目前,业内普遍认为生成式AI和大语言模型仅适宜在GPU上运行。但英特尔Gaudi2正在向英伟达发起挑战。

Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B,以第一代Gaudi高性能架构为基础,采用了台积电7nm工艺,专为训练大语言模型而构建。该加速器具备:

24个可编程Tensor处理器核心(TPCs)

21个100 Gbps(RoCEv2)以太网接口

96GB HBM2E内存容量

2.4TB/秒的总内存带宽

48MB片上SRAM

集成多媒体处理引擎

Gaudi2真实性能表现如何?在发布会现场,英特尔多次与英伟达进行参数对比。

在6月公布的MLCommons MLPerf基准测试(被普遍认为是最具信服力的AI性能测试基准)结果中,Gaudi2在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了比A100更优异的结果,但还弱于H100。

不仅如此,Gaudi2在性价比上更具优势。

在MLCommons刚刚公布的MLPerf训练3.0结果中,Gaudi2在1750亿参数的GPT-3模型上,从256个加速器到384个加速器可实现接近线性的95%扩展效果。

英特尔表示,Gaudi2的每瓦性能大约是A100的两倍。而随着性能的进一步优化,英特尔预计在今年9月,Gaudi2的性价比将会超过H100。

值得一提的是,Gaudi2是仅有的两个向GPT-3大模型训练基准提交性能结果的解决方案之一。

英特尔Habana Labs首席运营官Eitan Medina强调:“这说明了其他半导体厂商还无法构建针对GPT-3的解决方案”。

除了模型的训练,还需要模型的推理。Gaudi2可为大规模的多模态和语言模型提供出色的推理性能。

在最近的Hugging Face评估中,Gaudi2在大规模推理方面的表现,包括在运行Stable Diffusion、70亿以及1760亿参数BLOOMz模型时,都在行业内保持领先。

其中,与英伟达A100相比,Stable Diffusion推理时延降低2.21倍。

值得一提的是,下一代Gaudi3预计在明年推出,采用台积电5nm工艺。

2.英特尔的AI战略

英特尔拥有庞大丰富的产品线,Gaudi2并非唯一的AI产品。

针对AI在不同场景、不同环节的异构计算需求,英特尔将其产品线分为通用计算与加速计算。

其中,英特尔的CPU产品,第四代至强处理器解决通用计算,满足客户在大部分模型较小场景的AI推理需求;Gaudi2解决加速计算,解决大模型的训练及推理需求。

在通用计算层面,第四代英特尔至强可扩展处理器(英特尔AMX)为广泛的AI负载和用例提供10倍的推理和训练性能以及代际性能提升,同时每瓦性能比也比前代提高7.7倍。

在6月底公布的MLPerf训练3.0结果表明,第四代至强可扩展处理器为企业提供了“开箱即用”的功能,可以在通用系统上部署AI,避免了引入专用AI系统的高昂成本和复杂性。

第四代至强可扩展处理器也能够支持Stable Diffusion。英伟达DGX H100系统也会选择搭配英特尔CPU,从而为企业级AI提供高速、高能效并节省成本。

百度、美团是英特尔AMX的客户。英特尔AMX助力百度文心一言轻量版ERNIE-Tiny性能提升2.66倍,助力美团加速视觉AI推理服务,成本降低80%。

值得一提的是,在加速计算层面,英特尔除了推出人工智能专用芯片Gaudi2之外,也在2022年推出了面向数据中心的的GPU Max系列(代号为Ponte Vecchio)。两款产品在AI计算层面存在一定的重合度。

对此,英特尔透露会在2025年把Gaudi产品线与GPU产品线整合为统一架构的新产品,并带来更好的软件适配能力与AI处理能力。

此外,正如英伟达依靠CUDA构建护城河,英特尔也在加强软件开发生态的支持。

英特尔推出的软件套件针对Gaudi平台深度学习业务进行了优化,集成了对TensorFlow和PyTorch框架的支持,并面向400多个机器学习和深度学习AI模型进行验证,涵盖每个业务领域使用的最常见AI用例。

总结来看,英特尔正在通过异构产品组合、开放式的软件栈以及用于大模型训练的Gaudi2集群,来降低人工智能的准入门槛,来满足庞大的市场需求。

芯片是大模型训练及推理的基础设施,也是这场大模型淘金热必不可少的“铲子”。如今,随着主流半导体巨头纷纷布局,这场大模型的芯片战已经彻底打响了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53541

    浏览量

    459200
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179323
  • 英伟达
    +关注

    关注

    23

    文章

    4040

    浏览量

    97680
  • 大模型
    +关注

    关注

    2

    文章

    3442

    浏览量

    4970
  • Gaudi2
    +关注

    关注

    0

    文章

    13

    浏览量

    256

原文标题:英特尔发布中国定制版大模型专用芯片Gaudi2,用性价比挑战英伟达|甲子光年

文章出处:【微信号:jazzyear,微信公众号:甲子光年】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英伟斥资50亿美元入股英特尔芯片巨头携手重塑行业格局

    一颗重磅炸弹,瞬间点燃了资本市场的热情,英特尔股价在盘前交易中直线飙升,一度涨幅超过 30%,英伟股价也随之攀升,盘前涨幅逾 2%。 根据合作协议,在数据中心领域,
    的头像 发表于 09-22 17:35 620次阅读

    今日看点丨英伟入股英特尔;寒武纪:网传订单信息不实

    英伟入股英特尔 NVIDIA和英特尔今日宣布达成合作,将共同开发多代定制化的数据中心和个人计算产品,以加速超大规模计算、企业级及消费级市场
    发表于 09-19 10:21 917次阅读

    重磅!双英强强合作,英伟英特尔投资50亿美元

    9月18日,英伟CEO黄仁勋宣布,与英特尔达成投资50亿美元的投资及技术合作,这是在双方进行一年多的讨论后做出的决定。此举标志着两大竞争对手联手,开创AI PC和数据中心合作新篇章。消息公布后,
    的头像 发表于 09-19 09:36 9005次阅读
    重磅!双英强强合作,<b class='flag-5'>英伟</b><b class='flag-5'>达</b>向<b class='flag-5'>英特尔</b>投资50亿美元

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi
    的头像 发表于 08-26 19:18 2587次阅读
    <b class='flag-5'>英特尔</b><b class='flag-5'>Gaudi</b> <b class='flag-5'>2</b>E AI加速器为DeepSeek-V3.1提供加速支持

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混元大模型

    今日,腾讯正式发布新一代混元开源大语言模型英特尔凭借在人工智能领域的全栈技术布局,现已在英特尔® 酷睿™ Ultra 平台上完成针对该模型
    的头像 发表于 08-07 14:42 1123次阅读
    硬件与应用同频共振,<b class='flag-5'>英特尔</b>Day 0适配腾讯开源混元大<b class='flag-5'>模型</b>

    直击Computex 2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4倍

    电子发烧友原创  章鹰 5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——英特尔
    的头像 发表于 05-21 00:57 6974次阅读
    直击Computex 2025:<b class='flag-5'>英特尔</b>重磅<b class='flag-5'>发布</b>新一代GPU,图形和AI性能跃升3.4倍

    直击Computex2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4倍

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——英特尔锐炫Pro B60和
    的头像 发表于 05-20 12:27 5162次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅<b class='flag-5'>发布</b>新一代GPU,图形和AI性能跃升3.4倍

    英特尔发布全新GPU,AI和工作站迎来新选择

    英特尔推出面向准专业用户和AI开发者的英特尔锐炫Pro GPU系列,发布英特尔® Gaudi 3 AI加速器机架级和PCIe部署方案   2
    发表于 05-20 11:03 1668次阅读

    请问OpenVINO™工具套件英特尔®Distribution是否与Windows® 10物联网企业版兼容?

    无法在基于 Windows® 10 物联网企业版的目标系统上使用 英特尔® Distribution OpenVINO™ 2021* 版本推断模型
    发表于 03-05 08:32

    英特尔任命王稚聪担任中国区副董事长

    英特尔公司宣布,任命王稚聪先生担任新设立的英特尔中国区副董事长一职。王稚聪将全面负责管理英特尔中国的业务运营,直接向
    的头像 发表于 03-03 10:54 882次阅读

    英伟杀疯了!Blackwell横扫市场,AMD、英特尔加入降本浪潮

    。与此同时,随着AI大模型的普及,高计算量需求和成本压力也成为行业关注的焦点。如何在性能与成本之间找到平衡,成为整个AI芯片行业共同面临的挑战。AI大模型的出现对
    的头像 发表于 03-02 00:02 2418次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>杀疯了!Blackwell横扫市场,AMD、<b class='flag-5'>英特尔</b>加入降本浪潮

    英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    近日,DeepSeek公司发布了备受瞩目的Janus Pro模型,其凭借超强性能和高精度在业界引发了广泛关注。为了进一步提升该模型的应用效能,英特尔宣布其
    的头像 发表于 02-10 11:10 929次阅读

    DeepSeek发布Janus Pro模型英特尔Gaudi 2D AI加速器优化支持

    Gaudi 2D AI加速器现已针对该模型进行了全面优化。这一优化举措使得AI开发者能够更轻松地实现复杂任务的部署与优化,从而有效满足行业应用对于推理算力的迫切需求。 英特尔
    的头像 发表于 02-08 14:35 914次阅读

    EQTY Lab携手英特尔英伟发布可验证计算AI框架

    瑞士人工智能解决方案领域的佼佼者EQTY Lab,于近日宣布了一项重大合作成果。该公司携手全球领先的计算技术提供商英特尔和图形处理巨头英伟,共同推出了可验证计算人工智能框架(Verifiable
    的头像 发表于 12-20 10:46 999次阅读

    使用英特尔AI PC为YOLO模型训练加速

    之后,情况有了新的变化,PyTorch2.5正式开始支持英特尔显卡,也就是说,此后我们能够借助英特尔 锐炫 显卡来进行模型训练了。
    的头像 发表于 12-09 16:14 2109次阅读
    使用<b class='flag-5'>英特尔</b>AI PC为YOLO<b class='flag-5'>模型</b>训练加速