0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

最新MLPerf v3.1测试结果认证,Gaudi2在GPT-J模型上推理性能惊人

looger123 来源:looger123 作者:looger123 2023-09-12 17:54 次阅读

英特尔产品在全新MLCommons AI推理性能测试中尽显优势

今日,MLCommons公布针对 60 亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的 MLPerf推理v3.1 性能基准测试结果,其中包括英特尔所提交的基于Habana®Gaudi®2 加速器、第四代英特尔®至强®可扩展处理器,以及英特尔®至强®CPU Max 系列的测试结果。该结果显示了英特尔在AI推理方面极具竞争力的表现,并进一步加强了其对加速从云到网络到边缘再到端的工作负载中大规模部署AI的承诺。

英特尔执行副总裁兼数据中心人工智能事业部总经理Sandra Rivera表示:“正如最新的 MLCommons结果显示,我们拥有强大的、具有竞争力的人工智能产品组合以满足客户对高性能、高效率的深度学习推理及训练的需求,同时,针对各种规模的人工智能模型,英特尔产品组合均具有领先的性价比优势。”

根据6月披露的MLCommonsAI训练结果和Hugging Face性能基准测试验证,Gaudi2 在先进的视觉语言模型上,性能可以超越英伟达的H100处理器,而今天的结果进一步证明了英特尔能够提供满足AI计算需求的、英伟达H100和A100的唯一可行的替代方案。

考虑到客户的个性化需求,英特尔正在通过能够帮助解决AI工作负载中推理与训练问题的产品,让AI无处不在。英特尔的AI产品为客户提供了可根据各自性能、效率及目标成本进行灵活匹配以获取最佳AI解决方案的理想选择,同时亦帮助客户开放生态系统。

关于Habana Gaudi2的测试结果:

Habana Gaudi2在GPT-J模型上的推理结果强有力地验证了其具有竞争力的性能。

·Gaudi2 在GPT-J-99 和GPT-J-99.9 上的服务器查询和离线样本的推理性能分别为78.58 次/秒和84.08 次/秒。

·与英伟达H100相比,Gaudi2提供了令人信服的卓越性能,H100相对于Gaudi2仅表现出 1.09 倍(服务器)和 1.28 倍(离线)的轻微性能优势。

·Gaudi2 拥有高于英伟达A100 2.4 倍(服务器)、 2 倍(离线)的性能。

·Gaudi2 提交的结果采用 FP8数据类型,并在这种新数据类型上达到了 99.9% 的准确率。

随着每6-8周公布的 Gaudi2 软件更新,英特尔将继续在 MLPerf 基准测试中展现其产品的性能提升,以及持续扩大的模型覆盖范围。

wKgZomUANVWAY6S7AAJVP79DRaA450.png

Habana Gaudi2 在GPT-J模型上的推理结果验证了其具有竞争力的性能

关于第四代至强可扩展处理器的测试结果:

英特尔提交了基于第四代英特尔至强可扩展处理器的7个推理基准测试,其中包括GPT-J模型。结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的 DLRM v2 深度学习推荐模型及ChatGPT-J 模型在内,第四代至强处理器对于通用 AI 工作负载拥有出色的性能。此外,截至目前,英特尔仍是唯一一家使用行业标准的深度学习生态系统软件提交公开 CPU 结果的厂商

·第四代英特尔至强可扩展处理器是通过流行的AI框架与库构建及部署通用AI工作负载的理想选择。对于GPT-J对约 1000-1500 字新闻稿进行100 字总结的任务,第四代至强可扩展处理器可在离线模式下完成每秒两段的总结提要,在实时服务器模式下完成每秒一段的总结提要。

·英特尔首次提交了英特尔至强CPU Max 系列的MLPerf 结果,该系列可提供高达64 GB的高带宽内存。对于 GPT-J而言,它是仅有的能够达到 99.9% 准确度的 CPU,这对于对精度要求极高的应用来说至关重要。

·英特尔与OEM厂商合作提交了测试结果,进一步展示了其AI性能的可扩展性,以及基于英特尔至强处理器的通用服务器的可获取性,充分满足客户服务水平协议 (SLA)。

wKgZomUANVeAKtKpAAF_ItEkqC0102.png

第四代至强可扩展处理器是构建及部署通用AI工作负载的理想选择

MLPerf 是业内享有盛名的 AI 性能基准测试,旨在实现公平、可重复的产品性能比较。英特尔计划为下一个 MLPerf测试提交新的AI训练性能结果。持续的性能更新彰显了英特尔致力于帮助客户、助力AI技术演进所迈出的每一步,无论是低成本的AI处理器,还是面向网络、云和企业用户的高性能AI硬件加速器或是 GPU

更多内容:基于MLPerf v.31 推理的性能指标(基准结果)|MLCommons公告

说明:相关配置说明,请查看MLCommons网页。 结果可能不同。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18285

    浏览量

    222167
  • GPT
    GPT
    +关注

    关注

    0

    文章

    301

    浏览量

    14869
  • MLPerf
    +关注

    关注

    0

    文章

    33

    浏览量

    599
收藏 人收藏

    评论

    相关推荐

    英特尔Gaudi2C处理器或为Gaudi2的简化版,Gaudi3预计2024年面世

    对于Gaudi2C和Gaudi2之间的差别,有推测认为它可能是“部分”改动后的产品,针对中国市场专门定制。Tomshardware则猜测可能是Gaudi2的简化版。
    的头像 发表于 12-20 13:44 605次阅读

    用上这个工具包,大模型推理性能加速达40倍

    作者: 英特尔公司 沈海豪、罗屿、孟恒宇、董波、林俊 编者按: 只需不到9行代码, 就能在CPU上实现出色的LLM推理性能。 英特尔  Extension for Transformer 创新
    的头像 发表于 12-01 20:40 642次阅读
    用上这个工具包,大<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b>加速达40倍

    Nvidia 通过开源库提升 LLM 推理性能

    加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库,将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。 正如对相同硬件一轮又一轮改进
    的头像 发表于 10-23 16:10 325次阅读

    最新MLCommons结果公布 英特尔展现强大AI推理性能

    近日,MLCommons公布针对60亿参数大语言模型及计算机视觉与自然语言处理模型GPT-JMLPerf推理
    的头像 发表于 09-15 19:35 333次阅读
    最新MLCommons<b class='flag-5'>结果</b>公布 英特尔展现强大AI<b class='flag-5'>推理性能</b>

    求助,为什么将不同的权重应用于模型会影响推理性能

    生成两个 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的类似模型,以不同的 fps (27fps 和 6fps) 运行 更多样化的权重是否会影响 Myriad X 推理性能
    发表于 08-15 07:00

    如何提高YOLOv4模型推理性能

    使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。 将 权重转换为 ONNX 文件,然后转换为中间表示 (IR)。 无法确定如何获得更好的推理性能
    发表于 08-15 06:58

    Gaudi2夹层卡HL-225B数据表

    高迪第二代Al深度学习夹层卡HL-225B专为数据中心的大规模扩展而设计。训练处理器基于第一代高迪的高效架构,目前采用7nm工艺技术,性能、可扩展性和能效方面实现飞跃。Gaudi2夹层卡符合oCP
    发表于 08-04 07:54

    HLS-GAUD12深度学习服务器数据资料

    了96GB HBM2E内存和24个100GbE RoCE v2 RDMA NIC。 Gaudi2处理器为关键视觉和语言工作负载提供了领先的培训性能(如2022年5月的公告所示),这些工
    发表于 08-04 06:58

    Gaudi2架构和软件的全面解释

    Gaudi®2是哈瓦那的第二代深度学习加速器,支持训练和推理Gaudi®DL1实例中首次
    发表于 08-04 06:15

    gpt-4怎么用 英特尔Gaudi2加速卡GPT-4详细参数

    介绍GPT-4 详细参数及英特尔发布 Gaudi2 加速器相关内容,对大模型及 GPU 生态进行探讨和展望。英特尔发布高性价比Gaudi2加速卡GP
    发表于 07-21 10:50 623次阅读
    <b class='flag-5'>gpt</b>-4怎么用 英特尔<b class='flag-5'>Gaudi2</b>加速卡<b class='flag-5'>GPT</b>-4详细参数

    新的 MLPerf 推理网络部分展现 NVIDIA InfiniBand 网络和 GPUDirect RDMA 的强大能力

    中,网络软、硬件对于端到端推理性能的影响。 在网络评测中,有两类节点:前端节点生成查询,这些查询通过业界标准的网络(如以太网或 InfiniBand 网络)发送到加速节点,由加速器节点进行处理和执行推理。 图 1:单节点封闭测试
    的头像 发表于 07-19 19:10 651次阅读
    新的 <b class='flag-5'>MLPerf</b> <b class='flag-5'>推理</b>网络部分展现 NVIDIA InfiniBand 网络和 GPUDirect RDMA 的强大能力

    英特尔面向中国市场发布Gaudi2处理器,加速大模型训练和推理

    推出的Gaudi2 AI加速器,将通过其合作伙伴浪潮提供给中国客户。   Gaudi2在训练和推理上的出色表现   英特尔此次推出的Gaudi2深度学习加速器暨
    的头像 发表于 07-17 00:01 1284次阅读
    英特尔面向中国市场发布<b class='flag-5'>Gaudi2</b>处理器,加速大<b class='flag-5'>模型</b>训练和<b class='flag-5'>推理</b>

    英特尔全新Gaudi2处理器面世中国市场,加速大规模深度学习训练与推理

    Gaudi2致力于以领先的性价比优势,加速AI训练及推理,为中国用户提供更高的深度学习性能和效率,从而成为大规模部署AI的更优解。 英特尔于中国市场推出Gaudi2深度学习加速器 “
    的头像 发表于 07-14 20:10 380次阅读
    英特尔全新<b class='flag-5'>Gaudi2</b>处理器面世中国市场,加速大规模深度学习训练与<b class='flag-5'>推理</b>

    英特尔推出AI加速器性价比产品Gaudi2

    在两项测试中,Gaudi2均使用了英特尔推出的 SynapseAI1.10套件和OptimumHabana1.6;其中前者是面向Gaudi系列加速卡的SDK开发套件,能够对TensorFlow和Pytorch等流行框架提供支持,
    的头像 发表于 07-14 16:42 656次阅读
    英特尔推出AI加速器性价比产品<b class='flag-5'>Gaudi2</b>

    为深度学习而生,英特尔全新Gaudi2处理器正式登陆中国

    英特尔AI产品战略暨Gaudi2新品发布会在京举行。会上,英特尔正式于中国市场推出第二代Gaudi深度学习加速器——Habana® Gaudi®2。作为英特尔从云到端产品组合的重要组成,Gau
    的头像 发表于 07-13 09:48 544次阅读