0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

最新MLPerf v3.1测试结果认证,Gaudi2在GPT-J模型上推理性能惊人

looger123 来源:looger123 作者:looger123 2023-09-12 17:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

英特尔产品在全新MLCommons AI推理性能测试中尽显优势

今日,MLCommons公布针对 60 亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的 MLPerf推理v3.1 性能基准测试结果,其中包括英特尔所提交的基于Habana®Gaudi®2 加速器、第四代英特尔®至强®可扩展处理器,以及英特尔®至强®CPU Max 系列的测试结果。该结果显示了英特尔在AI推理方面极具竞争力的表现,并进一步加强了其对加速从云到网络到边缘再到端的工作负载中大规模部署AI的承诺。

英特尔执行副总裁兼数据中心人工智能事业部总经理Sandra Rivera表示:“正如最新的 MLCommons结果显示,我们拥有强大的、具有竞争力的人工智能产品组合以满足客户对高性能、高效率的深度学习推理及训练的需求,同时,针对各种规模的人工智能模型,英特尔产品组合均具有领先的性价比优势。”

根据6月披露的MLCommonsAI训练结果和Hugging Face性能基准测试验证,Gaudi2 在先进的视觉语言模型上,性能可以超越英伟达的H100处理器,而今天的结果进一步证明了英特尔能够提供满足AI计算需求的、英伟达H100和A100的唯一可行的替代方案。

考虑到客户的个性化需求,英特尔正在通过能够帮助解决AI工作负载中推理与训练问题的产品,让AI无处不在。英特尔的AI产品为客户提供了可根据各自性能、效率及目标成本进行灵活匹配以获取最佳AI解决方案的理想选择,同时亦帮助客户开放生态系统。

关于Habana Gaudi2的测试结果:

Habana Gaudi2在GPT-J模型上的推理结果强有力地验证了其具有竞争力的性能。

·Gaudi2 在GPT-J-99 和GPT-J-99.9 上的服务器查询和离线样本的推理性能分别为78.58 次/秒和84.08 次/秒。

·与英伟达H100相比,Gaudi2提供了令人信服的卓越性能,H100相对于Gaudi2仅表现出 1.09 倍(服务器)和 1.28 倍(离线)的轻微性能优势。

·Gaudi2 拥有高于英伟达A100 2.4 倍(服务器)、 2 倍(离线)的性能。

·Gaudi2 提交的结果采用 FP8数据类型,并在这种新数据类型上达到了 99.9% 的准确率。

随着每6-8周公布的 Gaudi2 软件更新,英特尔将继续在 MLPerf 基准测试中展现其产品的性能提升,以及持续扩大的模型覆盖范围。

wKgZomUANVWAY6S7AAJVP79DRaA450.png

Habana Gaudi2 在GPT-J模型上的推理结果验证了其具有竞争力的性能

关于第四代至强可扩展处理器的测试结果:

英特尔提交了基于第四代英特尔至强可扩展处理器的7个推理基准测试,其中包括GPT-J模型。结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的 DLRM v2 深度学习推荐模型及ChatGPT-J 模型在内,第四代至强处理器对于通用 AI 工作负载拥有出色的性能。此外,截至目前,英特尔仍是唯一一家使用行业标准的深度学习生态系统软件提交公开 CPU 结果的厂商。

·第四代英特尔至强可扩展处理器是通过流行的AI框架与库构建及部署通用AI工作负载的理想选择。对于GPT-J对约 1000-1500 字新闻稿进行100 字总结的任务,第四代至强可扩展处理器可在离线模式下完成每秒两段的总结提要,在实时服务器模式下完成每秒一段的总结提要。

·英特尔首次提交了英特尔至强CPU Max 系列的MLPerf 结果,该系列可提供高达64 GB的高带宽内存。对于 GPT-J而言,它是仅有的能够达到 99.9% 准确度的 CPU,这对于对精度要求极高的应用来说至关重要。

·英特尔与OEM厂商合作提交了测试结果,进一步展示了其AI性能的可扩展性,以及基于英特尔至强处理器的通用服务器的可获取性,充分满足客户服务水平协议 (SLA)。

wKgZomUANVeAKtKpAAF_ItEkqC0102.png

第四代至强可扩展处理器是构建及部署通用AI工作负载的理想选择

MLPerf 是业内享有盛名的 AI 性能基准测试,旨在实现公平、可重复的产品性能比较。英特尔计划为下一个 MLPerf测试提交新的AI训练性能结果。持续的性能更新彰显了英特尔致力于帮助客户、助力AI技术演进所迈出的每一步,无论是低成本的AI处理器,还是面向网络、云和企业用户的高性能AI硬件加速器或是 GPU

更多内容:基于MLPerf v.31 推理的性能指标(基准结果)|MLCommons公告

说明:相关配置说明,请查看MLCommons网页。 结果可能不同。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20333

    浏览量

    255029
  • GPT
    GPT
    +关注

    关注

    0

    文章

    373

    浏览量

    16969
  • MLPerf
    +关注

    关注

    0

    文章

    37

    浏览量

    984
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DeepSeek V3.1发布!拥抱国产算力芯片

    电子发烧友网报道(文/李弯弯)2025年8月21日,DeepSeek正式官宣发布DeepSeek-V3.1模型。新版本不仅在技术架构实现重大升级,更通过参数精度优化与国产芯片深度适配。从混合
    的头像 发表于 08-23 07:55 1.8w次阅读
    DeepSeek <b class='flag-5'>V3.1</b>发布!拥抱国产算力芯片

    商汤科技正式开源多模态自主推理模型SenseNova-MARS

    今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.0
    的头像 发表于 01-30 10:13 786次阅读
    商汤科技正式开源多模态自主<b class='flag-5'>推理模型</b>SenseNova-MARS

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理 ARM 与 x86 平台交付可规模化的高性能 OCR 能力

    落地过程中,企业逐渐意识到:** 制约 OCR 应用进一步扩展的核心因素,已不再是模型准确率本身,而是整体推理性能与部署成本。 具体来说,规模化 OCR 应用主要面临以下几方面挑战: 吞吐量(FPS)不足 ,难以支撑高并发或多路输入场景;
    的头像 发表于 01-22 21:02 339次阅读
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,<b class='flag-5'>在</b> ARM 与 x86 平台交付可规模化的高<b class='flag-5'>性能</b> OCR 能力

    Powered by XuanTie,Qwen Inside:阿里通义大模型携手玄铁 RISC-V开启“端侧智能”新纪元

    的优势,深度融合,正式推出“Powered by XuanTie,Qwen Inside”技术战略——通义大模型算法与基于开源 RISC-V 架构的玄铁处理器将通过软硬全链路协同优化,实现通义大模型家族
    的头像 发表于 01-12 11:49 388次阅读
    Powered by XuanTie,Qwen Inside:阿里通义大<b class='flag-5'>模型</b>携手玄铁 RISC-<b class='flag-5'>V</b>开启“端侧智能”新纪元

    GPT-5.1发布 OpenAI开始拼情商

    -5.1 Thinking:高级推理模型简单任务更快,复杂任务更持久,也更容易理解。 对于新上线的
    的头像 发表于 11-13 15:49 820次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 1425次阅读

    使用NVIDIA NVLink Fusion技术提升AI推理性能

    本文详细阐述了 NVIDIA NVLink Fusion 如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。
    的头像 发表于 09-23 14:45 1117次阅读
    使用NVIDIA NVLink Fusion技术提升AI<b class='flag-5'>推理性能</b>

    使用OpenVINO将PP-OCRv5模型部署Intel显卡

    是一个用于优化和部署人工智能(AI)模型,提升AI推理性能的开源工具集合,不仅支持以卷积神经网络(CNN)为核心组件的预测式AI模型(Predictive AI),还支持以Transformer为核心组件的生成式AI
    的头像 发表于 09-20 11:17 1415次阅读
    使用OpenVINO将PP-OCRv5<b class='flag-5'>模型</b>部署<b class='flag-5'>在</b>Intel显卡<b class='flag-5'>上</b>

    亚马逊云科技宣布推出Qwen3与DeepSeek-V3.1模型的完全托管服务

    亚马逊云科技致力于成为运行开放权重模型的最佳平台,Amazon Bedrock新增五个模型选项,持续丰富模型选择,进一步满足客户需求。
    的头像 发表于 09-19 10:11 1028次阅读

    DeepSeek R1 MTPTensorRT-LLM中的实现与优化

    TensorRT-LLM NVIDIA Blackwell GPU 创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4683次阅读
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-LLM中的实现与优化

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi
    的头像 发表于 08-26 19:18 3311次阅读
    英特尔<b class='flag-5'>Gaudi</b> <b class='flag-5'>2</b>E AI加速器为DeepSeek-<b class='flag-5'>V3.1</b>提供加速支持

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作。NVIDIA NVIDIA Blackwell 架构优化了这两款全新的开放权重模型并实现了推理性能加速,
    的头像 发表于 08-15 20:34 2500次阅读
    NVIDIA从云到边缘加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,实现150万TPS<b class='flag-5'>推理</b>

    西部数据通过 MLPerfâ Storage V2 测试结果,验证其真实场景下的AI存储性能

    。西部数据(NASDAQ: WDC)近日公布其 MLPerf® Storage V2 测试结果,验证了旗下 OpenFlex™ Data24 4000 系列 NVMe-oF™ 存储平台
    发表于 08-05 18:15 1069次阅读

    模型推理显存和计算量估计方法研究

    、显存估计方法 基于模型结构的显存估计 根据深度学习模型的层次结构和参数数量,可以估算模型推理过程中所需的显存大小。具体方法如下: (1)
    发表于 07-03 19:43

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    推理量化的 Llama 3.1 8B 模型时遇到错误: Runtime error: Bad cast from __int64 to unsigned int
    发表于 06-25 07:20