0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基准分数突出了广泛的机器学习推理性能

张艳 来源:Lucia_nie 作者:Lucia_nie 2022-07-21 10:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

继今年早些时候发布的训练基准分数之后,MLPerf 发布了其推理基准的第一组基准分数。

与目前有 5 家公司的 63 份参赛作品的训练轮相比,更多的公司提交了基于 MobileNet、ResNet、Yolo 等神经网络架构的推理结果。总共有来自 14 个组织的 500 多个分数进行了验证。这包括来自几家初创公司的数据,而一些知名初创公司仍然明显缺席。

在封闭的部门,其严格的条件可以直接比较系统,结果显示性能差异为 5 个数量级,并且在估计的功耗方面跨越三个数量级。在开放部门中,提交可以使用一系列模型,包括低精度实现。

Nvidia 在封闭部门的所有类别中都获得了商用设备的第一名。其他领先者包括数据中心类别的 Habana Labs、谷歌和英特尔,而 Nvidia 在边缘类别中与英特尔和高通竞争。

pYYBAGLXT8uAc4TSAAEshK1KHAk991.jpg

英伟达用于数据中心推理的 EGX 平台(图片:英伟达)

Moor Insights and Strategy 分析师 Karl Freund 表示:“Nvidia 是唯一一家拥有生产芯片、软件、可编程性和人才的公司,可以发布跨 MLPerf 范围内的基准测试,并在几乎所有类别中获胜。” “GPU 的可编程性为未来的 MLPerf 版本提供了独特的优势……我认为这展示了 [Nvidia] 实力的广度,以及挑战者的利基性质。但随着时间的推移,许多挑战者会变得成熟,因此英伟达需要继续在硬件和软件方面进行创新。”

Nvidia 发布的图表显示了其对结果的解释,在商用设备的封闭部门的所有四个场景中,它都位居第一。

这些场景代表不同的用例。离线和服务器场景用于数据中心的推理。离线场景可能代表大量图片的离线照片标记并测量纯吞吐量。服务器场景代表一个用例,其中包含来自不同用户的多个请求,在不可预测的时间提交请求,并在固定时间测量吞吐量。边缘场景是单流,它对单个图像进行推理,例如在手机应用程序中,以及多流,它测量可以同时推理多少个图像流,用于多摄像头系统。

公司可以为选定的机器学习模型提交结果,这些模型在四种场景中的每一种中执行图像分类、对象检测和语言翻译。

数据中心结果

“从数据中心的结果来看,Nvidia 在服务器和离线类别的所有五个基准测试中均名列前茅,”Nvidia 加速计算产品管理总监 Paresh Kharya 说。“在商用解决方案中,我们的 Turing GPU 的性能优于其他所有人。”

Kharya 强调了这样一个事实,即英伟达是唯一一家在数据中心类别的所有五个基准模型中提交结果的公司,而对于服务器类别(这是更困难的情况),英伟达的性能相对于其竞争对手有所提高。

pYYBAGLXT9CAY9DfAADuOqQxTLg534.jpg

选定的数据中心基准测试结果来自封闭部门,在商用设备类别中处于领先地位。结果显示相对于每个加速器的 Nvidia 分数。X 代表“未提交结果”(图片:Nvidia)

英伟达在数据中心领域最接近的竞争对手是拥有Goya 推理芯片的以色列初创公司 Habana Labs 。

分析师 Karl Freund 表示:“Habana 是唯一一个全面生产高性能芯片的挑战者,当下一个 MLPerf 套件有望包含功耗数据时,它应该会做得很好。”

Habana Labs 在接受 EETimes 采访时指出,基准分数纯粹基于性能——功耗不是衡量标准,实用性也不是(例如考虑解决方案是被动冷却还是水冷),成本也不是。

poYBAGLXT9mAV4bIAAD-pxpLakQ911.jpg

Habana Labs PCIe 卡采用 Goya 推理芯片(图片:Habana Labs)

Habana 还使用开放分区来展示其低延迟能力,比封闭分区进一步限制延迟,并为多流场景提交结果。

边缘计算结果

在边缘基准测试中,Nvidia 赢得了所有四个在封闭部门提交商用解决方案的类别。高通的 Snapdragon 855 SoC 和英特尔的 Xeon CPU 在单流类别中落后于英伟达,高通和英特尔都没有提交更困难的多流场景的结果。

poYBAGLXT9-AeURxAADPVeR-l4A989.jpg

选定的边缘基准测试结果来自封闭部门,在商用设备类别中处于领先地位。结果显示相对于每个加速器的 Nvidia 分数。X 代表“未提交结果”(图片:Nvidia)

“预览”系统(尚未商业化)的结果将阿里巴巴 T-Head 的含光芯片与英特尔的 Nervana NNP-I、Hailo-8和 Centaur Technologies 的参考设计进行了对比。与此同时,研发类别的特色是一家隐秘的韩国初创公司 Furiosa AI,对此我们知之甚少。

MLPerf 网站上提供了最近的推理分数以及早期的训练分数。



审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 基准测试
    +关注

    关注

    0

    文章

    21

    浏览量

    7832
  • 机器学习
    +关注

    关注

    67

    文章

    8572

    浏览量

    137528
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA全面升级RTX PC和DGX Spark上的本地AI智能体

    COMPUTEX 期间的 GTC 台北,NVIDIA OpenShell 将安全智能体带到 Windows,并在 llama.cpp 上实现高达 2 倍的推理性能加速。Adobe 对旗下应用进行重构
    的头像 发表于 06-07 14:46 60次阅读
    NVIDIA全面升级RTX PC和DGX Spark上的本地AI智能体

    端侧AI算力新秀,RK182X系列算力卡如何让大模型落地更简单?

    瑞芯微推出了面向人工智能应用的高性能RK182X系列算力卡,依托RKNN3 SDKV1.0.4的发布,为端侧AI模型部署提供全栈式软件支撑,在端侧推理性能、模型适配、功能接口、推理精度
    的头像 发表于 06-05 14:10 3157次阅读
    端侧AI算力新秀,RK182X系列算力卡如何让大模型落地更简单?

    Altera FPGA优化物理AI系统推理性能

    在涉及人机交互的物理 AI 系统中,严苛的尺寸、重量和功耗限制是基础门槛,而为了满足高等级的安全需求,确定性的低延迟表现更是核心命门。
    的头像 发表于 05-18 11:29 1692次阅读

    今日看点:消息称 AMD、高通考虑导入 SOCAMM 内存;曦望发布新一代推理GPU芯片启望S3

    推理深度定制的GPGPU芯片。其单芯片推理性能提升5倍,支持从FP16到FP8、FP6、FP4等多精度灵活切换,释放低精度推理效率,这种设计更贴合当前MoE和长上下文模型在推理阶段的需
    发表于 01-28 11:09 1483次阅读

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 OCR 能力

    落地过程中,企业逐渐意识到:** 制约 OCR 应用进一步扩展的核心因素,已不再是模型准确率本身,而是整体推理性能与部署成本。 具体来说,规模化 OCR 应用主要面临以下几方面挑战: 吞吐量(FPS)不足 ,难以支撑高并发或多路输入场景; 推理
    的头像 发表于 01-22 21:02 443次阅读
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,在 ARM 与 x86 平台交付可规模化的高<b class='flag-5'>性能</b> OCR 能力

    通过NVIDIA Jetson AGX Thor实现7倍生成式AI性能

    Jetson Thor 平台还支持多种主流量化格式,包括 NVIDIA Blackwell GPU 架构的新 NVFP4 格式,有助于进一步优化推理性能。该平台同时支持推测解码等新技术,为在边缘端加速生成式 AI 工作负载提供了新的途径。
    的头像 发表于 10-29 16:53 1834次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 1605次阅读

    利用NVIDIA DOCA GPUNetIO技术提升MoE模型推理性能

    在第三届 NVIDIA DPU 中国黑客松竞赛中,我们见证了开发者与 NVIDIA 网络技术的深度碰撞。在 23 支参赛队伍中,有 5 支队伍脱颖而出,展现了在 AI 网络、存储和安全等领域的创新突破。
    的头像 发表于 09-23 15:25 1363次阅读

    使用NVIDIA NVLink Fusion技术提升AI推理性能

    本文详细阐述了 NVIDIA NVLink Fusion 如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。
    的头像 发表于 09-23 14:45 1271次阅读
    使用NVIDIA NVLink Fusion技术提升AI<b class='flag-5'>推理性能</b>

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4875次阅读
    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理
    的头像 发表于 08-15 09:45 1495次阅读

    FPGA在机器学习中的具体应用

    ,越来越多地被应用于机器学习任务中。本文将探讨 FPGA 在机器学习中的应用,特别是在加速神经网络推理、优化算法和提升处理效率方面的优势。
    的头像 发表于 07-16 15:34 3230次阅读

    中软国际智算中心成功完成华为EP方案验证

    在大模型迈向规模化应用的新阶段,推理性能成为决定AI落地成败的关键因素。中软国际智算中心积极响应国产智算体系建设战略,率先完成华为昇腾“大规模专家并行”(EP)推理方案验证,在DeepSeek-R1模型推理任务中实现3倍单卡吞吐
    的头像 发表于 07-14 14:54 1597次阅读

    大模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大模型推理显存和
    发表于 07-03 19:43

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用从ModbusTCP寄存器获取的实时数据来预测一台复古音频放大器的当前健康状况。你将
    的头像 发表于 06-11 17:22 1226次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时<b class='flag-5'>推理</b>模型部署与工业集成!