0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MLPerf:边缘AI推理的新行业基准

星星科技指导员 来源:嵌入式计算设计 作者:嵌入式计算设计 2022-10-14 09:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这些数字重要吗?它们中的大多数都是在实验室类型的环境中生产的,其中理想的条件和工作负载允许被测设备(SUT)产生用于营销目的的最高分数。另一方面,大多数工程师可能不太关心这些理论可能性。他们更关心的是技术如何影响其推理设备的准确性、吞吐量和/或延迟。

将计算元素与特定工作负载进行比较的行业标准基准测试更有用。例如,图像分类工程师可以确定满足其性能要求的多个选项,然后根据功耗、成本等对其进行缩减。语音识别设计人员可以使用基准测试结果来分析各种处理器和内存组合,然后决定是在本地还是在云中合成语音。

但是,AI和ML模型,开发框架和工具的快速引入使这种比较复杂化。如图 1 所示,AI 技术堆栈中越来越多的选项也意味着可用于判断推理性能的排列呈指数级增长。这是在考虑模型和算法可以针对给定系统架构进行优化的所有方法之前。

pYYBAGNIvmeAfv_HAAHbWQS6EGk129.png

图 1.AI开发堆栈中越来越多的选项使行业标准基准测试变得复杂。

毋庸置疑,制定这样一个全面的基准超出了大多数公司的能力或愿望。即使有人能够完成这一壮举,工程界真的会接受它作为“标准基准”吗?

机器学习成果:人工智能推理的更好基准

更广泛地说,在过去几年中,工业界和学术界已经开发了几个推理基准,但他们倾向于关注新兴人工智能市场的更多利基领域。一些例子包括EEMBC用于嵌入式图像分类和对象检测的MLMark,苏黎世联邦理工学院的AI基准测试,针对Android智能手机上的计算机视觉,以及哈佛的Fathom基准测试,强调各种神经网络的吞吐量,但不是准确性。

对 AI 推理格局的更完整评估可以在 MLPerf 最近发布的推理 v0.5 基准测试中找到。MLPerf 推理是社区开发的测试套件,可用于测量 AI 硬件、软件、系统和服务的推理性能。这是来自30多家公司的200多名工程师合作的结果。

正如您对任何基准测试所期望的那样,MLPerf 推理定义了一套标准化工作负载,这些工作负载被组织成图像分类、对象检测和机器翻译用例的“任务”。每个任务都由与正在执行的功能相关的 AI 模型和数据集组成,其中图像分类任务支持 ResNet-50 和 MobileNet-v1 模型,对象检测任务利用具有 ResNet34 或 MobileNet-v1 主干的 SSD 模型,以及使用 GNMT 模型的机器转换任务。

除了这些任务之外,MLPerf 推理开始偏离传统基准测试的规范。由于准确性、延迟、吞吐量和成本的重要性在不同用例中具有不同的权重,因此 MLPerf 推理通过在移动设备、自动驾驶汽车、机器人和云这四个关键应用领域中根据质量目标对推理性能进行分级来权衡。

为了在尽可能接近在这些应用领域中运行的真实系统的上下文中有效地对任务进行分级,MLPerf 推理引入了一个负载生成器工具,该工具根据四种不同的方案生成查询流量:

样本大小为 1 的连续单流查询,在移动设备中很常见

连续的多流查询,每个流有多个样本,就像在延迟至关重要的自动驾驶汽车中发现的那样

请求随机到达的服务器查询,例如在延迟也很重要的 Web 服务中

执行批处理且吞吐量是一个突出考虑因素的脱机查询

负载生成器在测试准确性和吞吐量(性能)的模式下提供这些方案。图 2 描述了 SUT 如何从负载生成器接收请求,相应地将数据集中的样本加载到内存中,运行基准测试并将结果返回到负载生成器。然后,准确性脚本将验证结果。

pYYBAGNIvnCAEAcaAAENd-3ADao787.png

图 2. MLPerf 推理基准测试依赖于负载生成器,该负载生成器根据许多实际方案查询被测系统 (SUT)。

作为基准测试的一部分,每个 SUT 必须执行最少数量的查询,以确保统计置信度。

提高灵活性

如前所述,人工智能技术市场中使用的各种框架和工具是任何推理基准测试的关键挑战。前面提到的另一个考虑因素是调整模型和算法,以从AI推理系统中挤出最高的准确性,吞吐量或最低延迟。就后者而言,量化和图像重塑等技术现在是常见的做法。

MLPerf 推理是一种语义级基准测试,这意味着,虽然基准测试提供了特定的工作负载(或一组工作负载)以及执行它的一般规则,但实际实现取决于执行基准测试的公司。公司可以优化提供的参考模型,使用他们想要的工具链,并在他们选择的硬件目标上运行基准测试,只要它们保持在特定的指导方针之内。

但是,重要的是要注意,这并不意味着提交公司可以对MLPerf模型或数据集采取任何和所有自由,并且仍然有资格获得主要基准。MLPerf 推理基准分为两个部分 - 封闭式和开放式 - 封闭式部门对可以使用哪些类型的优化技术以及其他禁止的优化技术有更严格的要求。

要获得封闭分区的资格,提交者必须使用提供的模型和数据集,但允许量化。为了确保兼容性,封闭部门的参赛者不能使用重新训练或修剪的模型,也不能使用缓存或已调整为基准或数据集感知的网络。

另一方面,开放式划分旨在促进AI模型和算法的创新。仍需要向开放分区提交以执行相同的任务,但可以更改模型类型、重新训练和修剪其模型、使用缓存等。

尽管封闭式划分可能听起来很严格,但超过 150 个条目成功获得了 MLPerf 推理 v0.5 发布资格。图3和图4展示了参赛者使用的AI技术堆栈的多样性,这些堆栈几乎涵盖了从ONNX和PyTorch到TensorFlow,OpenVINO和Arm NN的各种处理器架构和软件框架。

poYBAGNIvneATVpSAAD0vbiiLaI086.png

图 3.数字信号处理器、FPGACPUASICGPU 都成功完成了 MLPerf 推理封闭式除法要求。

pYYBAGNIvn-ALKBBAAFGgFHFxJs564.png

图 4. 人工智能软件开发框架,如 ONNX、毕拓、张量流、OpenVINO、Arm NN 等,被用于开发符合封闭分区基准测试的 MLPerf 推理系统。

消除评估中的猜测

虽然 MLPerf 推理的初始版本包含一组有限的模型和用例,但基准测试套件是以模块化、可扩展的方式构建的。这将使MLPerf能够随着技术和行业的发展而扩展任务,模型和应用领域,并且组织已经计划这样做。

最新的AI推理基准显然是目前可用的最接近真实世界AI推理性能的衡量标准。但随着它的成熟并吸引更多的提交,它也将成为成功部署的技术堆栈的晴雨表,以及新实施的试验场。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20380

    浏览量

    255627
  • AI
    AI
    +关注

    关注

    91

    文章

    41990

    浏览量

    303086
  • 人工智能
    +关注

    关注

    1821

    文章

    50518

    浏览量

    267765
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业智能网关行业调研报告(2026 年)

    基础设施。中国市场占全球比重超30%,2025 年规模约220 亿元人民币,2030 年有望突破500 亿元。行业呈现5G + 边缘计算 + AI + 内生安全融合趋势,国产化替代加速,头部集中与垂直定制
    发表于 05-21 10:51

    直播预告|玄铁 x Canonical:从本地推理AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    大模型浪潮下,AI 算力正向“本地推理”与“AI 工厂”两极延伸,而传统架构在低延迟与规模化之间往往顾此失彼。RISC-V 的可定制特性,提供了一条新路径——端侧精简高效,云侧通过众核与矩阵增强向上
    发表于 05-15 12:15

    论马斯克的预言:AI使人类边缘

    工作领域的边缘化。 局限性 AI能力限制方面:尽管AI发展迅速,但目前仍存在诸多局限性,如在常识推理、跨领域迁移学习等方面存在本质缺陷,在数学建模等能力上与人类也存在差异,难以完全替代
    发表于 03-14 05:27

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    AGX Orin 150 TOPS+ 本地大模型推理、具身智能控制、多模态实时交互 迷你AI服务器 176TOPS 意味着OrangePi AI Station正式迈入 高端边缘
    发表于 03-10 14:19

    如何在边缘AI应用场景中实现高性能、低功耗推理(上)

    RA生态工作室关注我们为什么选择边缘AIAI市场已经发生了根本性变革。过去,AI处理主要在云端完成。EndPoint设备从传感器收集数据并将其发送到云端进行
    的头像 发表于 03-03 14:18 6703次阅读
    如何在<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>应用场景中实现高性能、低功耗<b class='flag-5'>推理</b>(上)

    如何在边缘AI应用场景中实现高性能、低功耗推理(上)

      为什么选择边缘AIAI市场已经发生了根本性变革。过去,AI处理主要在云端完成。End Point设备从传感器收集数据并将其发送到云端进行推理
    的头像 发表于 02-27 07:48 1w次阅读
    如何在<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>应用场景中实现高性能、低功耗<b class='flag-5'>推理</b>(上)

    基于NVIDIA模组与软件套件推动边缘与机器人AI推理

    NVIDIA 正式推出 NVIDIA Jetson T4000,将高性能 AI 与实时推理能力带入更广泛的机器人和边缘 AI 应用。T4000 针对更严格的功耗和散热限制进行了优化,最
    的头像 发表于 01-14 09:46 918次阅读
    基于NVIDIA模组与软件套件推动<b class='flag-5'>边缘</b>与机器人<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    工业视觉网关:RK3576赋能多路检测与边缘AI

    ~150ms6TOPS NPU 边缘AI推理易对接 MES / 追溯系统 一、产线痛点:从“人看”到“机判”的转变· 多工位/多角度同步:单机位覆盖不足,典型项目需 8~12 路并发,且画面时序一致性要求高
    发表于 10-16 17:56

    AI 边缘计算网关:开启智能新时代的钥匙​—龙兴物联

    在数字化浪潮的当下,AI 边缘计算网关正逐渐崭露头角,成为众多行业转型升级的关键力量。它宛如一座智能桥梁,一端紧密连接着各类物理设备,如传感器、摄像头、工业机器等,负责收集丰富的数据信息;另一端则
    发表于 08-09 16:40

    边缘智能网关在水务行业中的应用—龙兴物联

    ),形成更强大的分布式智能网络。 三、未来发展趋势与潜力‌ AI模型轻量化与性能提升:‌ 更高效的边缘AI推理框架和专用AI加速芯片(NPU
    发表于 08-02 18:28

    研华科技推出紧凑型边缘AI推理系统AIR-120

    研华科技隆重宣布,推出紧凑型边缘AI推理系统——AIR-120。该系统搭载英特尔凌动x7433RE(Amston Lake)处理器、酷睿i3-N305处理器、N97(Alder Lake)处理器以及
    的头像 发表于 07-17 17:16 1245次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(
    发表于 07-16 15:29

    边缘AI盒子技术解析:ASIC/FPGA/GPU芯片及边缘-云端协同与自适应推理

    数据上传到云端,为众多行业提供高效、智能的解决方案。它是边缘AI需要用到的关键边缘设备。 边缘AI
    的头像 发表于 07-13 08:25 5015次阅读

    Nordic收购 Neuton.AI 关于产品技术的分析

    与 Nordic 的 nRF54 系列超低功耗无线 SoC 结合,使得即使是资源极为有限的设备也能高效运行边缘 AI。Nordic 目前正在将 Neuton 深度集成到自身开发生态中,未来会提供更多工具、固件
    发表于 06-28 14:18

    STM32F769是否可以部署边缘AI

    STM32F769是否可以部署边缘AI
    发表于 06-17 06:44