0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文详谈AI边缘推理与数据中心的差异和应用

如意 来源:OFweek电子工程网 作者:电子工程世界 2020-09-19 11:31 次阅读

虽然推理加速器最初用于数据中心,但它们已经迅速发展到应用程序的边缘推理,如自动驾驶医学成像。通过这种转变,客户发现,同样的加速器,在数据中心处理图像很顺利,但移到边缘推断方面却显得糟糕。其实原因很简单:一个处理数据池,而另一个处理的是数据流。

当你在batch = 1时进行批处理时,池子里待处理的batch就会很多。在数据中心,客户通常是数据的处理池,比如被标记的照片。其目标是用最少的资源和功耗以及最佳的延迟来处理尽可能多的照片。

另一方面,边缘推断应用程序需要处理数据流。我们通常的相机每秒拍摄30帧,每帧通常是200万像素。通常情况下,每幅图像需要33毫秒,每秒大约30帧。当你有一个图像从一个流进来,它如何被处理取决于它需要做什么。

例如,使用推理进行零售分析的商店可能会计算给定时间排队的人数。在这个例子中,他们真的不需要几个小时甚至几天的结果。然而,如果你驾驶一辆使用自动驾驶功能的汽车,你只有毫秒来处理图像,否则你可能会撞到人。虽然在这两个例子中,相机每3毫秒生成1帧图像,但使用的推理加速器非常不同。

让我们看看数据流发生了什么。

首先,您需要清理图像以去除诸如光线条纹之类的东西,然后应用推理。当推理完成后,您需要采取一个行动,根据你正在处理的活动,所有这些都需要在特定的时间内发生。如果你不需要几个小时的结果,你可以对图像进行批处理。在这种情况下,延迟就无关紧要了。重要的是用最少的成本和能量处理最多的图像。

最常犯的一个错误就是在选择边缘推断解决方案时没有考虑延迟和流媒体吞吐量。比方说,你有一台每秒能处理30帧的推理加速器,另一台每秒能处理15帧。

大多数人自然而然地认为每秒30帧的解决方案更好——其实你错了。

每秒30帧的加速器可能会获得比较可观的吞吐量,原因是它有三个引擎,每个引擎都有不同的延迟。最典型的是英伟达Xavier推理加速器。Xavier的深度学习引擎处理图像大约需要300毫秒,GPU大约需要90毫秒。如果客户有两个深度学习引擎+GPU都在运行,他们可能会在数据池中获得显著的吞吐量。

但是,如果它需要从数据流一次处理一个图像,它就不能有效地使用深度学习引擎,吞吐量会显著下降。在这种情况下,你需要观察哪个执行单元的延迟最短,即GPU的延迟为90毫秒。分割成1000毫秒就是每秒的帧数,这意味着这个吞吐量实际上只有每秒10帧(而不是宣传的每秒30帧)。

x Logix购买了一台Xavier AGX,并将其配置为NX模式(该软件测量芯片的功率,当功率超过15W时,会调低芯片的时钟,以防止芯片过热)。

然后,我们通过Nvidia Xavier NX软件流运行三个模型(YOLOv3加上我们客户的两个模型),并在芯片上运行,测量每张图像的延迟。我们还通过自己的InferX X1性能评估器运行了相同的模型。

显然,Nvidia不能为我们自己客户的机型发布基准测试,但YOLOv3的数据是在Xavier AGX上发布的,而不是在NX上发布的——而且他们发布的数据是使用GPU和两个DL加速器的综合吞吐量。对于Batch= 1,GPU有可接受的延迟。

不同的领域对应不同的处理器

关注自动驾驶和航空航天等应用程序的客户要处理数据流,所以可能只关心流吞吐量。即使它们是空闲的,它们也不能利用运行较慢的执行单元,因为它们需要在下一个图像可用之前处理第一个图像。在这些应用程序中,要跟上图像流是至关重要的,因为如果不这样做,就需要存储越来越多的数据。如果应用程序是自动驾驶,这将延长延迟时间,并可能导致严重后果。

总之,如果你正在研究推理加速器,请明白它们是为什么而优化的。

今年推出的大多数推断加速器都是为ResNet-50进行优化设计的,本人认为是一个糟糕基准测试,因为它使用了小图像,比如224×224。

对于像自动驾驶这样的应用程序,一般是需要处理200万像素的1440×1440级别的图像。对于这些应用程序,YOLOv3是一个更好的基准测试。

我们也开始看到与ResNet-50和YOLOv3有着截然不同的新模型。在生物医学工程或医学成像等市场,他们处理不同类型的传感器,而非行人目标的检测和识别,他们以一种非常不同的方式使用神经网络。在YOLOv3上运行良好的加速器可能在这些模型上运行得更好。

简单介绍一下YOLOv3,它是YOLO (You Only Look Once)系列目标检测算法中的第三版,相比之前的算法,尤其是针对小目标,精度有显著提升。下面我们就来看看在算法中究竟有哪些提升。

YOLOv3算法

首先如上图所示,在训练过程中对于每幅输入图像,YOLOv3会预测三个不同大小的3D tensor,对应着三个不同的scale。设计这三个scale的目的就是为了能够检测出不同大小的物体。在这里我们以13x13的tensor为例做一个简单讲解。对于这个scale,原始输入图像会被分成分割成13x13的grid cell,每个grid cell对应着3D tensor中的1x1x255这样一个长条形voxel。255这个数字来源于(3x(4+1+80)),其中的数字代表bounding box的坐标,物体识别度(objectness score),以及相对应的每个class的confidence,具体释义见上图。

其次,如果训练集中某一个ground truth对应的bounding box中心恰好落在了输入图像的某一个grid cell中(如图中的红色grid cell),那么这个grid cell就负责预测此物体的bounding box,于是这个grid cell所对应的objectness score就被赋予1,其余的grid cell则为0。此外,每个grid cell还被赋予3个不同大小的prior box。在学习过程中,这个grid cell会逐渐学会如何选择哪个大小的prior box,以及对这个prior box进行微调(即offset/coordinate)。但是grid cell是如何知道该选取哪个prior box呢?在这里作者定义了一个规则,即只选取与ground truth bounding box的IOU重合度最高的哪个prior box。

上面说了有三个预设的不同大小的prior box,但是这三个大小是怎么计算得来的呢?作者首先在训练前,提前将COCO数据集中的所有bbox使用K-means clustering分成9个类别,每3个类别对应一个scale,这样总共3个scale。这种关于box大小的先验信息极大地帮助网络准确的预测每个Box的offset/coordinate,因为从直观上,大小合适的box将会使网络更快速精准地学习。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    15

    文章

    4178

    浏览量

    69930
  • AI
    AI
    +关注

    关注

    87

    文章

    26409

    浏览量

    264011
  • 应用程序
    +关注

    关注

    37

    文章

    3133

    浏览量

    56364
收藏 人收藏

    评论

    相关推荐

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    #mpo光纤跳线 #数据中心光纤跳线

    光纤数据中心
    jf_51241005
    发布于 :2024年03月22日 10:18:31

    #光纤弯曲 #光纤衰减 #数据中心光纤

    光纤数据中心
    jf_51241005
    发布于 :2024年03月08日 09:59:50

    #MPO预端接 #数据中心机房 #机房布线

    数据中心MPO
    jf_51241005
    发布于 :2024年03月01日 11:12:47

    #永久链路 #信道测试 #数据中心

    数据中心
    jf_51241005
    发布于 :2024年02月23日 10:17:58

    #紧套光缆 #松套光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月26日 09:44:11

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    数据中心 3D 机房数字孪生 #数据中心

    3D数据中心
    阿梨是苹果
    发布于 :2023年12月28日 10:02:33

    #预端接光缆 #24芯光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2023年12月08日 11:01:21

    大模型时代,数据中心将转向何方?

    数据中心大模型
    脑极体
    发布于 :2023年11月22日 09:01:41

    适用于数据中心AI 时代的网络

    十多年来,传统的云数据中心一直是计算基础设施的基石,满足了各种用户和应用程序的需求。然而,近年来,为了跟上技术的进步和对 AI 驱动的计算需求的激增,数据中心进行了发展。 本文探讨了网络在塑造
    的头像 发表于 10-27 20:05 249次阅读
    适用于<b class='flag-5'>数据中心</b>和 <b class='flag-5'>AI</b> 时代的网络

    AI化革命:大厂如何重新定义数据中心的未来

    人工智能应用通常需要大规模的高性能计算资源,包括GPU和TPU等加速器。因此,数据中心需要具备足够的计算能力来支持这些应用的训练和推理。这意味着数据中心需要更多的服务器和更强大的网络基础设施,以确保高性能计算任务能够顺畅执行。
    的头像 发表于 10-10 16:29 549次阅读
    <b class='flag-5'>AI</b>化革命:大厂如何重新定义<b class='flag-5'>数据中心</b>的未来

    AI智能呼叫中心

    数据驱动决策以及人力成本节约,旨在深入剖析其核心优势和对企业的重要意义。、自动化处理AI智能呼叫中心通过引入自然语言处理(NLP)、机器学习和自动化技术,使得呼叫
    发表于 09-20 17:53

    Ai 部署的临界考虑电子指南

    %数据中心的工作量。平方GPU对培训工作量有效,但在人工智能的所有不同阶段都不需要GPU。在2021年的项研究中,56%的研究受访者将成本列为他们面临的最重大挑战实施AI/ML解决方案。
    发表于 08-04 07:25

    数据中心 AI 加速器:当前一代和下一代

    数据中心 AI 加速器:当前一代和下一代演讲ppt分享
    发表于 07-14 17:15 0次下载