0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于智能边缘计算的嵌入式深度学习推理解决方案

我快闭嘴 来源:千家网 作者:蒙光伟 2020-09-04 12:21 次阅读

在过去的几年中,人工智能领域已进入高速增长阶段,这在很大程度上受诸如深度学习(DL)和强化学习(RL)之类的机器学习方法的推动。这些技术的组合展示了在解决各种问题方面的空前性能,这些问题从以超人的角度玩Go到像专家一样诊断癌症。

在我们以前的博客中,智能物联网和雾计算趋势以及物联网中无处不在的计算机视觉的兴起,我们谈到了物联网中DL的一些有趣用例。应用将是广泛而深入的。它们将在未来几十年内刺激对新型处理器的需求。

深度学习工作流程概述

DL / RL创新正以惊人的速度发生(每年在众多与AI相关的会议上发表数千篇有关新算法的论文)。尽管预测最终的解决方案为时尚早,但硬件公司正在争相构建处理器、工具和框架。他们试图利用多年研究人员的经验来确定DL工作流程中的痛点和瓶颈。

训练DL模型的平台

让我们从培训平台开始。基于图形处理单元(GPU)的系统通常是训练高级DL模型的选择。Nvidia早已意识到将GPU用于通用高性能计算的优势。

GPU有数百个计算核心,它们支持大量的硬件线程和高吞吐量的浮点计算。 Nvidia开发了Compute Unified Device Architecture(CUDA)编程框架,使GPU友好地供科学家和机器学习专家使用。

CUDA工具链改善了耗时问题,为研究人员提供了一种灵活而友好的方式来实现高度复杂的算法。几年前,Nvidia恰当地发现了DL的机会,并为大多数DL运营不断开发CUDA支持。 Caffe、Torch和Tensorflow等标准框架均支持CUDA。

在AWS之类的云服务中,开发人员可以选择使用CPU还是GPU(更具体地说是Nvidia GPU)。平台的选择取决于神经网络的复杂性、预算和时间。基于GPU的系统通常可以比CPU减少训练时间几倍,但价格更高。

GPU / CPU的替代品

替代品来了。 Khronos在2009年提出了OpenCL,这是一种用于在各种硬件(例如CPU、GPU、DSPFPGA)上进行并行计算的开放标准。它将使其他处理器(如AMD GPU)进入DL培训市场,为开发人员提供更多选择。

但是,它在DL库支持方面仍落后于CUDA。希望这种情况在未来几年内会有所改善。英特尔还通过收购Nervana开发了针对DL培训定制的处理器。

DL推理的竞争格局

DL推理是一个竞争激烈的市场。通常可以根据用例的要求在多个级别上部署应用:

云/企业:图像分类、网络安全、文本分析、NLP等。

智能网关:生物识别、语音识别、智能代理等。

边缘端点:移动设备、智能相机等。

云推理

在Google、Facebook、百度或阿里巴巴等互联网巨头的大力推动下,云推理市场将实现巨大的增长。例如,Google Cloud和Microsoft Azure提供了非常强大的图像分类、自然语言处理和面部识别API,开发人员可以轻松地将其集成到他们的云应用中。

云推理平台将需要可靠地支持数百万并发用户。扩展吞吐量的能力至关重要。此外,降低能耗是控制服务运营成本的另一个重中之重。

在云推理空间上,除GPU外,数据中心还使用FPGA或定制处理器来使云推理应用更具成本效益和功效。例如,Microsoft Project Brainwave使用英特尔FPGA来证明在运行诸如CNN、LSTM等的DL算法时的强大性能和灵活性。

FPGA具有优势。硬件逻辑、计算内核和内存配置可针对特定类型的神经网络进行定制,从而使其更有效地处理预训练模型。但是,一个缺点是与CPU或CUDA相比编程困难。如上一节所述,OpenCL将有助于使FPGA对软件开发人员更加友好。

除了FPGA之外,Google还制造了定制的处理器,称为TPU。它是一种专注于高效矩阵计算的ASIC。但是,仅Google自己的服务支持该功能。

用于智能边缘计算的嵌入式DL推理

在边缘,DL推理解决方案需要解决针对不同用例和市场的多种需求。

自动驾驶平台

自动驾驶平台目前是最热门的市场,最新的DL和RL方法正在应用中,以实现最高水平的自动驾驶。 Nvidia一直领导着从Tegra到Xavier的几类DL SoC市场。 例如,Xavier SoC内置于Nvidia的Drive PX平台中,该平台可实现多达320个TFLOP。 它的目标是5级自动驾驶。

移动处理器

另一个快速增长的领域是移动应用处理器。 DL启用了智能手机上以前无法实现的新功能。 一个例子是苹果将神经引擎集成到A11 Bionic芯片中,从而使其能够在iPhone X上添加高精度面部锁定。

中国芯片制造海思半导体还发布了麒麟970处理器,该处理器具有神经处理单元(NPU)。 华为的一些最新智能手机(图4)已经使用新的DL处理器进行了设计。 例如,使用NPU,智能手机相机会“知道”正在查看的内容,并会根据场景的主体(例如人、植物、风景等)自动调整相机设置。

新架构

值得一提的是,有一类新的处理器,称为神经形态处理器,它紧密模仿人类大脑神经元和突触的机制。他们可以实现一种称为“脉冲神经网络(SNN)”的神经网络,它可以在空间和时间域中学习。

原则上,与现有的DL架构相比,它们具有更高的能源效率,并且在解决在线机器学习问题方面具有优势。

IBM的TrueNorth和英特尔的Loihi基于神经形态架构。研究人员正在探索这些芯片的功能,显示出一些潜力。目前尚不清楚何时将新型处理器准备用于广泛的商业用途。诸如Applied Brain Research和Brainchip之类的许多初创公司也专注于这一领域,开发工具和IP。

这是一个有趣的时代

在短短的几年内,AI / DL / RL / ML已成为许多行业的重要工具。从IP、处理器、系统设计到工具链和软件方法论的底层生态系统已经进入了快速的创新周期。新的处理器将支持许多以前无法实现的新物联网应用。

但是,物联网和机器学习应用仍在不断发展。芯片设计人员和开发人员将需要几代处理器才能提出正确的架构组合,从而满足各种市场的需求。在以后的文章中,我们将更深入地研究各种垂直领域的计算平台。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18275

    浏览量

    222141
  • 物联网
    +关注

    关注

    2868

    文章

    41622

    浏览量

    358351
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130556
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119906
收藏 人收藏

    评论

    相关推荐

    广和通发布多款基于高通智能模组的系列Linux边缘AI解决方案

    2024德国嵌入式展期间,广和通发布基于SC126、SC138、SC171L、SC171等多款智能模组的系列Linux边缘AI解决方案,这些解决方案
    的头像 发表于 04-11 14:45 155次阅读

    嵌入式热门发展方向有哪些?

    嵌入式人工智能可以运用机器学习技术对图像、视频进行高精度解析,从而实现图像识别、视频剪辑、视频智能关联应用等。在传感器网络系统中,嵌入式
    发表于 04-11 14:17

    嵌入式会越来越卷吗?

    更加智能和高效的嵌入式系统。这种技术的进步可能会不断推动嵌入式系统的发展,并赋予其更多能力和应用场景。 此外,“卷”也可能暗示着嵌入式系统与其他技术和平台的相互交织与融合。
    发表于 03-18 16:41

    嵌入式系统发展前景?

    应用领域。随着汽车电子化和智能化程度的不断提高,嵌入式系统将在汽车控制、安全系统、自动驾驶等方面发挥更为重要的作用。 工智能和机器学习技术的发展为
    发表于 02-22 14:09

    嵌入式学习步骤

    开发板上测试固件以及在实际设备上进行测试。 嵌入式系统的多样化发展,它将更为广泛地应用于各个领域,实现智能化、网络化、自动化的目标。同时,随着人工智能和机器
    发表于 02-02 15:24

    【先楫HPM5361EVK开发板试用体验】:4、TinyML测试(1)

    1、TinyML简介 TinyML是指在边缘设备上运行的机器学习模型,通常是在资源受限的嵌入式系统上运行的轻量级模型。这些设备可以是智能手机、传感器、微控制器或其他
    发表于 12-22 10:12

    深度学习在人工智能中的 8 种常见应用

    深度学习简介深度学习是人工智能(AI)的一个分支,它教神经网络学习
    的头像 发表于 12-01 08:27 964次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>在人工<b class='flag-5'>智能</b>中的 8 种常见应用

    Banana Pi为何选择rk3588开发与Jetson Nano引脚兼容的嵌入式产品

    应用的需求。 AI加速: RK3588集成了NPU(神经处理单元),可加速深度学习推理,使其成为处理人工智能任务的理想选择。 低功耗: 与其性能相比,RK3588具有出色的功耗表现,这
    发表于 11-02 12:30

    armsom:为何选择rk3588开发与Jetson Nano引脚兼容的嵌入式产品

    (神经处理单元),可加速深度学习推理,使其成为处理人工智能任务的理想选择。 低功耗: 与其性能相比,RK3588具有出色的功耗表现,这对于嵌入式
    发表于 10-18 17:35

    什么是嵌入式Linux?

    什么是嵌入式Linux? 对于很多电气、电信、通信专业的同学来说,对口专业就业方向主要有软、硬件两个方向。无论是对于学生还是就业而言,软硬件的开发学习嵌入式物联网在近年来无疑是一个摆在面前
    发表于 10-11 13:47

    深度学习框架区分训练还是推理

    深度学习框架区分训练还是推理深度学习框架是一个非常重要的技术,它们能够加速深度
    的头像 发表于 08-17 16:03 1028次阅读

    嵌入式学习路线你知道吗?

    中对指针的理解和应用。这一阶段的主要目的是学习编程语言、开发环境、和培养自己的编程思维,为进一步学习嵌入式开发打下良好的基础。 2学习ARM
    发表于 06-14 16:00

    什么人适合学习嵌入式开发?

    公司。 首先,针对大学毕业生来说,想要参加嵌入式学习最好是计算机、电子、电气、微电子、电子信息、通信、自动化、信息工程等相关专业。之所以对专业要求如此严格,是因为在嵌入式领域中大部分开
    发表于 06-07 15:55

    飞凌嵌入式RK3588开发板推理模型转换及测试

    RKNN(Rockchip Neural Network)是一种用于嵌入式设备的深度学习推理框架,它提供了一个端到端的
    的头像 发表于 06-05 16:11 773次阅读
    飞凌<b class='flag-5'>嵌入式</b>RK3588开发板<b class='flag-5'>推理</b>模型转换及测试

    深度学习边缘计算综述论文阅读笔记

    这是一篇关于深度学习边缘计算基础知识的综述,包含了深度学习DL的几种网络模型的介绍,
    发表于 05-18 14:36 0次下载
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>边缘</b><b class='flag-5'>计算</b>综述论文阅读笔记