0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过GPU加速机器学习

电子设计 来源:电子设计 作者:电子设计 2022-02-10 17:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

早期的机器学习以搜索为基础,主要依靠进行过一定优化的暴力方法。但是随着机器学习逐渐成熟,它开始专注于加速技术已经很成熟的统计方法和优化问题。同时深度学习的问世更是带来原本可能无法实现的优化方法。本文将介绍现代机器学习如何找到兼顾规模和速度的新方法。

AI领域的转变

在本系列的第1部分中,我们探讨了AI的一些历史,以及从Lisp到现代编程语言以及深度学习等新型计算智能范式的历程。我们还讨论了人工智能的早期应用,它们依赖于经过优化的搜索形式、在海量数据集上进行训练的现代神经网络架构,同时解决了十年前还被认为不可能的难题。然而目前仍有两大难题有待解决,即:如何进一步加速这些应用,以及将它们限制在智能手机这样的功耗优化环境中。

今天,深度学习成为了多数加速技术的重点研究对象。深度学习是一种神经网络架构,它依赖于多层神经网络,其中的每一层都可以支持不同的功能以进行特征检测。这些深层神经网络依赖于可方便运用并行计算的矢量运算, 并为神经网络层分布式计算以及同层诸多神经元并行计算创造了条件。

通过GPU加速机器学习

图形处理单元(GPU)最初并不是用于加速深度学习应用。GPU是一种特殊的设备,用于加速输出到显示设备的帧缓冲区(内存)的构建。它将渲染后的图像存入帧缓冲区,而不是依靠处理器来完成。GPU由数以千计的独立内核组成,它们并行运行并执行矢量运算等特定类型的计算。尽管最初GPU专为视频应用而设计,但人们发现它们也可以加速矩阵乘法等科学计算。

开发人员既可以借助于GPU供应商提供的API将GPU处理功能集成到应用中,也可以采用适用于诸多不同环境的标准软件包方式。R编程语言和编程环境包含与GPU协同工作来加快处理速度的软件包,例如gputools、gmatrix和gpuR。GPU也可以通过numba软件包或Theano等各种库借助于Python进行编程。

通过这些软件包,任何有意将GPU加速应用于机器学习的人都可以达成愿望。但是工程师们还在研究更专门的方法。2019年,英特尔®以20亿美元的价格收购了Habana Labs, 一家致力于为服务器中的机器学习加速器开发定制芯片的公司。此外,英特尔还于2017年以150亿美元收购了自动驾驶芯片技术企业Mobileye。

定制芯片和指令

除了服务器和台式机中的GPU加速之外,用于机器学习的加速器正在试图超越传统平台,进军功耗受限的嵌入式设备和智能手机。这些加速器形式多样,包括U盘、API、智能手机神经网络加速器以及用于深度学习加速的矢量指令等。

适用于智能手机的深度学习

深度学习工具包已经从PC端延伸到智能手机,可为存在更多限制的网络提供支持。TensorFlow Lite和Core ML等框架已经部署在用于机器学习应用的移动设备上。Apple®最近发布了A12 Bionic芯片,这款芯片包括一个8核神经网络引擎,用于开发更加节能的神经网络应用, 从而扩展Apple智能手机上的深度学习应用。

Google发布了适用于Android® 8.1并具有机器学习功能的神经网络API (NNAPI), 目前已应用于Google Lens自然语言处理和图像识别背景下的Google Assistant。NNAPI与其他深度学习工具包相似,但它是针对Android智能手机环境及其资源限制而构建的。

深度学习USB

英特尔发布了其新版神经计算棒,以U盘的形式加速深度学习应用。TensorFlow、Caffe和PyTorch等众多机器学习框架都可以使用它。当没有GPU可用时,这将是一个不错的选择,同时还可以快速构建深度学习应用原型。

深度学习指令

最后,在机器学习计算从CPU转移到GPU的同时,英特尔使用新的指令优化了其Xeon指令集,来加速深度学习。这些被称为AVX-512扩展的新指令(所谓的矢量神经网络指令或VNNi)提高了卷积神经网络运算的处理量。

总结

GPU在机器学习中的应用实现了在众多应用中构建和部署大规模深度神经网络的能力。机器学习框架使构建深度学习应用变得简单。智能手机供应商也不甘人后,为受到诸多限制的应用集成了高能效的神经网络加速器(以及用于定制应用的API现在市面上还有其他可转移到USB硬件上的加速器,许多新的初创公司也在加大加速器领域的投入,为未来机器学习应用做准备。

审核编辑:何安

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136212
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AMD正式推出Instinct MI350P PCIe GPU加速

    AMD于2026年5月8日正式推出Instinct MI350P PCIe GPU加速卡,作为四年来首款面向企业级市场的PCIe接口Instinct系列产品,其以“精简架构+极致能效”为核心,专为AI推理任务优化,实现从部署到运行的“开箱即用”体验,重新定义企业级AI
    的头像 发表于 05-08 11:25 660次阅读

    GPU负重前行:一组实验看懂视频色彩空间转换的真相

    处理海量图形数据。视频处理涉及解码、编码、转码、特效、渲染等重负载任务,传统CPU逐个处理效率低下,GPU通过硬件加速释放CPU资源,成为视频处理的性能担当。实测对
    的头像 发表于 04-17 11:35 171次阅读
    <b class='flag-5'>GPU</b>负重前行:一组实验看懂视频色彩空间转换的真相

    基于openEuler平台的CPU、GPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样算力支持 方面表现出色,能够高效调度 CPU、GPU、FPGA 及 AI 加速器,实现异构计算协同。
    的头像 发表于 04-08 11:02 1411次阅读
    基于openEuler平台的CPU、<b class='flag-5'>GPU</b>与FPGA异构<b class='flag-5'>加速</b>实战

    RSoft GPU加速技术重塑光子元件设计效率革命

    设计效率。为了解决这个问题,RSoft 光子器件工具的 FullWAVE FDTD 模组中引入 GPU 加速通过 NVIDIA GPU 的平行运算能力,使得模拟速度相比 CPU 计算
    的头像 发表于 01-12 14:09 478次阅读
    RSoft <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>技术重塑光子元件设计效率革命

    沐曦股份GPU加速技术助力药物研发降本增效

    沐曦股份科学计算团队近期取得突破性进展,成功将主流分子动力学模拟引擎GROMACS中的FEP计算全流程部署于GPU执行,并实现2.5倍性能提升,相关成果获得GROMACS官方团队的高度认可,该GPU
    的头像 发表于 12-02 15:58 947次阅读

    如何通过交替式几何处理实现更优的多核 GPU 扩展

    在理论上,通过增加更多GPU核心来提升性能似乎很简单:核心越多,性能越强。但在实践中,这是图形架构领域最棘手的挑战之一。虽然某些工作负载因其独立特性能实现良好扩展,但另一些工作负载(尤其是几何
    的头像 发表于 12-01 10:12 836次阅读
    如何<b class='flag-5'>通过</b>交替式几何处理实现更优的多核 <b class='flag-5'>GPU</b> 扩展

    FPGA和GPU加速的视觉SLAM系统中特征检测器研究

    特征检测是SLAM系统中常见但耗时的模块,随着SLAM技术日益广泛应用于无人机等功耗受限平台,其效率优化尤为重要。本文首次针对视觉SLAM流程开展硬件加速特征检测器的对比研究,通过对比现代SoC平台
    的头像 发表于 10-31 09:30 945次阅读
    FPGA和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的视觉SLAM系统中特征检测器研究

    NVIDIA Isaac Lab推动机器人技术突破

    Isaac Lab 是 Isaac Gym 的替代版本,该框架已将 GPU 原生机器人仿真扩展至大规模多模态学习的全新领域。Isaac Lab 整合了 GPU 并行的物理真实的仿真、逼
    的头像 发表于 10-21 11:20 1431次阅读

    Imagination GPU 驱动更新:新增多项 Vulkan 与 OpenCL 扩展支持

    整理了本次更新的重点内容。Vulkan协作矩阵(CooperativeMatrix)支持为加速图形后处理、神经着色器、物理仿真以及GPU上的机器学习推理,DDK25
    的头像 发表于 10-13 09:21 1107次阅读
    Imagination <b class='flag-5'>GPU</b> 驱动更新:新增多项 Vulkan 与 OpenCL 扩展支持

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件
    的头像 发表于 07-16 15:34 3180次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练数据来掌握诸如组装和检查之类的技能,而手动演
    的头像 发表于 07-14 11:49 1409次阅读
    <b class='flag-5'>通过</b>NVIDIA Cosmos模型增强<b class='flag-5'>机器人学习</b>

    硅谷GPU云服务器是什么意思?使用指南详解

    硅谷GPU云服务器本质上是一种IaaS(基础设施即服务)产品,它将物理服务器上的GPU资源通过虚拟化技术分割成可弹性调配的云服务。与普通CPU云服务器相比,GPU服务器最大的特点是搭载
    的头像 发表于 06-16 09:41 796次阅读

    智算加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。你有没有发现,现在越来越多的AI企业不光用GPU,也不怎么迷信TPU了?他们嘴里多了一个新词儿——智算加速卡。
    的头像 发表于 06-05 13:39 2032次阅读
    智算<b class='flag-5'>加速</b>卡是什么东西?它真能在AI战场上干掉<b class='flag-5'>GPU</b>和TPU!