0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过GPU加速机器学习

电子设计 来源:电子设计 作者:电子设计 2022-02-10 17:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

早期的机器学习以搜索为基础,主要依靠进行过一定优化的暴力方法。但是随着机器学习逐渐成熟,它开始专注于加速技术已经很成熟的统计方法和优化问题。同时深度学习的问世更是带来原本可能无法实现的优化方法。本文将介绍现代机器学习如何找到兼顾规模和速度的新方法。

AI领域的转变

在本系列的第1部分中,我们探讨了AI的一些历史,以及从Lisp到现代编程语言以及深度学习等新型计算智能范式的历程。我们还讨论了人工智能的早期应用,它们依赖于经过优化的搜索形式、在海量数据集上进行训练的现代神经网络架构,同时解决了十年前还被认为不可能的难题。然而目前仍有两大难题有待解决,即:如何进一步加速这些应用,以及将它们限制在智能手机这样的功耗优化环境中。

今天,深度学习成为了多数加速技术的重点研究对象。深度学习是一种神经网络架构,它依赖于多层神经网络,其中的每一层都可以支持不同的功能以进行特征检测。这些深层神经网络依赖于可方便运用并行计算的矢量运算, 并为神经网络层分布式计算以及同层诸多神经元并行计算创造了条件。

通过GPU加速机器学习

图形处理单元(GPU)最初并不是用于加速深度学习应用。GPU是一种特殊的设备,用于加速输出到显示设备的帧缓冲区(内存)的构建。它将渲染后的图像存入帧缓冲区,而不是依靠处理器来完成。GPU由数以千计的独立内核组成,它们并行运行并执行矢量运算等特定类型的计算。尽管最初GPU专为视频应用而设计,但人们发现它们也可以加速矩阵乘法等科学计算。

开发人员既可以借助于GPU供应商提供的API将GPU处理功能集成到应用中,也可以采用适用于诸多不同环境的标准软件包方式。R编程语言和编程环境包含与GPU协同工作来加快处理速度的软件包,例如gputools、gmatrix和gpuR。GPU也可以通过numba软件包或Theano等各种库借助于Python进行编程。

通过这些软件包,任何有意将GPU加速应用于机器学习的人都可以达成愿望。但是工程师们还在研究更专门的方法。2019年,英特尔®以20亿美元的价格收购了Habana Labs, 一家致力于为服务器中的机器学习加速器开发定制芯片的公司。此外,英特尔还于2017年以150亿美元收购了自动驾驶芯片技术企业Mobileye。

定制芯片和指令

除了服务器和台式机中的GPU加速之外,用于机器学习的加速器正在试图超越传统平台,进军功耗受限的嵌入式设备和智能手机。这些加速器形式多样,包括U盘、API、智能手机神经网络加速器以及用于深度学习加速的矢量指令等。

适用于智能手机的深度学习

深度学习工具包已经从PC端延伸到智能手机,可为存在更多限制的网络提供支持。TensorFlow Lite和Core ML等框架已经部署在用于机器学习应用的移动设备上。Apple®最近发布了A12 Bionic芯片,这款芯片包括一个8核神经网络引擎,用于开发更加节能的神经网络应用, 从而扩展Apple智能手机上的深度学习应用。

Google发布了适用于Android® 8.1并具有机器学习功能的神经网络API (NNAPI), 目前已应用于Google Lens自然语言处理和图像识别背景下的Google Assistant。NNAPI与其他深度学习工具包相似,但它是针对Android智能手机环境及其资源限制而构建的。

深度学习USB

英特尔发布了其新版神经计算棒,以U盘的形式加速深度学习应用。TensorFlow、Caffe和PyTorch等众多机器学习框架都可以使用它。当没有GPU可用时,这将是一个不错的选择,同时还可以快速构建深度学习应用原型。

深度学习指令

最后,在机器学习计算从CPU转移到GPU的同时,英特尔使用新的指令优化了其Xeon指令集,来加速深度学习。这些被称为AVX-512扩展的新指令(所谓的矢量神经网络指令或VNNi)提高了卷积神经网络运算的处理量。

总结

GPU在机器学习中的应用实现了在众多应用中构建和部署大规模深度神经网络的能力。机器学习框架使构建深度学习应用变得简单。智能手机供应商也不甘人后,为受到诸多限制的应用集成了高能效的神经网络加速器(以及用于定制应用的API现在市面上还有其他可转移到USB硬件上的加速器,许多新的初创公司也在加大加速器领域的投入,为未来机器学习应用做准备。

审核编辑:何安

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134461
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    FPGA和GPU加速的视觉SLAM系统中特征检测器研究

    特征检测是SLAM系统中常见但耗时的模块,随着SLAM技术日益广泛应用于无人机等功耗受限平台,其效率优化尤为重要。本文首次针对视觉SLAM流程开展硬件加速特征检测器的对比研究,通过对比现代SoC平台
    的头像 发表于 10-31 09:30 302次阅读
    FPGA和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的视觉SLAM系统中特征检测器研究

    Imagination GPU 驱动更新:新增多项 Vulkan 与 OpenCL 扩展支持

    整理了本次更新的重点内容。Vulkan协作矩阵(CooperativeMatrix)支持为加速图形后处理、神经着色器、物理仿真以及GPU上的机器学习推理,DDK25
    的头像 发表于 10-13 09:21 553次阅读
    Imagination <b class='flag-5'>GPU</b> 驱动更新:新增多项 Vulkan 与 OpenCL 扩展支持

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件
    的头像 发表于 07-16 15:34 2634次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练数据来掌握诸如组装和检查之类的技能,而手动演
    的头像 发表于 07-14 11:49 761次阅读
    <b class='flag-5'>通过</b>NVIDIA Cosmos模型增强<b class='flag-5'>机器人学习</b>

    从图形处理到AI加速,一文看懂Imagination D系列GPU

    Imagination的D系列于2022年首次发布,见证了生成式AI从云端到智能手机等消费设备中普及。在云端,由于GPU的可编程性、可扩展性和快速处理AI工作负载的能力,GPU已成为高效的AI加速
    的头像 发表于 02-27 08:33 825次阅读
    从图形处理到AI<b class='flag-5'>加速</b>,一文看懂Imagination D系列<b class='flag-5'>GPU</b>

    GPU加速计算平台的优势

    传统的CPU虽然在日常计算任务中表现出色,但在面对大规模并行计算需求时,其性能往往捉襟见肘。而GPU加速计算平台凭借其独特的优势,吸引了行业内人士的广泛关注和应用。下面,AI部落小编为大家分享GPU
    的头像 发表于 02-23 16:16 758次阅读

    GPU 加速计算:突破传统算力瓶颈的利刃

    在数字化时代,数据呈爆炸式增长,传统的算力已难以满足复杂计算任务的需求。无论是人工智能的深度学习、大数据的分析处理,还是科学研究中的模拟计算,都对算力提出了极高的要求。而云 GPU 加速计算的出现
    的头像 发表于 02-17 10:36 517次阅读

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统机器
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    GPU加速云服务器怎么用的

    GPU加速云服务器是将GPU硬件与云计算服务相结合,通过云服务提供商的平台,用户可以根据需求灵活租用带有GPU资源的虚拟机实例。那么,
    的头像 发表于 12-26 11:58 849次阅读

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 699次阅读

    Triton编译器在机器学习中的应用

    多种深度学习框架,如TensorFlow、PyTorch、ONNX等,使得开发者能够轻松地将不同框架下训练的模型部署到GPU上。 2. Triton编译器的工作原理 Triton编译器通过以下几个步骤
    的头像 发表于 12-24 18:13 1629次阅读

    zeta在机器学习中的应用 zeta的优缺点分析

    的应用(基于低功耗广域物联网技术ZETA) ZETA作为一种低功耗广域物联网(LPWAN)技术,虽然其直接应用于机器学习的场景可能并不常见,但它可以通过提供高效、稳定的物联网通信支持,间接促进
    的头像 发表于 12-20 09:11 1626次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟:通过加速对话框启用,打开求解器对话框,点击“
    发表于 12-16 14:25

    深度学习工作负载中GPU与LPU的主要差异

    当前,生成式AI模型的参数规模已跃升至数十亿乃至数万亿之巨,远远超出了传统CPU的处理范畴。在此背景下,GPU凭借其出色的并行处理能力,已成为人工智能加速领域的中流砥柱。然而,就在GPU备受关注之时
    的头像 发表于 12-09 11:01 3910次阅读
    深度<b class='flag-5'>学习</b>工作负载中<b class='flag-5'>GPU</b>与LPU的主要差异