0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

释放GPU的处理潜力

星星科技指导员 来源:嵌入式计算设计 作者:DUNCAN YOUNG 2022-11-07 15:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

高性能图形处理单元 (GPU) 的内部计算架构已从固定功能图形执行单元发展为完全可编程的单指令多数据 (SIMD) 处理器阵列。这种演变是由视频游戏社区的需求推动的,即并行执行通用物理计算,以使烟雾、碎片、火灾和流体等行为更加逼真。将这些相同类型的重复并行计算卸载和加速到 GPU 上的能力为雷达、声纳和图像处理等军事技术提供了巨大的潜力。高效实施的关键是新一代工具,如 OpenCL 和 CUDA,它们集成了跨异构 CPU/GPU 架构的代码开发以及支持它们的内存和 I/O 带宽。

单边处理光线

高性能 GPU 设备的核心通常具有多达 128 个 32 位单精度处理器内核,主频为 1 GHz 或更高。它们被组织为并行 SIMD 阵列,以便处理器组可以在不同的数据集上并行执行相同的指令。作为 GPU 运行时,主要要求是利用动画 3D 图形功能,例如着色器。然而,GPU 正在从特定的着色器处理器演变而成为更通用的数学处理器,现在称为“流处理器”。借助正确的工具,GPU 可以更广泛地应用于加速多种基于 PC 的应用程序,例如基因研究、地震处理、气象处理和 DSP,其成本远低于其他更具体的硬件加速形式。

一家主要的GPU制造商NVIDIA开发了一种称为CUDA的软件环境,以将GPU的潜力释放到这些其他应用领域。CUDA 通过允许通过隐藏 GPU 流处理器及其与 CPU 接口的抽象函数库进行内联 C 代码开发来支持 CPU 和 GPU 的组合。这提供了一个非常灵活的编程接口,并允许将来对流处理器进行增长甚至根本性更改,而不会影响现有代码。为了减少错误的范围,CUDA 采用简单的编程模型,在内部管理多个线程以优化处理器利用率,因此无需编写显式线程代码。

没有图形的图形 GPU

矛盾的是,会有一类嵌入式应用程序根本不会生成任何本地图形输出。通常,此类可能包括无人机或水下遥控车辆(ROV)或许多其他类型的无人传感器中的图像处理。具有 GPU 的嵌入式 PC 成为图像增强、稳定、模式识别、目标跟踪、视频编码或加密/解密的理想平台。这些都是可以用常规 C 代码编写以在高性能 PC 上运行的应用程序,但可以通过 GPU 流处理器加速以运行速度快几个数量级。GPU 提供已经集成到许多 PC 配置中的通用并行处理,并且通过使用现成的工具(如 CUDA、MathWorksMATLAB 和移植的 VSIPL DSP 库)来构建、测试和验证应用程序,需要的专业技能低于 FPGA 开发。

PCI Express 是性能的关键

嵌入式传感器处理应用需要高数据带宽来接收和处理连续的传入原始图像数据流。CUDA 处理多线程并因此最大化 GPU SIMD 阵列的处理负载的能力取决于外部接口及其本地内存接口的性能。高端GPU设备将使用16通道PCI Express 2.0,是早期PCI Express 1.0数据速率的两倍,理论上每通道500 MBps。对于坚固耐用的嵌入式应用,这非常适合VPX (ANSI/VITA 46)封装标准的流行3U和6U格式,并具有扩展的高速连接性。GE Fanuc Intelligent Platforms的MAGIC1强固型嵌入式PC(如图1所示)基于3U VPX外形,并经过重新设计和增强,以支持NVIDIA支持CUDA的GPU。虽然这种嵌入式PC非常适合3U格式,但6U配置文件还具有空间和更大的连接性,有可能基于许多多核处理器和GPU使用PCI Express 2.0作为互连的新型强大多计算引擎。

GPU 正在迅速发展,创造了一种处理能力,可在许多不同的市场中得到广泛的应用。CUDA 和类似的开发环境提供了对这种未开发性能储备的可访问性。因此,坚固耐用的军事和航空航天领域似乎将改变复杂、耗时的传感器应用的开发、测试、验证和成功部署方式。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20332

    浏览量

    254893
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136062
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPU负重前行:一组实验看懂视频色彩空间转换的真相

    处理海量图形数据。视频处理涉及解码、编码、转码、特效、渲染等重负载任务,传统CPU逐个处理效率低下,GPU通过硬件加速释放CPU资源,成为视
    的头像 发表于 04-17 11:35 96次阅读
    <b class='flag-5'>GPU</b>负重前行:一组实验看懂视频色彩空间转换的真相

    如何在 VisionFive v2 上使用外部 GPU

    如果旧的 amd gpu 在 VisionFive V2 上运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将 GPU 连接到 VisionFive v2?
    发表于 03-13 06:38

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的一大优势是允许开发者基于其构建自定义的 DS
    的头像 发表于 02-10 10:31 518次阅读

    恩智浦全新S32N7处理释放软件定义汽车(SDV)的全部潜力

    · S32N7处理器系列实现核心车辆功能的全面数字化和集中化 · 汽车制造商能够降低系统复杂性,并在整个车队释放AI驱动的创新潜力 · 博世率先在其车辆集成平台中部署S32N7 拉斯维加斯国际消费
    的头像 发表于 01-19 17:06 6.6w次阅读
    恩智浦全新S32N7<b class='flag-5'>处理</b>器<b class='flag-5'>释放</b>软件定义汽车(SDV)的全部<b class='flag-5'>潜力</b>

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
    的头像 发表于 12-13 10:12 1421次阅读
    在Python中借助NVIDIA CUDA Tile简化<b class='flag-5'>GPU</b>编程

    汽车中的GPU是如何使用的?

    (HMI)的发展尤为迅猛。随着电子电气架构(EEA)的集中化,车辆对高性能计算能力的需求显著提升,GPU(图形处理单元)的灵活性、可扩展性以及高效并行计算能力,使其成为支持这些创新应用的核心组件
    的头像 发表于 12-03 14:45 9700次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    如何通过交替式几何处理实现更优的多核 GPU 扩展

    在理论上,通过增加更多GPU核心来提升性能似乎很简单:核心越多,性能越强。但在实践中,这是图形架构领域最棘手的挑战之一。虽然某些工作负载因其独立特性能实现良好扩展,但另一些工作负载(尤其是几何处理
    的头像 发表于 12-01 10:12 776次阅读
    如何通过交替式几何<b class='flag-5'>处理</b>实现更优的多核 <b class='flag-5'>GPU</b> 扩展

    戴尔科技PowerStore如何释放QLC闪存全部潜力

    转眼间,QLC SSD问世已有几个年头,从问世之初被质疑的“短命鬼”,到如今市场的又一大主流选择,QLC和它的前辈们一样,在批判中前进,在螺旋中上升。
    的头像 发表于 11-30 09:25 785次阅读

    基于米尔RK3576的环视实时性方案解析

    ,造成严重卡顿和延迟,也使得CPU再无余力处理其他系统任务,此方案不具备产品化价值。GPU方案:潜力巨大,稳定性是当前关键瓶颈卓越的算力体现: 在畸变矫正和投影变换环节,Mali-G52 GP
    发表于 11-28 16:57

    Dell PowerScale助力企业充分释放GPU投资价值

    尽管算力层面的“军备竞赛”仍在持续加剧,但随着GPU集群规模扩展至数千台服务器,存力作为支撑算力持续运行的关键要素,已获得与算力同等重要的战略地位。
    的头像 发表于 11-06 09:06 835次阅读

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在驱动 KUAE 集群高效运转方面的核心技术与创新成果。   摩尔线程
    的头像 发表于 07-28 13:47 6414次阅读
    摩尔线程吴庆详解 MUSA 软件栈:以技术创新<b class='flag-5'>释放</b> KUAE 集群潜能,引领 <b class='flag-5'>GPU</b> 计算新高度​

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发
    的头像 发表于 05-30 10:36 2019次阅读
    <b class='flag-5'>GPU</b>架构深度解析

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动
    的头像 发表于 05-29 10:12 4916次阅读