0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

释放GPU的处理潜力

星星科技指导员 来源:嵌入式计算设计 作者:DUNCAN YOUNG 2022-11-07 15:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

高性能图形处理单元 (GPU) 的内部计算架构已从固定功能图形执行单元发展为完全可编程的单指令多数据 (SIMD) 处理器阵列。这种演变是由视频游戏社区的需求推动的,即并行执行通用物理计算,以使烟雾、碎片、火灾和流体等行为更加逼真。将这些相同类型的重复并行计算卸载和加速到 GPU 上的能力为雷达、声纳和图像处理等军事技术提供了巨大的潜力。高效实施的关键是新一代工具,如 OpenCL 和 CUDA,它们集成了跨异构 CPU/GPU 架构的代码开发以及支持它们的内存和 I/O 带宽。

单边处理光线

高性能 GPU 设备的核心通常具有多达 128 个 32 位单精度处理器内核,主频为 1 GHz 或更高。它们被组织为并行 SIMD 阵列,以便处理器组可以在不同的数据集上并行执行相同的指令。作为 GPU 运行时,主要要求是利用动画 3D 图形功能,例如着色器。然而,GPU 正在从特定的着色器处理器演变而成为更通用的数学处理器,现在称为“流处理器”。借助正确的工具,GPU 可以更广泛地应用于加速多种基于 PC 的应用程序,例如基因研究、地震处理、气象处理和 DSP,其成本远低于其他更具体的硬件加速形式。

一家主要的GPU制造商NVIDIA开发了一种称为CUDA的软件环境,以将GPU的潜力释放到这些其他应用领域。CUDA 通过允许通过隐藏 GPU 流处理器及其与 CPU 接口的抽象函数库进行内联 C 代码开发来支持 CPU 和 GPU 的组合。这提供了一个非常灵活的编程接口,并允许将来对流处理器进行增长甚至根本性更改,而不会影响现有代码。为了减少错误的范围,CUDA 采用简单的编程模型,在内部管理多个线程以优化处理器利用率,因此无需编写显式线程代码。

没有图形的图形 GPU

矛盾的是,会有一类嵌入式应用程序根本不会生成任何本地图形输出。通常,此类可能包括无人机或水下遥控车辆(ROV)或许多其他类型的无人传感器中的图像处理。具有 GPU 的嵌入式 PC 成为图像增强、稳定、模式识别、目标跟踪、视频编码或加密/解密的理想平台。这些都是可以用常规 C 代码编写以在高性能 PC 上运行的应用程序,但可以通过 GPU 流处理器加速以运行速度快几个数量级。GPU 提供已经集成到许多 PC 配置中的通用并行处理,并且通过使用现成的工具(如 CUDA、MathWorksMATLAB 和移植的 VSIPL DSP 库)来构建、测试和验证应用程序,需要的专业技能低于 FPGA 开发。

PCI Express 是性能的关键

嵌入式传感器处理应用需要高数据带宽来接收和处理连续的传入原始图像数据流。CUDA 处理多线程并因此最大化 GPU SIMD 阵列的处理负载的能力取决于外部接口及其本地内存接口的性能。高端GPU设备将使用16通道PCI Express 2.0,是早期PCI Express 1.0数据速率的两倍,理论上每通道500 MBps。对于坚固耐用的嵌入式应用,这非常适合VPX (ANSI/VITA 46)封装标准的流行3U和6U格式,并具有扩展的高速连接性。GE Fanuc Intelligent Platforms的MAGIC1强固型嵌入式PC(如图1所示)基于3U VPX外形,并经过重新设计和增强,以支持NVIDIA支持CUDA的GPU。虽然这种嵌入式PC非常适合3U格式,但6U配置文件还具有空间和更大的连接性,有可能基于许多多核处理器和GPU使用PCI Express 2.0作为互连的新型强大多计算引擎。

GPU 正在迅速发展,创造了一种处理能力,可在许多不同的市场中得到广泛的应用。CUDA 和类似的开发环境提供了对这种未开发性能储备的可访问性。因此,坚固耐用的军事和航空航天领域似乎将改变复杂、耗时的传感器应用的开发、测试、验证和成功部署方式。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20148

    浏览量

    247138
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134461
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    汽车中的GPU是如何使用的?

    (HMI)的发展尤为迅猛。随着电子电气架构(EEA)的集中化,车辆对高性能计算能力的需求显著提升,GPU(图形处理单元)的灵活性、可扩展性以及高效并行计算能力,使其成为支持这些创新应用的核心组件
    的头像 发表于 12-03 14:45 5458次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    如何通过交替式几何处理实现更优的多核 GPU 扩展

    在理论上,通过增加更多GPU核心来提升性能似乎很简单:核心越多,性能越强。但在实践中,这是图形架构领域最棘手的挑战之一。虽然某些工作负载因其独立特性能实现良好扩展,但另一些工作负载(尤其是几何处理
    的头像 发表于 12-01 10:12 361次阅读
    如何通过交替式几何<b class='flag-5'>处理</b>实现更优的多核 <b class='flag-5'>GPU</b> 扩展

    基于米尔RK3576的环视实时性方案解析

    ,造成严重卡顿和延迟,也使得CPU再无余力处理其他系统任务,此方案不具备产品化价值。GPU方案:潜力巨大,稳定性是当前关键瓶颈卓越的算力体现: 在畸变矫正和投影变换环节,Mali-G52 GP
    发表于 11-28 16:57

    Dell PowerScale助力企业充分释放GPU投资价值

    尽管算力层面的“军备竞赛”仍在持续加剧,但随着GPU集群规模扩展至数千台服务器,存力作为支撑算力持续运行的关键要素,已获得与算力同等重要的战略地位。
    的头像 发表于 11-06 09:06 520次阅读

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在驱动 KUAE 集群高效运转方面的核心技术与创新成果。   摩尔线程
    的头像 发表于 07-28 13:47 5509次阅读
    摩尔线程吴庆详解 MUSA 软件栈:以技术创新<b class='flag-5'>释放</b> KUAE 集群潜能,引领 <b class='flag-5'>GPU</b> 计算新高度​

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发
    的头像 发表于 05-30 10:36 1322次阅读
    <b class='flag-5'>GPU</b>架构深度解析

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动
    的头像 发表于 05-29 10:12 2991次阅读

    可以手动构建imx-gpu-viv吗?

    使用 imx-gpu-viv-6.4.3.p4.2.aarch64.bin。 https://www.nxp.com/lgfiles/NMG/MAD/YOCTO//imx-gpu-viv-6.4.3.p4.2-aarch64.bin 我需要
    发表于 03-28 06:35

    OpenVINO™检测到GPU,但网络无法加载到GPU插件,为什么?

    OpenVINO™安装在旧的 Windows 10 版本 Windows® 10 (RS1) 上。 已安装 GPU 驱动程序版本 25.20.100.6373,检测到 GPU,但网络无法加载
    发表于 03-05 06:01

    GoPoint嵌入式开发平台 释放i.MX潜力 简化Linux开发

    GoPoint是一个以用户为中心的平台,旨在释放恩智浦i.MX微处理器的潜力,从而优化基于i.MX应用处理器的开发。凭借丰富的交互式演示库和强大的技术支持,GoPoint帮助开发人员更
    发表于 02-28 10:07 1068次阅读
    GoPoint嵌入式开发平台 <b class='flag-5'>释放</b>i.MX<b class='flag-5'>潜力</b> 简化Linux开发

    从图形处理到AI加速,一文看懂Imagination D系列GPU

    Imagination的D系列于2022年首次发布,见证了生成式AI从云端到智能手机等消费设备中普及。在云端,由于GPU的可编程性、可扩展性和快速处理AI工作负载的能力,GPU已成为高效的AI加速器
    的头像 发表于 02-27 08:33 825次阅读
    从图形<b class='flag-5'>处理</b>到AI加速,一文看懂Imagination D系列<b class='flag-5'>GPU</b>

    碳化硅MOSFET相对IGBT为什么可以压榨更多应用潜力

    碳化硅(SiC)MOSFET相较于传统IGBT能够释放更多潜力的核心原因在于其材料特性与器件物理的革新,具体体现在高频高效、高温耐受、低损耗设计以及系统级优化等方面。以下是技术细节的逐层分析:
    的头像 发表于 02-05 14:38 1262次阅读
    碳化硅MOSFET相对IGBT为什么可以压榨更多应用<b class='flag-5'>潜力</b>?

    《CST Studio Suite 2024 GPU加速计算指南》

    指定GPU设备数量。 - 批处理模式:使用命令行开关(-withgpu),并给出了Windows和Linux下的使用示例。 5. NVIDIA使用指南 - ECC功能:可检测和纠正GPU内存
    发表于 12-16 14:25