0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU如何克服负载计算工作量提升带来的挑战

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-10-09 09:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)在AI和大数据时代到来之后,GPU单兵作战就变成了奢望,以现在的数据中心和超算为例,动辄就是成千上万张GPU,庞大的GPU网络在交换机和光模块的支持下代表了这个计算时代下最高的算力。但并非只有数据中心和超算里的GPU才需要这样的扩展性,嵌入式GPU和专业GPU同样如此。

物理限制的嵌入式GPU随着各种传感器的性能持续走高,譬如多线激光雷达、高分辨率的图像传感器等,我们对边缘计算单元尤其是GPU的需求也在持续增加。但在实现的过程中,我们还有一些物理限制没法消除,像是尺寸、重量和功耗等。

为了解决这一系列问题,美国政府和行业方案提供商们成立了SOSA联盟,以求开发开放的标准和最好的方案来实现高性价比、互操作性强的传感器系统。如何克服这些负载计算工作量提升带来的挑战,又能不增加宝贵的物理资源呢?答案自然还是将GPU、DPU等技术集成到嵌入式结构中去。

这类嵌入式GPU并非用来单独售卖,而是交给合作伙伴整合到不同的边缘计算系统中,比如研华、凌华、EIZO、Mercury Systems等,然后交付给美国空军、洛克希德·马丁这类军事、航空、工业客户。

即便选择了嵌入式结构,也还有着不少的路线,比如GPU、FPGAASIC等等。SOSA联盟主席,来自美国空军的Ilya Lipkin表示,如果想要更快的运行速度,快速部署软件,自然是选择GPU最好。但他们也面临着空间的问题,因为嵌入式GPU往往会被塞到3U或者6U的服务器里,他们想要做到更小的体积,甚至是手掌大小,可这样一来就不得不牺牲带宽、容量。

所以,虽然嵌入式GPU仍然在这些嵌入式传感系统中可以保持领先地位,但他们并没有像获得数据中心那样不算严格的空间要求。目前的MXM嵌入式GPU可以做到PCIe GPU五分之一的尺寸,但这对于嵌入式GPU的扩展性来说还不算完美。在边缘计算上,反倒是一些FPGA和ASIC方案在能耗比和扩展性上占优,如果嵌入式GPU不能做到更强大的扩展性,很有可能会被后来者颠覆。

显卡交火时代的结束不管是最新发布的RTX4090消费级显卡,还是RTX 6000这样的专业显卡,都象征了英伟达在新架构GPU上的又一次创新。在台积电4N工艺的加持下,无论是晶体管数目还是CUDA核心都做到了极致。

然而,原本变成了专属英伟达高端消费显卡和专业显卡的交火技术NVLink,在RTX4090和RTX 6000上却无处可寻,难不成英伟达彻底放弃显卡交火技术,也就此放弃NVLink了?根据英伟达CEO黄仁勋的说法,他们省下了NVLink连接器的空间,释放了更多的空间来处理更多的AI计算。

在上一代显卡的NVLink中,通过连接两块英伟达显卡,使用高端显卡和专业显卡的专业系统能够获得更高的带宽和双倍的显存容量。这样的提升对于个人或专业用户来说是极大的提升,那么为何英伟达会放弃NVLink呢?笔者也在英伟达GTC的一次分享会议上提出了这一问题。

英伟达方面表示,就RTX 6000这类专业显卡而言,他们取消NVLink后省下了足够的空间,塞入了更多的计算单元来提升单卡的性能。与此同时,虽然这些专业显卡的NVLink支持被取消,不代表英伟达放弃了这一技术。英伟达决心将NVLink的重心放在数据中心产品上,比如Grace CPU、Hopper GPU,他们通过NVLink Die to Die和Chip to Chip的互联可以实现更好的扩展性。

但这确实象征着一个时代的结束,过去AMD的交火和英伟达的SLI也是两家竞争最火热的一项技术,可随着AMD放弃了交火支持,英伟达的SLI在换成NVLink后如今也迎来了终结。

但显卡交火的落幕也情有可原,且不说这种互联方式的受众群体一再变少,要想享受到显卡交火的性能也需要软件追加更新支持。或许专业显卡的目标还是追求单卡性能就好,多卡互联的支持还是让给数据中心吧。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2577

    文章

    55503

    浏览量

    793947
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136069
  • 显卡
    +关注

    关注

    17

    文章

    2523

    浏览量

    71717
  • AI
    AI
    +关注

    关注

    91

    文章

    41108

    浏览量

    302595

原文标题:GPU在不同形态下的扩展性问题

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    成功案例:象帝先计算技术与Imagination合作——面向现代图形与计算工作负载的专业GPU

    为专业计算设计桌面GPU桌面GPU不仅用于游戏,还能加速从专业可视化、高级模拟到数据密集型计算在内的多种现代工作
    的头像 发表于 03-09 09:17 451次阅读
    成功案例:象帝先<b class='flag-5'>计算</b>技术与Imagination合作——面向现代图形与<b class='flag-5'>计算</b><b class='flag-5'>工作</b><b class='flag-5'>负载</b>的专业<b class='flag-5'>GPU</b>

    展望2026存储产业趋势:SSD将成AI性能提升关键

    AI和高性能计算的发展,正迎来关键转折点。业界仍在孜孜不倦地追求GPU的强大性能,在这种情况下,存储解决方案必须紧跟步伐,应对日益先进的计算工作负载
    的头像 发表于 02-26 16:48 722次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    需求进行了优化设计。无论是 CUDA 核心计算性能、实时渲染能力,还是 AI 推理效率,亦或显存带宽与容量的显著提升,均使得新一代 RTX PRO 5000 Blackwell GPU 能够轻松应对更复杂、更严苛的
    的头像 发表于 01-06 09:51 4036次阅读
    NVIDIA RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度评测

    Arm架构助力Azure Cobalt 100虚拟机工作负载性能提升

    的 32 个地区上线,并且持续快速扩展,为新一代数据中心工作负载带来了性能、能效和可扩展性的大幅提升。这些提升源于专为赋能现代云原生应用设计
    的头像 发表于 12-15 14:42 807次阅读
    Arm架构助力Azure Cobalt 100虚拟机<b class='flag-5'>工作</b><b class='flag-5'>负载</b>性能<b class='flag-5'>提升</b>

    汽车中的GPU是如何使用的?

    (HMI)的发展尤为迅猛。随着电子电气架构(EEA)的集中化,车辆对高性能计算能力的需求显著提升GPU(图形处理单元)的灵活性、可扩展性以及高效并行计算能力,使其成为支持这些创新应用
    的头像 发表于 12-03 14:45 9704次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    如何通过交替式几何处理实现更优的多核 GPU 扩展

    在理论上,通过增加更多GPU核心来提升性能似乎很简单:核心越多,性能越强。但在实践中,这是图形架构领域最棘手的挑战之一。虽然某些工作负载因其
    的头像 发表于 12-01 10:12 777次阅读
    如何通过交替式几何处理实现更优的多核 <b class='flag-5'>GPU</b> 扩展

    【产品介绍】Altair PBS Professional HPC工作负载管理器和作业调度管理系统

    ,并简化集群、云和超级计算机的管理——从最大的高性能计算(HPC)工作负载到数百万个小型、高吞吐作业。借助动态策略、AI
    的头像 发表于 09-19 17:03 807次阅读
    【产品介绍】Altair PBS Professional HPC<b class='flag-5'>工作</b><b class='flag-5'>负载</b>管理器和作业调度管理系统

    如何加速实时工作负载

    对于需要实时响应的数据中心工作负载,性能不仅是指原始吞吐或处理能力。挑战在于:在保持吞吐和能效的同时,实现确定性时延。
    的头像 发表于 09-10 15:36 809次阅读

    树莓派5超频指南:安全高效地提升性能!

    为什么要对树莓派5进行超频?对树莓派进行超频,可通过提高CPU和GPU的时钟频率来释放额外的性能。在需要额外处理能力以提高响应速度、减少延迟或处理更繁重工作负载的场景中,超频尤其有益。性能提升
    的头像 发表于 08-14 17:45 2887次阅读
    树莓派5超频指南:安全高效地<b class='flag-5'>提升</b>性能!

    如何在多显卡环境下配置OLLAMA实现GPU负载均衡

    本文将带你深入了解如何在多显卡环境下配置OLLAMA,实现GPU负载均衡,并分享生产环境中的最佳实践。无论你是刚接触GPU集群还是寻求性能优化的老手,这篇文章都能给你带来实用价值。
    的头像 发表于 07-24 14:12 4952次阅读

    别让 GPU 故障拖后腿,捷智算GPU维修室来救场!

    在AI浪潮汹涌的当下,GPU已然成为众多企业与科研机构的核心生产力。从深度学习模型训练,到影视渲染、复杂科学计算GPU凭借强大并行计算能力,极大
    的头像 发表于 07-17 18:56 1314次阅读
    别让 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>维修室来救场!

    大模型推理显存和计算估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来挑战。为了解决这一问题,本文将探讨大模型推理显存和计算
    发表于 07-03 19:43

    交流充电桩负载能效提升技术

    随着电动汽车普及率提升,交流充电桩的能效优化成为降低运营成本、减少能源浪费的核心课题。负载能效提升需从硬件设计、拓扑优化、智能控制及热管理等多维度展开,以下结合技术原理与实践方案进行阐述。 一、高效
    发表于 05-21 14:38

    摩尔线程GPU率先支持Qwen3全系列模型

    态兼容性和快速支持能力方面的卓越表现。MUSA架构凭借其强大的易用性,不仅显著降低了开发者在适配迁移过程中的工作量,更大幅提升了开发效率,为创新成果的快速落地提供了坚实助力。
    的头像 发表于 05-07 15:24 1133次阅读

    提升AI训练性能:GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化的GPU资源分配不仅能显著提升模型训练速度,还能实现计算
    的头像 发表于 05-06 11:17 1679次阅读
    <b class='flag-5'>提升</b>AI训练性能:<b class='flag-5'>GPU</b>资源优化的12个实战技巧