0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

硬件、软件和网络互联技术详解

SDNLAB 来源:SDNLAB 2024-01-08 10:53 次阅读

AI、元宇宙、大模型......每一个火爆名词的背后都代表着巨大的算力需求。据了解,AI模型所需的算力每100天就要翻一倍,远超摩尔定律的18-24个月。5年后,AI所需的算力规模将是今天的100万倍以上。

在这种背景下,加速计算提供了必要的计算能力和内存,其解决方案涉及硬件、软件和网络的组合。接下来,我们将回顾和梳理常见的硬件加速器,如GPUASIC、TPU、FPGA等,以及如CUDA、OpenCL等软件解决方案。此外,还将探讨PCIe、NVLink、CXL、InfiniBand、以太网等网络互联技术。

硬件、软件和网络互联

摩尔定律的终结标志着 CPU 性能增长的放缓,人们开始对当前价值 1 万亿美元的纯 CPU 服务器市场的未来发展产生质疑。随着对更强大的应用程序和系统的需求不断增加,传统的 CPU 难以与加速计算竞争。与传统CPU相比,加速计算利用 GPU、ASIC、TPU 和 FPGA 等专用硬件来加速某些任务的执行。

加速计算适用于可并行化的任务,如HPC、AI/ML、深度学习和大数据分析等。通过将某些类型的工作负载卸载到专用硬件设备上,加速计算可极大提高性能和效率。

硬件加速器

硬件加速器是加速计算的基础,包括图形处理单元 (GPU)、专用集成电路 (ASIC) 和现场可编程门阵列 (FPGA)。

wKgaomWbY7iACb_AAADiB0iysgU226.png

GPU广泛应用于各种计算密集型任务,擅长同时执行许多复杂的计算,并行计算能力使其成为处理复杂数据集和大规模神经网络训练的理想选择。

ASIC是为执行特定任务而设计的定制芯片,在速度、功耗和整体性能方面具有一定优势。神经处理单元 (NPU) 和深度学习处理器 (DLP) 也属于ASIC,旨在加速 AI 工作负载。谷歌的的张量处理单元 (TPU)也是ASIC家族的一员,专为加速机器学习工作负载而设计。

FPGA是一种半导体集成电路,与通用 CPU 相比,FPGA可以重新编程,更有效地执行特定任务。与 ASIC、GPU 和 CPU 中的固定架构不同,FPGA 硬件包括可配置逻辑块和可编程互连。这样就算在芯片发货和部署后,也可以进行功能更新。

尽管FPGA因其灵活性在HPC和AI/ML领域备受青睐,但与GPU和专用ASIC相比,其开发速度较慢,软件生态系统也相对不够完善。由于其编程复杂性,FPGA 在人工智能工作负载中的采用较为缓慢,专业工程师的数量也有限。

软件

加速计算利用API 和编程模型(如CUDA和OpenCL)将软件和硬件加速器连接,API 和编程模型使开发人员能够编写在 GPU 上运行的代码,并利用软件库来高效实现算法

CUDA(统一计算架构)是英伟达开发的专有 GPU 编程框架,与英伟达的 GPU 紧密集成,充分利用了 GPU 的并行计算能力和专用硬件优化。CUDA 提供了更底层的编程接口,允许开发人员直接访问 GPU 的内部特性和功能。

CUDA 的生态系统主要集中在英伟达的 GPU 上,由于其专用硬件优化和与 GPU 的紧密集成,可以提供更高的性能。英伟达还提供了丰富的开发工具和库,使得 CUDA 在深度学习、科学计算等领域得到广泛应用。

OpenCL(开放计算语言)是一个开放的、跨平台的编程框架,由 Khronos Group 组织开发和维护。它的设计目标是支持各种硬件平台,包括不仅限于 GPU 的处理器单元,如 CPU、FPGA 等。OpenCL 使用基于 C 语言的编程模型,允许开发人员利用各种设备上的并行计算能力。

OpenCL 拥有更广泛的硬件支持,包括多个厂商的 GPU、CPU 以及其他加速设备。这意味着开发人员可以在不同的硬件平台上使用相同的代码进行开发,并且能够更灵活地适应不同的需求。

OpenCL和CUDA都是强大的GPU加速计算框架,CUDA在与英伟达GPU的紧密结合下提供了更高性能,适用于专注于英伟达平台开发者;而OpenCL具有跨平台兼容性和多厂商支持的优势,适用于需要在不同硬件平台上进行开发的场景。

网络互联

网络在加速计算中发挥着至关重要的作用,它促进了数以万计的处理单元(例如 GPU、内存和存储设备)之间的通信。各种网络技术被用来实现计算设备之间的通信,多个设备之间共享数据。常见的技术包括:

PCI Express (PCIe)是一种高速串行计算机扩展总线标准,主要用于连接CPU与各类高速外围设备,如GPU、SSD、网卡、显卡等。与传统的PCI总线相比,PCIe采用点对点连接方式,具有更高的性能和可扩展性。伴随着AI、自动驾驶、AR/VR等应用快速发展,计算要求愈来愈高,处理器I/O带宽的需求每三年实现翻番,PCIe也大致按照3年一代的速度更新演进,每一代升级几乎能够实现传输速率的翻倍,并有着良好的向后兼容性。

2003 年PCIe 1.0 正式发布,可支持每通道传输速率为 250MB/s,总传输速率为 2.5 GT/s。

2007 年推出PCIe 2.0 规范。在 PCIe 1.0 的基础上将总传输速率提高了一倍,达到 5 GT/s,每通道传输速率从 250 MB/s 上升至 500 MB/s。

2022 年 PCIe 6.0 规范正式发布,总带宽提高至 64 GT/s。

2022年6月,PCI-SIG联盟宣布PCIe 7.0版规范,单条通道(x1)单向可实现128GT/s传输速率,计划于2025年推出最终版本。

wKgZomWbY7iAbiJ4AAMGs43zj7I808.png

NVLink 是英伟达开发的高速互连技术,旨在加快 CPU 与 GPU、GPU 与 GPU 之间的数据传输速度,提高系统性能。NVLink通过GPU之间的直接互联,可扩展服务器内的多GPU I/O,相较于传统PCIe总线可提供更高效、低延迟的互联解决方案。

NVLink的首个版本于2014年发布,首次引入了高速GPU互连。2016年发布的P100搭载了第一代NVLink,提供 160GB/s 的带宽,相当于当时 PCIe 3.0 x16 带宽的 5 倍。V100搭载的NVLink2将带宽提升到300GB/s ,A100搭载了NVLink3带宽为600GB/s。目前NVLink已迭代至第四代,可为多GPU系统配置提供高于以往1.5倍的带宽以及更强的可扩展性,H100中包含18条第四代NVLink链路,总带宽达到900 GB/s,是PCIe 5.0带宽的7倍。

wKgaomWbY7iASCxaAAF3yQHeFK8132.png

Infinity Fabric是AMD 开发的高速互连技术,被用于连接AMD处理器内部的各个核心、缓存和其他组件,以实现高效的数据传输和通信。Infinity Fabric采用了一种分布式架构,其中包含多个独立的通道,每个通道都可以进行双向数据传输。这种设计使得不同核心之间可以直接进行快速而低延迟的通信,从而提高了整体性能。此外,Infinity Fabric还具备可扩展性和灵活性。它允许在不同芯片之间建立连接,并支持将多颗处理器组合成更强大的系统。

Compute Express Link (CXL)是一种开放式行业标准互连,可在主机处理器与加速器、内存缓冲区和智能 I/O 设备等设备之间提供高带宽、低延迟连接,从而满足高性能异构计算的要求,并且其维护CPU内存空间和连接设备内存之间的一致性。CXL优势主要体现在极高兼容性和内存一致性两方面上。

CXL 3.0是2022年8月份发布的标准,在许多方面都进行了较大的革新。CXL3.0建立在PCI-Express 6.0之上(CXL1.0/1.1和2.0版本建立在PCIe5.0之上),其带宽提升了两倍,并且其将一些复杂的标准设计简单化,确保了易用性。

InfiniBand是一种高速、低延迟互连技术,由 IBTA(InfiniBand Trade Association)提出,其规定了一整套完整的链路层到传输层(非传统OSI七层模型的传输层,而是位于其之上)规范,但是其无法兼容现有以太网。InfiniBand拥有高吞吐量和低延迟,扩展性好,通过交换机在节点间的点对点通道进行数据传输,通道私有且受保护。

wKgaomWbY7mAFBVZAATBK6EFi_w954.png

目前InfiniBand的传输速度为400Gb/s,路线图显示,IBTA计划于2024年推出XDR 800Gb/s InfiniBand产品,并在2026年后推出GDR 1600Gb/s产品。InfiniBand的高传输速度打通高性能计算中数据传输速率瓶颈,提升吞吐量和计算效率。

以太网是应用最广泛最成熟的网络技术,可在数据中心的服务器之间传输大量数据,这对于许多加速计算任务至关重要。RoCE协议下,以太网融合RDMA功能,在高性能计算场景下的通信性能大幅提升。今年,为应对AI 和HPC工作负载提出的新挑战,网络巨头联合成立了超以太网联盟(UEC),超以太网解决方案堆栈将利用以太网的普遍性和灵活性处理各种工作负载,同时具有可扩展性和成本效益,为以太网注入了新的活力。

加速计算为传统CPU和日益增长的数据需求之间搭起了一座桥梁,从数据中心到边缘计算,加速计算已广泛应用于各种领域。英伟达创始人黄仁勋曾表示,计算已经发生了根本性的变化,CPU扩展的时代已结束,购买再多的CPU已无法解决问题。加速计算将与AI一起推动,新计算时代“引爆点”已到来。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    40

    文章

    5078

    浏览量

    166239
  • 网络互联
    +关注

    关注

    0

    文章

    15

    浏览量

    9521
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4422

    浏览量

    126710
  • 硬件
    +关注

    关注

    11

    文章

    2922

    浏览量

    64809
  • 软件
    +关注

    关注

    67

    文章

    4350

    浏览量

    85625

原文标题:从硬件、软件到网络互联,AI时代下的加速计算技术

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    #硬声创作季 #网络互联技术 VTP技术

    网络互联
    发布于 :2022年11月27日 21:58:55

    #硬声创作季 #网络互联技术 网络互联设备

    网络互联
    发布于 :2022年11月27日 22:03:42

    中智讯-移动互联网技术及课程建设

    移动互联网综合应用的能力,能从事智能手机、嵌入式设备、平板电脑、M2M等移动设备的应用软件开发、销售、维护等工作,具备良好的团队合作精神的高端技能型人才。移动互联网就是把互联网技术应用
    发表于 08-17 15:57

    硬件互联网连接

    请教各位大神我之间是做软件java开发的现在 觉得未来互联网是必然发展趋势,现在 学习了解物联网技术,我想弄一款可穿戴的智能终端设备,通过GPRS实现跟服务器数据传递交互,我现在该怎么做该怎么操作了,该做那些准备看些什么样的书了
    发表于 05-24 15:52

    详解基于软件无线电的A/D转换技术

    的中频、甚至直接对射频信号进行数字化,后面所有功能都由软件或数字硬件实现。软件无线电通信系统要求ADC具有高速度、高精度和宽带输入信号范围。 主要依靠一揽子电阻网络来保证量化精度的传统
    发表于 05-28 07:51

    智能硬件开发经验分享:从产品经理的角度,分析做互联软件和智能硬件思维的不同?

    我从互联网行业转做智能硬件已经6个月了,由于对硬件技术和流程的不熟悉,这个过程中也踩了不少坑。另外互联网思维和做
    发表于 04-15 10:18

    如何通过蜂窝网络建立快速互联网连接?

    ://www.quectel.com/wp-content/uplo .. .n_V1.8.pdf)。要在合理的时间内发送图像,大概我需要使用蜂窝模块上的 USB 2.0 接口。ESP-32 是否有软件库 + 硬件模块组合,可以让我通过蜂窝
    发表于 03-01 08:05

    《天猫精灵诞生记——如何在互联网公司做硬件》+ 理论结合实践-难得的介绍硬件产品开发的好书(五星推荐)

    前言 一开始看到本书名《天猫精灵诞生记——如何在互联网公司做硬件》猜测应该是一本讲互联网项目案例的书,可能就拿来当小说看看即可。直到拿到本书看到目录内容,才发现出乎意料,本书实际是一本干货满满
    发表于 10-11 22:26

    网络动画详解

    网络动画详解 引言 现在,您在互联网上到处都能看到动态图片!Web设计者们可以使用多种技术来制作动画,包括: GIF动画­ 动态HTML Java S
    发表于 08-04 08:51 945次阅读

    数据存储指南 存储备份技术详解

    数据存储指南 存储备份技术详解   数据存储备份技术一般包含硬件技术软件技术等,
    发表于 01-09 10:16 1002次阅读

    网络存储技术详解

    网络存储技术详解 网络存储技术一般分为三种,分别是NAS、SAN、DAS: NAS网络存储器
    发表于 01-13 11:29 1096次阅读

    网络互联,什么是网络互联

    网络互联,什么是网络互联 互联网是一组相互连接的网络,它们形成单一的通信系统,允许任何
    发表于 03-22 10:55 971次阅读

    硬件电路设计具体详解

    硬件电路设计具体详解
    发表于 04-05 11:51 28次下载

    PC办公软件网络疑难破解方法及技巧的分析(1000例详解

    本文详细介绍了PC办公软件网络疑难的破解方法及技巧的1000例详解
    发表于 11-26 09:50 16次下载
    PC办公<b class='flag-5'>软件</b>与<b class='flag-5'>网络</b>疑难破解方法及技巧的分析(1000例<b class='flag-5'>详解</b>)

    详解数字信号处理的软硬件实现

    详解数字信号处理的量化效应、软件实现和硬件实现。
    发表于 07-07 14:57 0次下载
    <b class='flag-5'>详解</b>数字信号处理的软<b class='flag-5'>硬件</b>实现