0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智算中心的核心硬件是什么?

颖脉Imgtec 2025-02-17 14:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文来源:游方AI


智算中心,作为人工智能时代的关键基础设施,其核心硬件的构成与性能直接影响着智能计算的效率与质量。以下是对智算中心核心硬件的详细阐述:

一、AI芯片

AI芯片是专门为加速人工智能计算而设计的硬件,能够与各种AI算法协同工作,满足对算力的极高需求。当前主流的AI加速计算芯片包括:

1、GPU(图形处理器GPU是智算中心的算力担当,其强大的并行计算能力使其在深度学习领域大放异彩。GPU芯片中原本为图形计算设计的大量算术逻辑单元(ALU),能够同时处理成千上万个小任务,这与深度学习中需要大量并行计算的特点高度契合。例如,英伟达的H100 GPU,专为AI训练和推理设计,拥有560亿个晶体管,能够提供高达每秒36万亿次的双精度浮点运算性能。随着AI计算加速中的应用逐步深入,GPU芯片也进行了针对性的创新设计,如张量计算单元、TF32/BF16数值精度、Transformer引擎等。例如,华为昇腾910 GPU的AI加速能力可达150 TFLOPS,训练性能为512 samples/second。

2、FPGA(现场可编程门阵列)FPGA具有极高的灵活性,可以根据不同的AI应用场景进行编程和配置,实现定制化的加速任务。与GPU不同,FPGA不是固定架构的芯片,而是由可编程的逻辑单元和可重构的互连组成,这使得FPGA能够针对特定算法进行优化,从而在某些特定的AI任务中展现出比GPU更高的效率。例如,在一些实时性要求极高的AI推理任务中,FPGA可以快速响应并提供高效的计算支持。

3、ASIC(专用集成电路ASIC芯片是为特定的AI算法或应用量身定制的,因此在执行这些任务时具有极高的效率和能效比。与通用的GPU和FPGA相比,ASIC在特定任务上的性能提升显著,但其缺点是不具备通用性,一旦设计完成,只能用于特定任务。谷歌的TPU(Tensor Processing Unit)就是一个典型的ASIC芯片,专为加速其TensorFlow框架下的深度学习模型训练和推理而设计,能够大幅提高计算速度并降低能耗。

4、类脑架构芯片

类脑架构芯片模拟人脑神经元结构设计,适用于某些特定类型的AI计算。这类芯片试图通过模仿人脑的工作方式,构建神经网络来实现信息的传递和处理。在处理大规模数据集和复杂模式识别等任务时,类脑架构芯片展现出了独特的优势,能够更高效地完成一些传统计算架构难以胜任的工作。


二、AI服务器

AI服务器是智算中心的算力机组,其核心在于采用CPU+AI加速芯片的异构架构。通过集成多颗AI加速芯片(如GPU、FPGA、ASIC等),AI服务器能够实现超高计算性能。例如,华为昇腾智算中心的计算节点配置了华为鲲鹏920 CPU和昇腾910 GPU,内存为512GB DDR4 2933MHz。

这种异构架构能够充分发挥不同芯片的优势,提供强大的计算能力,满足AI模型训练和推理等任务的需求。AI服务器对计算芯片间互联、扩展性有极高要求,目前业界以NVLink和OAM两种高速互联架构为主,能够实现更快速的数据传输和更低的延迟。


三、高速互联网络

高速互联网络是解决智算中心“通信墙”问题的关键。在芯片层面,英特尔等牵头成立CXL联盟并推出CXL 2.0-3.0规范,用于AI、高性能计算等场景中CPU与GPU等的互联。英伟达的NVLink则专门设计用于点对点链路高速互联的网络方案,实现GPU to GPU的高速连接。在设备层面,推进多服务器节点间的多卡互联,目前RDMA(远程直接数据存取)协议已成为大模型时代智算基础设施的底层通信技术,业内主要使用的是InfiniBand、RoCE(基于融合以太网的远程直接内存访问)。这些高速互联技术确保了数据在智算中心内部的快速传输,满足了大规模AI模型训练和推理对数据实时性的要求。


四、存储设备

智算中心的存储设备需要具备大容量、高吞吐量和低延迟的特点。在存储架构上,智算中心通常采用分层存储策略,将热数据存储在高速SSD中,以满足人工智能算法对数据快速读写的需求,同时利用大容量HDD存储冷数据。此外,存算一体技术的应用也在逐步解决冯·诺依曼架构中的存储墙问题,通过将存储和计算功能集成在同一芯片或模块中,进一步提升了数据处理效率。


五、智算集群

随着大模型参数量和训练数据复杂性的快速增长,智算中心需要构建高性能可扩展、高速互联、存算平衡的AI集群。AI集群通过充分考虑大模型分布式训练对于计算、网络和存储的需求特点,能够满足尖端的AI计算需求。例如,以昇腾芯片和昇思框架构建的AI集群,在2048卡规模训练2000亿参数盘古大模型时,在非故障停机前连续稳定训练25天。智算集群的设计使得智算中心能够灵活应对不同规模和类型的AI计算任务,提供强大的算力支持。

智算中心的核心硬件涵盖了AI芯片、AI服务器、高速互联网络、存储设备以及智算集群等多个方面。这些硬件的协同工作,为智算中心提供了强大的计算能力、高效的数据传输和存储能力,以及灵活的资源调度能力,从而能够满足人工智能时代对智能计算的多样化需求,推动AI技术在各行业的广泛应用和发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38177

    浏览量

    296940
  • 硬件图
    +关注

    关注

    0

    文章

    2

    浏览量

    5128
  • 智算中心
    +关注

    关注

    0

    文章

    108

    浏览量

    2453
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Synergy Research:2018年数据中心硬件和软件支出达到1500亿美元

    Synergy Research的新数据显示,2018年全球在数据中心硬件和软件方面的支出增长17%。推动增长的原因是对公共云服务的需求不断增长,以及对越来越丰富的服务器配置需求,这推高了企业服务器
    发表于 04-28 06:03 837次阅读

    国资委发文鼓励、Sora开年爆火…智中心的2024注定热辣滚烫?

    中心Sora
    脑极体
    发布于 :2024年02月27日 16:11:19

    显示器需要哪些核心硬件

    更改。我想要一些帮助来尽可能干净地开发它。我有以下问题:1) 是否有为 GT911 开发的驱动程序,以便我可以将显示器与新控制器一起使用?我可能会使用与评估板相同的 MCU。2)显示器需要哪些核心硬件
    发表于 12-01 06:07

    微星全新GP X Leopard游戏本配置馋人:高规格核心硬件+120Hz屏幕

    以往的游戏本更多都是在强调处理器、显卡的性能,但微星最新发布的GP62X/GP72X Leopard系列游戏本在保证核心硬件高规格的基础上,还对屏幕进行了加强。
    发表于 04-19 10:41 965次阅读

    大联大控股宣布,其旗下品佳推出以MTK3360/AC8317为核心硬件平台

    致力于亚太地区市场的领先电子元器件分销商—大联大控股宣布,其旗下品佳推出以MTK3360/AC8317为核心硬件平台,再辅以NXP或新唐科技(Nuvoton)的器件实现该系统中Car Tuner、MCU、Transceivers、Power AMP等功能。
    发表于 05-21 17:30 5523次阅读
    大联大控股宣布,其旗下品佳推出以MTK3360/AC8317为<b class='flag-5'>核心硬件</b>平台

    一加Ace手机的核心硬件配置

    目前,半导体、屏幕等核心零部件快速发展,使得各大厂商在手机硬件配置方面同质化越来越严重。面对激烈的市场竞争,如何形成鲜明特色,解决消费者刚需成为了各大厂商共同面临的难题。一加作为高端手机黑马,在今年推出了堪称“性能王牌”的一加Ace。一加 Ace好不好?堪当“性能王牌”这
    的头像 发表于 06-28 14:33 3034次阅读

    时代:数据中心为什么要选用镍氢电池?

    在智时代背景下,数据中心高功率密度和高弹性需求成为了亟待解决的问题。智中心作为信息基础设施的核心,承担着海量数据的处理、存储和传输任务,
    的头像 发表于 11-24 16:44 1842次阅读
    智<b class='flag-5'>算</b>时代:数据<b class='flag-5'>中心</b>为什么要选用镍氢电池?

    OCTC发布&quot;力工厂&quot;!力促智中心高效规划建设投运

    创新提出面向未来数据中心的"力工厂"模式,核心是以规(划)、建(设)、运(营)一体化的交钥匙工程,实现智中心快速投运、绿色低碳,在当前A
    的头像 发表于 10-11 09:10 1174次阅读
    OCTC发布&quot;<b class='flag-5'>算</b>力工厂&quot;!力促智<b class='flag-5'>算</b><b class='flag-5'>中心</b>高效规划建设投运

    智慧照明 智慧灯控之核心硬件——单灯控制器

    智慧照明 | 智慧灯控之核心硬件——单灯控制器
    的头像 发表于 11-11 12:44 1327次阅读
    智慧照明   智慧灯控之<b class='flag-5'>核心硬件</b>——单灯控制器

    中心崛起:数字化时代的新核心基础设施

    随着数字化时代的到来,我们的生活、工作、甚至整个社会的运行都离不开“力”的支撑。为了更高效地处理这些海量的计算需求,一种新的基础设施应运而生——智中心。那么,智
    的头像 发表于 11-28 15:15 900次阅读
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>崛起:数字化时代的新<b class='flag-5'>核心</b>基础设施

    中心会取代通用中心吗?

    随着人工智能(AI)技术的飞速发展,计算需求不断攀升,数据中心行业正经历着前所未有的变革。传统的通用中心与新兴的智中心之间的竞争日益激
    的头像 发表于 01-06 14:45 902次阅读
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>会取代通用<b class='flag-5'>算</b>力<b class='flag-5'>中心</b>吗?

    中心力如何衡量?

    作为当下科技发展的重要基础设施,其力的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智中心算力衡量的详细阐述:一、力的基本定义与单位1、
    的头像 发表于 01-16 14:03 4257次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的<b class='flag-5'>算</b>力如何衡量?

    中心的入门指南,技术小白也能懂

    在数字化时代,人工智能(AI)正深刻改变着我们的生活和工作。而智中心作为支撑人工智能发展的核心基础设施,也逐渐走进大众视野。那么,智中心
    的头像 发表于 02-08 14:27 1848次阅读
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的入门指南,技术小白也能懂

    信而泰CCL仿真:解锁AI力极限,智中心网络性能跃升之道

    引言 随着AI大模型训练和推理需求的爆发式增长,智中心网络的高效性与稳定性成为决定AI产业发展的核心要素。信而泰凭借自主研发的 CCL(集合通信库)评估工具 与 DarYu-X系列测试仪 ,为智
    的头像 发表于 02-24 17:34 994次阅读
    信而泰CCL仿真:解锁AI<b class='flag-5'>算</b>力极限,智<b class='flag-5'>算</b><b class='flag-5'>中心</b>网络性能跃升之道

    力板卡:驱动智能时代的核心引擎

    、科学计算等领域的核心硬件,支撑着现代数字化社会的运转。 力板卡的核心作用   力板卡是一种专为高性能计算设计的硬件模块,通常以加速卡的
    的头像 发表于 08-01 10:25 990次阅读