0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

详细分析算力网络的发展

sakobpqhz 来源:算力基建 2024-01-16 10:41 次阅读

2023年12月底,由国家发展改革委、国家数据局、中央网信办、工业信息化部、国家能源局五部门联合印发的《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》正式公布。

算力网络是未来数字经济发展的核心基础设施。要想实现算力网络的伟大愿景,还有非常多的底层技术挑战需要解决。

接下来若干篇系列文章,“软硬件融合”公众号将从技术的视角,详细分析算力网络的发展。

本篇是系列文章的第一篇,算力提升综述。

01.宏观算力综述

算力和性能的区别在哪里?性能是一个微观话题,通常的说法是“芯片的性能”,较少说“芯片的算力”(随着算力的概念深入人心,也有不少人采用单芯片算力的算法)。同时,算力是一个宏观概念,比如评价一个数据中心,通常则采用“算力”这个说法,很少会用“性能”这个说法。

总之,算力和性能本质上是一体的,区别在于性能是微观概念,算力是宏观概念。那么算力和性能之间的联系是什么?

3567aa44-b40c-11ee-8b88-92fbcf53809c.png

如上图所示,我们定性分析,可以在性能和算力之间构建一个关联的公式。从上述公式可以看到,要想提升宏观的实际总算力,可以通过三个方法:

方法一,Scale Up方式,提升单芯片的性能。一方面底层先进工艺和Chiplet封装支撑,另一方面越来越多的大算力场景需求,都驱动着在系统架构和微架构方面的创新,来实现单芯片层次更高的性能。这是算力提升最本质的做法。

方法二,Scale Out方式,提升芯片落地的规模/数量。通过增加芯片落地规模的方式提升总算力,比较好理解。挑战在于,如何让芯片更好地增加数量?芯片要想大规模落地:需要覆盖非常多的业务场景和业务迭代,这就需要芯片具有非常高的通用性;此外,芯片需要支持更大规模的集群计算。

方法三,则是提高算力利用率。提升算力利用率有很多方法,例如,资源扩展性、资源池化、开放架构等等。算力网络,是提升算力利用率的综合解决方案。

本系列文章聚焦算力网络,因此,篇幅分配会有很大不同。本篇文章中,将简要介绍提升算力的三种方式。

02.如何提升单芯片性能?

356b6ad0-b40c-11ee-8b88-92fbcf53809c.png

定性的分析,一个芯片的性能有三个维度:

维度一,指令复杂度。依据指令复杂度,典型的处理器引擎分为CPU、协处理器、GPUFPGA、DSA和ASIC六大类。理论上,指令复杂度越高,性能越好。但实际上,需要考虑系统的通用性,以及目标工作任务的灵活性特征,来选择合适的处理器引擎。

维度二,运行频率。运行频率提升,主要是先进工艺,以及更复杂的流水线设计。

维度三,并行度。提高并行度比较好理解,并行也主要有同构并行、(两个处理器的)异构并行和(三个以上)更多异构的并行。

这三个维度里,指令复杂度提升和运行频率提升,都受到到各种因素的制约,真正对性能影响最大的则是并行度。提升并行度,不是简单的复制,而是需要全面考虑系统工作任务特征,寻找合适的处理引擎,实现复杂的并行计算:

同构并行,仅指CPU同构并行(其他处理器无法单独存在,需要CPU协助),摩尔定律已经失效,CPU并行性能有局限。

异构并行,指CPU+其他加速处理器的并行计算,异构并行是两类处理器的协同计算。

异构融合并行,指的是CPU+两种以上不同类型或子类型的处理器组成的计算架构。因为处理器增多,则需要考虑各个处理器之间的协同问题。因此,异构融合计算,中心在于处理器之间的深度协作和融合。

03.如何提升芯片的落地规模?

通用灵活性

芯片只有大规模落地,才能显著地提升宏观算力;不能落地芯片,即使性能再高,与宏观算力的提升也毫无意义。芯片要想大规模落地,一定是要覆盖非常多的业务场景,以及非常多的业务迭代。这样,势必需要芯片具有非常高的通用灵活性。 同时,芯片大规模落地,成本也是一个非常重要的因素。跟小芯片相比,大算力芯片的成本主要是前期的研发投入的均摊成本,芯片实际的生产成本反而占比相对较少。只有实现了相对通用的芯片设计,才能覆盖更多的场景和迭代,才能摊薄成本。成本下降之后,反过来,进一步促进芯片的大规模落地。

高性能网络

与此同时,大算力芯片,需要支持大规模集群和跨集群的计算。更多计算节点组成的集群/跨集群计算,内部流量占据绝大部分。 以目前流行的大模型计算集群为例,其东西向(内部)流量占比超过96%,南北向(外网)流量占比仅有3%左右。并且,随着集群规模的进一步扩大,南北向流量占比仍在进一步减少。 此外,随着系统规模的扩大,南北向的流量也是逐渐增加的。两相叠加,需要个体的芯片的网络带宽指数级提升,同时需要支持高效的内网和外网高性能网络。 总之,只有实现了足够的通用灵活性,以及高性能网络,才能支撑更高性能更高效率的超大规模的集群/跨集群计算,才能真正支撑宏观算力的显著提升,与此同时降低算力的成本。

04.如何提升算力利用率?

如果每个计算节点都是孤岛,即使某一个节点算力利用率很高,但更多的节点可能处于闲置或者低利用率状态,宏观地看,其算力利用率必然很低。要想真正提升算力利用率,首先势必需要把计算节点池化,形成算力资源池,才好谈高利用率的问题。

我们来系统分析一下如何有效地提升算力利用率。

资源可扩展性

资源可扩展性是一个非常重要的前提条件。 以CPU为例,通过虚拟化,一个物理的CPU核可以分为数以百计的逻辑CPU核,一个逻辑核可以当作CPU的最小粒度;同时,一个CPU芯片有数十个甚至上百个CPU核,常见的服务器通常有1-8个CPU芯片,并且还有众多服务器组成的计算集群。因此,CPU是可以从1个逻辑核扩展到成千上万的逻辑核的。这就是CPU极致可扩展性的体现。 其他的资源,如各类GPU、DSA等各类加速器计算资源、内存(Memory)资源、网络I/O资源、存储(Storage)I/O资源等。这些资源,也需要像CPU一样,具有非常好的扩展性。

资源池化

资源具有足够好的可扩展性,物理的资源通过合适粒度进行逻辑切分,并且跨物理资源、跨芯片、跨计算节点,甚至跨集群的资源资源可以组成一个整体,最终形成统一的宏观资源池。只有形成足够好的可扩展性才能支持灵活的资源池化和资源的灵活分配。

多租户多系统

多租户多系统是云计算非常重要的特征,通过多租户多系统实现资源的共享和成本分摊,以此来提高算力利用率和降低成本。

开放架构

随着CPU的性能瓶颈,越来越多的异构算力成为算力提升的主力。即使某个处理器具有足够高的可扩展性,但一种架构的资源,就意味着一个独立的资源池。这样,多样性的异构算力,会导致架构和生态的碎片化。通过开放架构,可以尽可能地实现架构的收敛,才能最大化地发挥资源池化的价值。

跨集群调度

算力网络,最核心的价值在于把非常多的各种计算集群连接到一起。因此跨集群的资源共享和业务调度是必然要支持的能力。算力网络,需要实现跨不同的集群、跨不同的数据中心、跨云网边端。

跨平台

随着异构的资源越来越多,从一个计算阶段迁移到本集群或者其他集群其他计算节点的时候,它的资源种类不一定和当前节点资源一致。这样,对业务能力跨不同架构处理器运行提出了更高的要求。比如,业务可以跨x86、ARMriscv CPU处理器运行,业务还可以跨CPU、GPU、DSA处理器运行,等等。

便利性,随时随地可获取

相比传统自建机房,云计算已经实现了算力的方便获取。但还不够。随着AI大模型、自动驾驶、元宇宙XR等各类大算力场景越来越多,对算力的多样性要求也越来越大,云端算力、多层次的边缘算力,甚至更加便利的终端算力,都需要纳入算力网络的范畴,提供宏观的算力资源整合方案,方便用户随时随地轻松获取。 总结一下。通过上述这些方式,以及其他可能的上面没有提到的方式,来实现宏观算力资源的充分利用,从而为客户提供极致成本的海量算力。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18275

    浏览量

    222164
  • 芯片
    +关注

    关注

    447

    文章

    47788

    浏览量

    409142
  • 网络
    +关注

    关注

    14

    文章

    7251

    浏览量

    87441
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14354

原文标题:算力网络系列文章(一):算力提升综述

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    DVI接口详细分析

    DVI接口详细分析DVI 接口规格和定义 DVI 有DVI 1.0 和DVI 2.0 两种标准,其中 DVI 1.0 仅用了其中的一组信号传输信道(data0-data2 ),传输图像的最高像素时钟
    发表于 08-11 09:51

    工程师应该掌握的20个模拟电路(详细分析及参考答案).pdf

    工程师应该掌握的20个模拟电路(详细分析及参考答案).pdf
    发表于 04-07 13:28

    三极管特性曲线详细分析

    三极管特性曲线详细分析,特性曲线看不懂,
    发表于 06-29 16:34

    uboot代码详细分析

    [url=]uboot代码详细分析[/url]
    发表于 01-29 13:51

    详细分析一下USB协议

    本文跟大家一起详细分析一下USB协议。
    发表于 05-24 06:16

    详细分析stm32f10x.h

    每日开讲---学习STM32不得不看的剖析(详细分析stm32f10x.h)摘要: 学习STM32不得不看的剖析(详细分析stm32f10x.h)。/**这里是STM32比较重要的头文件*******************************************
    发表于 08-05 07:44

    详细分析了VTIM和VMIN的功能

    上一篇文章中,我们详细分析了VTIM和VMIN的功能,《嵌入式Linux 串口编程系列2--termios的VMIN和VTIME深入理解》 也明白了这两个参数设计的初衷和使用方法,接下来我们 就详细
    发表于 11-05 07:09

    请问一下怎样对stm32的启动代码进行详细分析

    请问一下怎样对stm32的启动代码进行详细分析呢?
    发表于 11-26 07:10

    电子工程师需要掌握的20个模拟电路的详细分析

    电子工程师需要掌握的20个模拟电路的详细分析
    发表于 09-28 06:22

    电子工程师必须掌握的20个模拟电路详细分析

    内含参考答案以及详细分析
    发表于 10-07 07:15

    大屏幕显示技术的发展详细分析介绍

    大屏幕显示技术的发展详细分析介绍 引言  随着网络技术、计算机信息技术、自控技术在煤炭生产企业的迅速普及,矿井的自
    发表于 02-21 16:56 620次阅读

    uboot1-1-6代码详细分析

    uboot 1-1-6版本的 代码详细分析
    发表于 11-02 11:02 25次下载

    二端口网络详细分析

    十二五规划教材大学电路(邱关源、罗先觉版)二端口网络详细分析和经典例题以及解题方法
    发表于 12-23 18:15 0次下载

    Buck变换器原理详细分析

    Buck变换器原理详细分析
    发表于 09-15 17:26 30次下载
    Buck变换器原理<b class='flag-5'>详细分析</b>

    正激有源钳位的详细分析

    正激有源钳位的详细分析介绍。
    发表于 06-16 16:57 56次下载