0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传统用于数字设计的CPU是否已经达到了容量极限?

傅里叶的猫 来源:傅里叶的猫 2024-04-17 10:11 次阅读

本文翻译自Synopsys的官方文章:

在数字设计的Implementation过程中,从RTL到GDSII的每一步都是高度计算密集型的。在SoC层面,为了最小化互连的延迟,我们需要评估数百个partition的各种布局方案。一旦确定了布局方案,接下来就是进行每个partition内的其余步骤,以实现全芯片的implementation和signoff。由于每一步的计算需求已经很高,并且还要乘以partition的数量,这就引发了一个问题:传统用于数字设计的CPU是否已经达到了容量极限?GPU是否能够满足计算需求?

如今,GPU以其处理人工智能机器学习、游戏和高性能计算等要求最为苛刻的工作负载而闻名。随着芯片越来越大、越来越复杂,也许也是时候考虑用GPU来完成数字芯片设计的Implementation了。

CPU在EDA工作负载中的容量挑战

CPU长期以来被认为是计算机的“大脑”。拥有数十亿个晶体管和多个处理核心,如今的CPU非常适合完成广泛的任务,并且能够快速完成。另一方面,GPU最初是为特定目的设计的,但随着时间的推移,它们也转变为通用的并行处理器

一般来讲,EDA工具都是在基于x86处理器的CPU上运行的。然而,随着多芯片设计等复杂架构变得越来越普遍,我们正在接近CPU计算容量的限制。考虑到芯片设计团队始终面临的上市时间压力,利用额外的工具和技术来加速芯片设计过程的任何方面都是有意义的。在验证和分析方面,新思科技的PrimeSim和VCS仿真流程已经从GPU加速中受益。虽然数字设计流程中的每个任务并不是都非常适合GPU,但有些任务确实可以加速。

最先进的高性能数据中心x86 CPU核心平均有64到128个核心,每个box最多约有200个核心。需要更多核心的任务需要分布在许多box上;如果网络不够快,这会产生一些开销。RTL到GDSII流程和优化技术包含许多相互依赖性。为了使流程中的每个任务能够成功并行执行,作业分布在CPU box之间的数据共享必须非常快速,延迟要小。然而,实际上,网络延迟会妨碍周转时间,使得完整的RTL到GDSII流程的分布式并行化变得不那么有吸引力。

另一方面,GPU核心可以轻松扩展。每个核心执行的操作更少,而且非常微小,以至于你可以在一个插座中拥有数万个核心,以提供巨大的处理能力,同时保持可管理的占用空间。能够从大规模并行性中受益的任务非常适合GPU。然而,这样的任务也必须是主要单向的,因为任何决策和迭代都会减慢进程和/或需要回到CPU进行“如果那么”决策。这排除了许多RTL到GDSII数字implementation流程中的任务,尽管并非所有任务都不适合。

使用GPU加速加快布局过程

在数字设计流程中,自动布局是已经展示出在GPU上运行前景的一项任务。在商业环境中运行的原型中,新思科技的Fusion Compiler GPU加速布局技术相比CPU,已经展示出显著的周转时间优势:

使用GPU放置一个3nm GPU流处理器设计,包含1.4M个可放置的标准单元和20个可放置的硬宏,仅需38秒,相比之下,CPU驱动的布局需要13分钟

使用GPU放置一个12nm汽车CPU设计,包含2.9M个可放置的标准单元和200个可放置的硬宏,仅需82秒,相比之下,CPU驱动的布局需要19分钟

结合新思科技DSO.ai的AI驱动自动设计空间优化,我们预计将在相同的完成时间线上将AI驱动的搜索空间扩大15倍到20倍。这样做可以使设计团队实现更好的功耗、性能和面积(PPA)结果。

在许多方面,由于对最终设计PPA的高影响,布局和 floorplanning 是涉及最广泛探索的implementation步骤。我们可以想象,即使GPU计算资源通常与强大的CPU计算集群分开,单个designer使用基于GPU的布局技术也能具有很高的生产力。然而,在RTL到GDSII 的implementation流程的其余部分中,通过CPU和GPU集群之间移动设计数据引入的延迟可能会限制吞吐量优势。

新的数据中心SoC正在设计中,CPU和GPU资源之间具有统一内存,用于TB级工作负载。这些新兴架构消除了利用GPU加速所需的设计数据移动,并将允许我们考虑在数字设计流程中应用GPU加速的其他位置,特别是当设计师可以将GPU与AI驱动的implementation工具配对时,可以进行更快、更广泛的探索和更好的结果。随着像新思科技.ai这样的AI驱动的全栈EDA流程解决方案产生更好的PPA结果、更快的达到目标时间和更高的工程生产力,人们只能想象GPU加速的加入将如何进一步改变芯片设计。

总结

虽然芯片设计过程中的仿真部分对于在GPU上运行并不陌生,但很快数字设计流程的各个方面也将有机会利用GPU加速。对于大型芯片或复杂架构(如多芯片设计),CPU在运行RTL到GDSII流程时所需的计算容量正在耗尽,无法达到期望的速度。凭借其可扩展性和处理能力,GPU有可能提供更快的周转时间和更好的芯片结果。使用GPU驱动的放置器进行的原型实验已经将布局速度提高了多达20倍。随着AI集成到EDA流程中,加入GPU可以形成一个强大的组合,以提高PPA(功耗、性能和面积)和上市时间。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片设计
    +关注

    关注

    15

    文章

    900

    浏览量

    54420
  • 人工智能
    +关注

    关注

    1776

    文章

    43913

    浏览量

    230648
  • RTL
    RTL
    +关注

    关注

    1

    文章

    377

    浏览量

    59077
  • 机器学习
    +关注

    关注

    66

    文章

    8136

    浏览量

    130581
  • GPU芯片
    +关注

    关注

    1

    文章

    292

    浏览量

    5692

原文标题:GPU可以加速芯片设计的Implementaion吗?

文章出处:【微信号:傅里叶的猫,微信公众号:傅里叶的猫】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    超级电容的容量达到多少?超级电容的容量有多大?

    超级电容器的容量是其一个关键的技术参数,直接影响着其在各种应用中的性能表现。
    的头像 发表于 04-15 16:44 189次阅读

    如何判断stm8s207是否已经运行?

    手里有一块扫地机的板子出现故障了,板子有一个芯片是stm8s207,用于按键和指示灯控制的,有故障灯一直闪,按键没有反应;不知道这stm8s芯片是否已经运行,怎么判断?谢谢大家
    发表于 04-03 07:58

    什么是输出极限电流?怎么测试电源模块的输出极限电流?

    输出电流极限测试是测试电源模块在输出限流点放开(PFC的过流保护也要放开)后所能输出的最大电流。目的是检测电源模块的限流点是否设计合理,器件选择是否合适。如果电源模块输出电流极限值较小
    的头像 发表于 03-29 13:49 141次阅读

    LTM4644 SS管脚接地,是否可以达到禁止该通道输出的目的?

    手册中表示,SS管脚的对地电容可以调整上电时间。问:SS管脚接地,是否可以达到禁止该通道输出的目的? 因为我的板子已经生产完成RUN引脚上拉值高电平,并且无法割线修改为下拉来禁止该路输出。想要通过SS管脚接地来
    发表于 01-05 12:25

    交流电机的堵转转矩是否为电机的转矩极限

    交流电机的堵转转矩是否为电机的转矩极限,此时,电机输出功率如何计算,是否为电机最大功率
    发表于 12-12 07:17

    计算光学成像如何突破传统光学成像极限

    传统光学成像建立在几何光学基础上,借鉴人眼视觉“所见即所得”的原理,而忽略了诸多光学高维信息。当前传统光学成像在硬件功能、成像性能方面接近物理极限,在众多领域已无法满足应用需求。
    发表于 11-17 17:08 254次阅读
    计算光学成像如何突破<b class='flag-5'>传统</b>光学成像<b class='flag-5'>极限</b>

    怎样才能在有限的容量下发挥电池的极限续航能力

    电子发烧友网站提供《怎样才能在有限的容量下发挥电池的极限续航能力.doc》资料免费下载
    发表于 11-14 14:38 0次下载
    怎样才能在有限的<b class='flag-5'>容量</b>下发挥电池的<b class='flag-5'>极限</b>续航能力

    传统企业数字化转型都要面临哪些挑战?

    数字化转型已经成为传统企业发展的必经之路,但在这个过程中,企业往往会遭遇多方面的挑战。
    的头像 发表于 11-10 11:00 456次阅读

    如何选择谐振杆的尺寸使功率容量达到最佳?

    如何选择谐振杆的尺寸使功率容量达到最佳? 谐振杆是一种传输电力的装置,它在高压电网中起着重要的作用。谐振杆的功率容量是指它能够传输的最大功率,因此,选择适合的谐振杆尺寸以达到最佳功率
    的头像 发表于 10-30 11:01 266次阅读

    求助,内存地址空间是否一定大于所有物理存储器的容量

    内存地址空间是否一定大于所有物理存储器的容量
    发表于 10-17 07:14

    TenstorrentInc首席CPU构架师 练维汉:助力数字化升级的RISC-V AI 高性能CPU

    (电子发烧友网 张迎辉)在2023年8月28日上海临港举行的第三届滴水湖中国RISC-V产业论坛上,主办方特别邀请到了高性能 RISC-V AI芯片公司Tenstorrent Inc首席CPU构架
    的头像 发表于 08-28 12:05 2436次阅读
    TenstorrentInc首席<b class='flag-5'>CPU</b>构架师 练维汉:助力<b class='flag-5'>数字</b>化升级的RISC-V AI 高性能<b class='flag-5'>CPU</b>

    MCU内置的12位ADC是否可以直接用于额温枪方案吗?

    MCU内置的12位ADC是否可以直接用于额温枪方案?答案:可以的,而且完全能达到国家对红外温度计的相关标准要求。疫情期间,除口罩外,快速测温的额温枪也成为抢手货,各种优秀的额温枪方案不断出现。
    的头像 发表于 08-17 16:43 501次阅读
    MCU内置的12位ADC<b class='flag-5'>是否</b>可以直接<b class='flag-5'>用于</b>额温枪方案吗?

    用于 3803L CPU 板原理图的 Renesas 入门套件

    用于 3803L CPU 板原理图的 Renesas 入门套件
    发表于 06-27 20:08 0次下载
    <b class='flag-5'>用于</b> 3803L <b class='flag-5'>CPU</b> 板原理图的 Renesas 入门套件

    为什么氮化镓(GaN)很重要?

    氮化镓(GaN)的重要性日益凸显,增加。因为它与传统的硅技术相比,不仅性能优异,应用范围广泛,而且还能有效减少能量损耗和空间的占用。在一些研发和应用中,传统硅器件在能量转换方面,已经达到了
    发表于 06-15 15:47

    用于 M16C/29 CPU 板原理图的 Renesas 入门套件

    用于 M16C/29 CPU 板原理图的 Renesas 入门套件
    发表于 05-09 19:59 0次下载
    <b class='flag-5'>用于</b> M16C/29 <b class='flag-5'>CPU</b> 板原理图的 Renesas 入门套件