0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传统用于数字设计的CPU是否已经达到了容量极限?

傅里叶的猫 来源:傅里叶的猫 2024-04-17 10:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文翻译自Synopsys的官方文章:

在数字设计的Implementation过程中,从RTL到GDSII的每一步都是高度计算密集型的。在SoC层面,为了最小化互连的延迟,我们需要评估数百个partition的各种布局方案。一旦确定了布局方案,接下来就是进行每个partition内的其余步骤,以实现全芯片的implementation和signoff。由于每一步的计算需求已经很高,并且还要乘以partition的数量,这就引发了一个问题:传统用于数字设计的CPU是否已经达到了容量极限?GPU是否能够满足计算需求?

如今,GPU以其处理人工智能机器学习、游戏和高性能计算等要求最为苛刻的工作负载而闻名。随着芯片越来越大、越来越复杂,也许也是时候考虑用GPU来完成数字芯片设计的Implementation了。

CPU在EDA工作负载中的容量挑战

CPU长期以来被认为是计算机的“大脑”。拥有数十亿个晶体管和多个处理核心,如今的CPU非常适合完成广泛的任务,并且能够快速完成。另一方面,GPU最初是为特定目的设计的,但随着时间的推移,它们也转变为通用的并行处理器

一般来讲,EDA工具都是在基于x86处理器的CPU上运行的。然而,随着多芯片设计等复杂架构变得越来越普遍,我们正在接近CPU计算容量的限制。考虑到芯片设计团队始终面临的上市时间压力,利用额外的工具和技术来加速芯片设计过程的任何方面都是有意义的。在验证和分析方面,新思科技的PrimeSim和VCS仿真流程已经从GPU加速中受益。虽然数字设计流程中的每个任务并不是都非常适合GPU,但有些任务确实可以加速。

最先进的高性能数据中心x86 CPU核心平均有64到128个核心,每个box最多约有200个核心。需要更多核心的任务需要分布在许多box上;如果网络不够快,这会产生一些开销。RTL到GDSII流程和优化技术包含许多相互依赖性。为了使流程中的每个任务能够成功并行执行,作业分布在CPU box之间的数据共享必须非常快速,延迟要小。然而,实际上,网络延迟会妨碍周转时间,使得完整的RTL到GDSII流程的分布式并行化变得不那么有吸引力。

另一方面,GPU核心可以轻松扩展。每个核心执行的操作更少,而且非常微小,以至于你可以在一个插座中拥有数万个核心,以提供巨大的处理能力,同时保持可管理的占用空间。能够从大规模并行性中受益的任务非常适合GPU。然而,这样的任务也必须是主要单向的,因为任何决策和迭代都会减慢进程和/或需要回到CPU进行“如果那么”决策。这排除了许多RTL到GDSII数字implementation流程中的任务,尽管并非所有任务都不适合。

使用GPU加速加快布局过程

在数字设计流程中,自动布局是已经展示出在GPU上运行前景的一项任务。在商业环境中运行的原型中,新思科技的Fusion Compiler GPU加速布局技术相比CPU,已经展示出显著的周转时间优势:

使用GPU放置一个3nm GPU流处理器设计,包含1.4M个可放置的标准单元和20个可放置的硬宏,仅需38秒,相比之下,CPU驱动的布局需要13分钟

使用GPU放置一个12nm汽车CPU设计,包含2.9M个可放置的标准单元和200个可放置的硬宏,仅需82秒,相比之下,CPU驱动的布局需要19分钟

结合新思科技DSO.ai的AI驱动自动设计空间优化,我们预计将在相同的完成时间线上将AI驱动的搜索空间扩大15倍到20倍。这样做可以使设计团队实现更好的功耗、性能和面积(PPA)结果。

在许多方面,由于对最终设计PPA的高影响,布局和 floorplanning 是涉及最广泛探索的implementation步骤。我们可以想象,即使GPU计算资源通常与强大的CPU计算集群分开,单个designer使用基于GPU的布局技术也能具有很高的生产力。然而,在RTL到GDSII 的implementation流程的其余部分中,通过CPU和GPU集群之间移动设计数据引入的延迟可能会限制吞吐量优势。

新的数据中心SoC正在设计中,CPU和GPU资源之间具有统一内存,用于TB级工作负载。这些新兴架构消除了利用GPU加速所需的设计数据移动,并将允许我们考虑在数字设计流程中应用GPU加速的其他位置,特别是当设计师可以将GPU与AI驱动的implementation工具配对时,可以进行更快、更广泛的探索和更好的结果。随着像新思科技.ai这样的AI驱动的全栈EDA流程解决方案产生更好的PPA结果、更快的达到目标时间和更高的工程生产力,人们只能想象GPU加速的加入将如何进一步改变芯片设计。

总结

虽然芯片设计过程中的仿真部分对于在GPU上运行并不陌生,但很快数字设计流程的各个方面也将有机会利用GPU加速。对于大型芯片或复杂架构(如多芯片设计),CPU在运行RTL到GDSII流程时所需的计算容量正在耗尽,无法达到期望的速度。凭借其可扩展性和处理能力,GPU有可能提供更快的周转时间和更好的芯片结果。使用GPU驱动的放置器进行的原型实验已经将布局速度提高了多达20倍。随着AI集成到EDA流程中,加入GPU可以形成一个强大的组合,以提高PPA(功耗、性能和面积)和上市时间。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片设计
    +关注

    关注

    15

    文章

    1128

    浏览量

    56445
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261507
  • RTL
    RTL
    +关注

    关注

    1

    文章

    393

    浏览量

    62394
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6395

原文标题:GPU可以加速芯片设计的Implementaion吗?

文章出处:【微信号:傅里叶的猫,微信公众号:傅里叶的猫】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「高速数字设计(基础篇)」阅读体验】第六章 去耦电容的容量需求分析

    去耦电容容量别瞎猜!《高速数字设计》第6章教你量化计算,精准选型 在高速数字电路设计中,去耦电容选多大容量是个难点。《高速数字设计》第6章“
    发表于 11-19 20:48

    串联谐振试验装置的核心工作逻辑是什么?和传统耐压设备比优势在哪?

    ,通常 50-100 倍)。​ 对比传统工频耐压设备,优势堪称 “降维打击”:传统设备需大电源容量(如测 3km 10kV 电缆需 500kVA 以上),体积堪比冰箱且重量超 200kg;而武汉特高压串联
    发表于 10-11 15:40

    高压二极管应用中,是否有足够铜箔/散热片,结温是否接近极限

    MDD辰达半导体FAE,我们往往会追溯到一个核心问题——是否有足够铜箔/散热片支撑散热,器件结温是否已经接近极限。一、结温与器件可靠性的关系结温(Tj)是指二极管P
    的头像 发表于 09-17 11:42 461次阅读
    高压二极管应用中,<b class='flag-5'>是否</b>有足够铜箔/散热片,结温<b class='flag-5'>是否</b>接近<b class='flag-5'>极限</b>?

    github 上的 nano版本已经更新到了4.1.1,是否能提供4.1.1版本的mdk pack包?

    github 上的 nano版本已经更新到了4.1.1,是否能提供4.1.1版本的mdk pack包, 会方便很多
    发表于 09-17 06:36

    CCG3PA是否支持发起BIST 共享容量消息?

    我正在使用CCG3PA ,我想发起BIST 共享容量消息。我检查了 CCG3PA 的 API 文档和 PD 堆栈,但找不到任何与启动BIST 共享容量模式相关的枚举或 API。 CCG3PA是否支持发起BIST 共享
    发表于 07-23 07:07

    极限电流与氧分压传感器区别解析

    极限电流型氧传感器与氧分压型氧传感器在原理、结构及应用上存在显著差异,具体区别如下:工作原理01极限电流型氧传感器:基于电化学泵原理,施加外部电压使氧气在电极间迁移,当电压足够高时,电流达到
    的头像 发表于 05-19 13:26 531次阅读
    <b class='flag-5'>极限</b>电流与氧分压传感器区别解析

    SMA 连接器功率容量的演进:从传统设计到新型材料的突破

    SMA连接器功率容量传统设计的艰难摸索到新型材料驱动下的突破发展,是一部不断创新、持续进取的科技进步史。伴随材料科学与制造技术的持续革新,德索的SMA连接器功率容量也将不断跃上新台阶,为微波、射频等前沿领域注入源源不断的发展动
    的头像 发表于 05-14 09:10 450次阅读
    SMA 连接器功率<b class='flag-5'>容量</b>的演进:从<b class='flag-5'>传统</b>设计到新型材料的突破

    自动驾驶安全程度达到99%是否就足够了?

    [首发于智驾最前沿微信公众号]五一假期,闲来无事,想到一个问题,现在监管部门对于自动驾驶的要求已经非常严苛,那自动驾驶要达到什么程度才算足够安全?如果达到99%,是否就可以商用了?抑或
    的头像 发表于 05-03 08:42 550次阅读

    多芯光纤MCF(Multicore Fiber)互联

    随着人工智能AI技术的迅猛发展,数据处理需求和通信容量的增长达到了前所未有的规模。特别是在大数据分析、深度学习和云计算等领域,通信系统对高速、高带宽的要求越来越高。传统单模光纤
    发表于 04-01 11:33

    华为完成智能组串式构网型储能极限燃烧试验

    近日,华为数字能源在国际权威的独立保障和风险管理机构DNV及战略客户的全程见证下,圆满完成了智能组串式构网型储能的极限燃烧试验,以打破行业传统安全边界的创新理念和真实场景极限验证,为储
    的头像 发表于 02-24 14:15 774次阅读

    DLPLCRC410EVM是否提供触发信号接口用于后续的同步测量?是否也需要利用FPGA对触发信号进行编程?

    使用额外的DDR将要投影的图案预先加载 在软件上则需要使用VHDL或其他硬件描述语言对APPSFPGA进行编程 不知道上述理解是否正确? 另外,我的问题在于: 1. 该EVM是否提供触发信号接口用于后续
    发表于 02-19 07:04

    云 GPU 加速计算:突破传统算力瓶颈的利刃

    数字化时代,数据呈爆炸式增长,传统的算力已难以满足复杂计算任务的需求。无论是人工智能的深度学习、大数据的分析处理,还是科学研究中的模拟计算,都对算力提出了极高的要求。而云 GPU 加速计算的出现
    的头像 发表于 02-17 10:36 516次阅读

    按照DAC7811手册上接,输出误差达到了10%,请问这是怎么回事?

    按照DAC7811手册上接,输出误差达到了10%,请问这是怎么回事
    发表于 01-17 06:30

    请问ADS1298称为生理信号测量转换器,和传统AD转换器有什么区别?

    请问ADS1298称为生理信号测量转换器,和传统AD转换器有什么区别。我想使用其作为神经元和肌肉细胞信号的检测,精度要达到0.1mV以下,不知道是否合适。
    发表于 01-01 06:39

    芯片极限能力、封装成品及系统级测试

    能力测试 极限能力测试包括以下两个方面: 浪涌电流测试 大容量的电气设备接通或断开瞬间,由于电网中存在电感,将在电网中产生浪涌电压,从而产生浪涌电流。 浪涌电流测试的目的是评估电气设备在遭受浪涌电流冲击时的耐受能力。测试过程中,通常会使用专门
    的头像 发表于 12-24 11:25 1733次阅读