0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当CPU算力趋近极限,GPU能否替代CPU满足数字芯片设计的算力需求?

新思科技 来源:新思科技 2024-04-10 17:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

就数字设计实现而言,RTL-to-GDSII流程中的每一步都涉及海量计算。在SoC级别,开发者需要评估数百个分区的各种版图规划选项,从而更大限度减少互连中的延迟并提高效率。确定了版图规划后,需要在每个分区中继续执行其余步骤,直到完成整个芯片的实现与签核环节。每个步骤的算力需求本身就很高,再乘以分区的数量,不禁让人怀疑:传统上用于数字设计的CPU是否已难堪重任?GPU能否替代CPU满足这样的算力需求?

目前,GPU以其在人工智能AI)/机器学习(ML)、游戏以及高性能计算等领域处理极具挑战性的工作负载的强大能力而备受推崇。随着芯片设计趋向更大尺寸与更高复杂性,将GPU的应用范围延伸到数字芯片设计实现领域,或许正当其时。

EDA工作负载面临的CPU算力瓶颈

CPU一直被誉为计算机的“大脑”。现代CPU集成了数十亿个晶体管和多个处理内核,适合执行各种任务,并且处理速度极快。另一方面,GPU最初是为了特定用途而设计的,但随着时间推移,GPU也逐渐演变为能够广泛用于并行处理任务的通用处理器了。

传统上,电子设计自动化(EDA)的工作负载主要在基于x86架构的CPU上运行。然而,Multi-Die等复杂架构的普及,使得CPU的算力逐渐接近极限。考虑到芯片开发团队经常面临产品上市时间的压力,任何能加速芯片设计流程的工具和技术都将极具价值。在验证和分析阶段,由于GPU的卓越计算性能,新思科技的PrimeSim和VCS仿真流程已经实现了显著的速度提升。尽管GPU并不适用于数字设计流程中的所有环节,但它在某些特定任务中无疑能够提供速度上的优势。

在数据中心,每个机箱平均部署64至128个先进高性能x86 CPU内核,部分机箱甚至有多达200个内核。某些任务需求对内核数量要求更高,因此需要多个机箱协同进行分布式处理。但如果网速不匹配,这种分布式处理就会带来额外的通信成本。RTL-to-GDSII流程和优化技术中包含许多相互依赖的关系。要成功并行执行流程中的每个作业,进行分布式处理的各个CPU机箱之间必须能够非常快速地完成数据共享,不能有任何延迟。然而在实际情况中,网络延迟对处理周期时间有着显著影响,进而导致整个RTL-to-GDSII流程的分布式并行难以达到理想效果。

另一方面,GPU内核可以轻松地进行扩展。由于每个GPU内核承担的操作较少而且体积极小,一个插槽内可以集成数万个内核,这样便可在占用空间可控的情况下,提供强大的处理能力。那些能从大规模并行处理中受益的任务非常适合交由GPU处理。然而,这些任务通常需要是单向的,因为任何需要决策和迭代的任务都会减慢处理速度,“或者/并且”需要返回CPU进行复杂的“if then else”条件判断逻辑。这就意味着,在RTL-to-GDSII数字实现流程中,并非所有任务都适合用GPU来执行。

通过GPU加速来加快布局过程

在数字设计流程中,自动布局是一项已经在GPU上得到充分应用并显示出巨大潜力的任务。新思科技的Fusion Compiler采用了GPU加速布局技术,在商业环境下的原型测试中,相较于传统CPU,已经证明了其在缩短周转时间方面的显著优势:

38秒即可完成一个3nm GPU流式多处理器设计的布局,其中包含140万个可布局标准单元和20个可布局硬宏,相比之下,CPU驱动的布局需要13分钟才能完成

82秒即可完成一个12nm汽车CPU设计的布局,其中包含290万个可布局标准单元和200个可布局硬宏,相比之下,CPU驱动的布局需要19分钟才能完成

结合新思科技AI驱动的设计空间优化解决方案DSO.ai,我们预计在保持相同完成时间线的前提下,将AI驱动型搜索空间扩大15至20倍。这一进步有望帮助开发团队在功耗、性能和面积(PPA)方面实现更卓越的设计成果。

在数字设计的多个实施步骤中,版图规划和布局对最终设计的功耗、性能和面积(PPA)有着重大影响,因此这两个步骤是最需要进行广泛探索的环节。即便GPU计算资源通常与高性能CPU计算集群分离,我们也能预见,在基于GPU的布局技术支持下,开发者能够高效完成工作。然而,在RTL-to-GDSII的整个实施流程中,如果其他环节存在即时或交替的GPU加速需求,设计数据在CPU与GPU集群之间的传输所引入的延迟,会对吞吐量产生影响。

新型数据中心SoC正在设计中引入CPU与GPU资源间的统一内存,以处理TB级的工作负载。得益于这类新兴架构,利用GPU加速时不再需要移动设计数据,我们也能进一步思考GPU加速还可以应用在数字设计流程的哪些其他方面。特别是当开发者能够将GPU与AI驱动的实施工具结合使用时,那必将实现更快的探索、更广的范围以及更优的结果。此外,新思科技的AI驱动型全栈式EDA解决方案Synopsys.ai,能够助力开发者实现更佳的性能、功耗与面积(PPA)结果、更快达成目标、并显著提升开发效率、实现更高的工程生产力,我们可以预见GPU加速技术的加入将进一步革新芯片设计领域。

总结

在芯片设计流程的仿真阶段,GPU的运用已司空见惯,数字设计流程的其他部分也将逐渐展现出利用GPU加速的潜力。面对大型芯片或Multi-Die这类复杂架构,CPU在运行RTL-to-GDSII流程时的算力已接近饱和,难以满足所期望的处理速度。而GPU以其卓越的可扩展性和处理能力,有望实现更快的设计周期和更佳的芯片性能。在使用GPU加速的布局工具进行的原型设计测试中,布局速度已实现高达20倍的提升。随着AI技术逐步融入EDA流程中,GPU的加入将显著提升功耗、面积和性能(PPA)指标,同时缩短产品上市时间。

审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SoC设计
    +关注

    关注

    1

    文章

    151

    浏览量

    19473
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261507
  • RTL
    RTL
    +关注

    关注

    1

    文章

    393

    浏览量

    62394
  • 数字芯片
    +关注

    关注

    1

    文章

    119

    浏览量

    19017
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6395

原文标题:当CPU算力趋近极限,GPU能否成为数字芯片设计的救星?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    “四合一”平台,芯片国产化率超九成,兼容8种国产AI芯片

    调度平台可支持每天上亿次的调用,能调度全国1/6的规模,网一体化效率提升20%。   为什么要搭建这个“四
    的头像 发表于 04-13 00:03 3565次阅读

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    CPUGPU到NPU,美格智能持续优化异构计算效能

    前言AI已成为数字经济时代的核心生产,但全球AI产业正面临“供给不足、成本高企、生态待建”三重挑战。据行业统计,行业
    的头像 发表于 11-21 16:05 716次阅读
    从<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>到NPU,美格智能持续优化异构<b class='flag-5'>算</b><b class='flag-5'>力</b>计算效能

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下
    发表于 10-27 13:12

    与电力的终极博弈,填上了AIDC的“电力黑洞”

    ),专注于提供人工智能训练与推理所需的服务、数据服务和算法服务。AIDC采用异构计算架构,结合GPU、FPGA、ASIC等多种AI加速芯片,形成高并发分布式系统,以
    的头像 发表于 09-22 02:43 7370次阅读

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前
    发表于 06-18 19:31

    搭建中心,从了解的GPU 特性开始

    ABSTRACT摘要本文介绍如何搭建,并介绍A100、H100、H200和B200这些GPU的特性。JAEALOT2025年4月23日随着人工智能、大数据和高性能计算(HPC)的快速发展,市场上
    的头像 发表于 04-24 11:08 2980次阅读
    搭建<b class='flag-5'>算</b><b class='flag-5'>力</b>中心,从了解的<b class='flag-5'>GPU</b> 特性开始

    芯片的生态突围与革命

    据的爆发式增长,大芯片已成为科技竞争的核心领域之一。   大芯片的核心应用场景丰富多样。
    的头像 发表于 04-13 00:02 2610次阅读

    DeepSeek推动AI需求:800G光模块的关键作用

    和性能方面展现了出色的优势,满足当前AI需求的快速增长。 高可靠性: 光模块经过温度、静电放电及机械耐久性等严格测试,确保在数据中心乃至户外等多种环境下均能保持稳定表现。
    发表于 03-25 12:00

    GPU 加速计算:突破传统瓶颈的利刃

    数字化时代,数据呈爆炸式增长,传统的已难以满足复杂计算任务的需求。无论是人工智能的深度学习、大数据的分析处理,还是科学研究中的模拟计算
    的头像 发表于 02-17 10:36 516次阅读

    GPU租用平台有什么好处

    当今,GPU租用平台为科研机构、企业乃至个人开发者提供了灵活高效的解决方案。下面,AI部落小编带您深入探讨
    的头像 发表于 02-07 10:39 715次阅读

    DeepSeek对芯片的影响

    DeepSeek模型,尤其是其基于MOE(混合专家)架构的DeepSeek-V3,对芯片的要求产生了深远影响。为了更好地理解这一影响,我们可以从几个方面进行分析。一.MOE架构对
    的头像 发表于 02-07 10:02 1616次阅读
    DeepSeek对<b class='flag-5'>芯片</b><b class='flag-5'>算</b><b class='flag-5'>力</b>的影响

    中心的如何衡量?

    (ComputationalPower)是指智中心通过其内部的计算设备(如CPUGPU、AI芯片等)对数据进行处理和计算的能力。它体现了智
    的头像 发表于 01-16 14:03 4200次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?
    的头像 发表于 01-16 10:24 796次阅读