0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器越多越新越好?实测Calibre任务性能曲线

Spinal FPGA 来源:Spinal FPGA 2023-07-13 15:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Siemens的Calibre是业内权威的版图验证软件,被各大Foundry厂广泛认可。用户可以直接在Virtuoso界面集成Calibre接口,调用版图验证结果数据,使用起来极为方便。

今天,我们就来聊聊这款软件。

版图验证是芯片设计中非常重要的一环,一共包括三个环节。

DRC(Design RuleCheck):检查版图是否符合Foundry厂的制造工艺规则,确保芯片能被正确生产出来;

LVS(LayoutVersus Schematic):版图工程师需要将画好的版图与原理图对比,确保两者所有连接保持一致;

寄生参数提取(Parasitic Extraction):将版图中的寄生参数提取出来,在Virtuoso中反馈结果,前端工程师会进行后仿验证,重新评估电路特性并进行修改,保证流片正确。

0a5f771a-1fd2-11ee-962d-dac502259ad0.jpg

这三个环节分别由Calibre的DRC、LVS、PEX三种工具来完成。

0a7dcc42-1fd2-11ee-962d-dac502259ad0.png

Calibre任务典型特性

重内存,可拆分,适合暴力堆机器

0a8c975e-1fd2-11ee-962d-dac502259ad0.png

Calibre任务有两大特性:

1、重内存需求,2T或4T的超大型内存机器都有可能登场

版图文件很大,需要处理的数据量非常大,但本身的逻辑判断并不复杂,所以通常不刚需高主频机型,但要求多核、大内存的机器。CPU与内存的比例通常能达到1:4或1:8,极端情况下这个比例会更高,2T或4T的超大型内存机器都有可能登场。

我们在下面两篇文章里仔细盘过模拟&数字芯片设计全流程的业务场景、常用EDA工具、资源类型、算力需求、典型场景:

芯片设计五部曲之一 | 声光魔法师——模拟IC

芯片设计五部曲之二 | 图灵艺术家——数字IC

2、可拆分,无关联,适合暴力堆机器

我们在模拟这篇文里写过版图验证就像是一个“大家来找茬“的游戏。

在运行任务的时候,Calibre会把版图切分成相互没有逻辑关系的块状分区,这些分区之间彼此没有相关性,互不干扰,所以可以同时进行。

切得越细,同时检查的人更多,效率就越高。

0a9b0a5a-1fd2-11ee-962d-dac502259ad0.png

三体里的切法大家还记得吧,一字横切。

而芯片只能竖着切,可以十字切法。横切会影响到芯片层与层之间的连接关系。

0a7dcc42-1fd2-11ee-962d-dac502259ad0.png

暴力堆机器也是有技术含量的

0a8c975e-1fd2-11ee-962d-dac502259ad0.png

1、 首先,要有光,你得有大内存的机器

我们的全球资源池可以根据用户需求在全球范围内调度海量云端异构资源。GPU、TPU、FPGA,要啥都有。

0ac4ac70-1fd2-11ee-962d-dac502259ad0.jpg

其中,FCC-B产品提供准动态资源池,拥有行业特需的大内存机型,具有较低的整体拥有成本。而且,可以扩展到FCC-E使用弹性资源。

总之,大内存的机器,没有问题。

那么,万一不是一直不够,是偶尔不够怎么办呢?

我们有一个小技巧,专门应用这种内存峰值场景。

Swap,交换分区,就是在内存不够的情况下,操作系统先把内存中暂时不用的数据,存到硬盘的交换空间,腾出内存来让别的程序运行。

比如跑一组Calibre任务需要10小时,其中9个小时的内存使用量都在200G左右,只有1个小时达到了260G。

0ada4cd8-1fd2-11ee-962d-dac502259ad0.png

如果选择256G内存的机型配置,任务必崩无疑。

但要是为了这1小时不到10G的内存溢出而全程使用512G的配置,成本翻倍,未免有点太不划算了。

使用Swap交换分区就可以无缝填补这一空缺,非常匹配这种内存峰值场景。

Swap的具体使用案例,戳这篇:Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?

注意:此方法不适合长期使用,磁盘的速度和内存相比慢了好几个数量级,如果不停读写 Swap,对系统整体性能有影响。

2、 怎么把这些机器组队管理起来?

有了机器,下一步当然是要把它们利用起来。

Calibre默认支持单机多核并行跑任务,这意味着只要机器足够大,就可以同时处理很多任务。

但是,当你的大机器不够多,或者根本拿不到大机器的时候,就很苦恼了。

我们的方法是:将所有机器组成一个集群——多机多核的方式同时跑多个任务。


关于单机、单核、单任务、多任务、集群化、并行化进一步的定义与区别,可以看这篇:揭秘20000个VCS任务背后的“搬桌子”系列故事

集群自动化管理,少量大机器需要,大量小机器就更需要了。

为啥?

理由一,能方便地自动化运维整个集群

比如软件安装配置、资源监控、集群管理等工作,是需要IT一台台机器去逐一手动操作,还是鼠标点几下就可以完成?

理由二,能快速方便地分配业务,提高资源利用率

比如,临时需要将一批机器从团队A划拨给团队B使用,有没有什么办法可以让IT快速方便地进行配置?

比如,因为资源使用的不透明和缺乏有序管理,会出现不同人对同一资源的争抢,任务排队等现象。同时,你会发现资源利用率还是不高。

3、怎么让机器自动化干活,不用人操心?

自动化干活可太有必要了。

否则,那么多任务,那么多机器,需要多少双手和眼睛才能忙得过来?

来,我们给你“手”和“眼睛”。

首先是我们的“手”——Auto-Scale功能。

来看一下本地手动跑任务与Auto-Scale自动化跑任务的区别:

0b11906c-1fd2-11ee-962d-dac502259ad0.png

基于我们自主研发的调度器——Fsched,Auto-Scale自动伸缩功能自动化创建集群,自动监控用户提交的任务数量和资源需求,动态按需地开启与关闭所需算力资源,做到分钟级弹性伸缩,在提升效率的同时有效降低成本。

更多疗效,戳这篇:Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?

有了“手”干活,还得有“眼睛”盯着防止出错。

我们能多维度监控任务状态,提供基于EDA任务层的监控、告警、数据统计分析功能与服务。

0b2593e6-1fd2-11ee-962d-dac502259ad0.jpg

如果没有这双“眼睛”,可能出现哪些问题?戳这篇:【案例】95后占半壁江山的浙桂,如何在百家争鸣中快人一步

未来我们还会有一篇文章专门讨论EDA领域基于业务的监控功能,敬请期待哦~

你看,不仅可以自动化跑任务,还能时刻帮你盯着任务是否出错。

0a7dcc42-1fd2-11ee-962d-dac502259ad0.png

来,我们小暴力一下

0a8c975e-1fd2-11ee-962d-dac502259ad0.png

先说结论:

我们在单台大机器和多台小机器组合场景下分别跑了同一组Calibre任务。

单台大机器场景下,随着核数的增加,任务耗时呈现明显的线性下降关系,整体性能曲线非常贴近基准线(单机核数有上限,本次实证中,我们使用的最大单机为128核,并根据32核、64核、128核的耗时规律预估了256核单机的耗时数据,仅供参考)。

多台小机器组合场景下,随着机器数量的翻倍,任务耗时同样线性下降,但在后期倍数关系上有所损耗,多机性能曲线略低于基准线和单机性能曲线。

0b50488e-1fd2-11ee-962d-dac502259ad0.png

实证过程:

1、使用fastone云平台调度32核、64核、128核单机分别运行一组Calibre任务,耗时分别为14小时57分49秒、7小时30分28秒、3小时50分11秒;

2、按上条实证数据,预估使用fastone云平台调度256核单机运行一组Calibre任务的耗时为1小时58分6秒;

3、使用fastone云平台调度2、4、8台32核机器分别运行一组Calibre任务,耗时分别7小时43分51秒、4小时6分14秒、2小时15分34秒。

0a7dcc42-1fd2-11ee-962d-dac502259ad0.png

还有大家关心的Intel第四代机器

我们也搞来跑了一下

0a8c975e-1fd2-11ee-962d-dac502259ad0.png

在上一节中,我们使用的均为第三代英特尔至强可扩展处理器,而在2023年1月11日,英特尔正式推出了第四代至强可扩展处理器。

我们立马搞来跑了一遍,为了对比参照,我们还拉上了第二代和第三代,并且把核数都按比例换算为48核。

实证过程:

1、使用fastone云平台调度48核第二代英特尔处理器运行一组Calibre任务,耗时10小时46分26秒;

2、使用fastone云平台调度48核第三代英特尔处理器运行一组Calibre任务,耗时9小时56分13秒,相比第二代提升7.77%;

3、使用fastone云平台调度48核第四代英特尔处理器运行一组Calibre任务,耗时8小时18分43秒,相比第三代提升16.35%,比第二代提升22.85%。

0bb8389a-1fd2-11ee-962d-dac502259ad0.png

可以看到每一代都有提升,且型号越新,提升幅度越大,三代比二代提升了7.77%,四代比三代提升了16.35%。

而在价格上,目前四代和三代的类似机型换算一下,几乎是相同的。

实证小结

1、Calibre DRC/LVS/PEX不刚需高主频机型,但要求多核、大内存的机器,任务可拆分,适合暴力堆机器;

2、fastone云平台的全球动态资源池、集群自动化管理能力、自动化跑任务并监控告警的功能可完美匹配Calibre的需求;

3、随着计算资源的提升,Calibre的任务耗时呈现明显的线性关系,其中单机整体性能曲线非常贴近基准线,多机效果后期会略有折损;

4、最新型号的处理器可以大幅提升Calibre的效率,可根据项目周期与实际预算综合考量机型配置。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电路
    +关注

    关注

    173

    文章

    6063

    浏览量

    177487
  • 数字IC
    +关注

    关注

    2

    文章

    38

    浏览量

    13326
  • Calibre
    +关注

    关注

    0

    文章

    19

    浏览量

    10067

原文标题:机器越多越新越好?实测Calibre任务性能曲线

文章出处:【微信号:Spinal FPGA,微信公众号:Spinal FPGA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    IV曲线测试仪:电子器件的“性能解码师”

    IV曲线测试仪:电子器件的“性能解码师” 柏峰【BF-CV1500】在半导体研发的实验室、光伏组件的生产车间,或是电子设备的故障诊断现场,IV曲线测试仪都是不可或缺的“核心工具”。它通过精准调控电压、采集电流,绘制出电子器件的电
    的头像 发表于 11-12 14:51 195次阅读
    IV<b class='flag-5'>曲线</b>测试仪:电子器件的“<b class='flag-5'>性能</b>解码师”

    太阳能IV曲线测试仪:光伏检测的“性能探针”

    太阳能IV曲线测试仪:光伏检测的“性能探针”柏峰【BF-CV1500】太阳能IV曲线测试仪是专为光伏组件及系统性能检测设计的专业设备,以“精准采集+深度分析”为核心优势,
    的头像 发表于 11-06 13:29 191次阅读
    太阳能IV<b class='flag-5'>曲线</b>测试仪:光伏检测的“<b class='flag-5'>性能</b>探针”

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    开发板的实际演示证明,RK3576能够轻松处理三屏显示和八路摄像头输入的复杂任务,同时保持低功耗和低发热特性,为机器人应用提供了理想的性能基础。 实测见证:RK3576轻松驾驭三屏八摄
    发表于 10-29 16:41

    IV曲线测试仪:光伏组件性能评估的“精准标尺”

    IV曲线测试仪:光伏组件性能评估的“精准标尺”柏峰【BF-CV1500】在光伏系统的性能优化与质量管控中,准确掌握组件的电性能参数是核心前提。IV
    的头像 发表于 10-21 09:48 1110次阅读
    IV<b class='flag-5'>曲线</b>测试仪:光伏组件<b class='flag-5'>性能</b>评估的“精准标尺”

    光伏组件IV曲线测试仪:解锁光伏组件性能的“能量图谱仪”

    光伏组件IV曲线测试仪:解锁光伏组件性能的“能量图谱仪”柏峰【BF-CV1500】光伏组件的输出特性是决定电站发电效率的核心,而IV(电流-电压)曲线作为组件性能的“指纹图谱”,包含了
    的头像 发表于 10-15 10:49 352次阅读
    光伏组件IV<b class='flag-5'>曲线</b>测试仪:解锁光伏组件<b class='flag-5'>性能</b>的“能量图谱仪”

    RK3506开发板Xenomai内核RT-Linux实时性系统适配教程与性能实测实测仅7μs稳定延时

    本文基于触觉智能RK3506核心板/开发板,介绍Xenomai内核RT-Linux实时性系统适配,并附性能实测。简介与实测数据Xenomai简介XEnomai是一个实时子系统,可与Linux内核紧密集成,为应用程序提供可预测的响
    的头像 发表于 09-18 14:21 896次阅读
    RK3506开发板Xenomai内核RT-Linux实时性系统适配教程与<b class='flag-5'>性能</b><b class='flag-5'>实测</b>,<b class='flag-5'>实测</b>仅7μs稳定延时

    光伏电站组件IV曲线测试仪:光伏组件的 “性能体检仪”

    光伏电站组件IV曲线测试仪:光伏组件的 “性能体检仪” 柏峰【BF-CV1500】在光伏电站的日常运维、新组件验收或故障诊断现场,一款能精准绘制光伏组件 “电流 - 电压(IV)曲线” 的设备,正成为评估组件
    的头像 发表于 09-08 16:05 751次阅读
    光伏电站组件IV<b class='flag-5'>曲线</b>测试仪:光伏组件的 “<b class='flag-5'>性能</b>体检仪”

    疆第10万台机器人成功下线 机器人成为首家出货量突破10万台的企业

    据悉,疆协作机器人生产基地第10万台机器人已经正式下线。这意味着机器人成为首家出货量突破10万台的企业。 深圳市
    的头像 发表于 08-25 19:36 1134次阅读

    PCB反焊盘的样子诡异,高速过孔的性能越好

    的。走线的线宽宽,需要参考的地平面就需要远一点,同样的,过孔的孔径越大,需要挖空的反焊盘也相应需要大一点。原理我都懂,但是具体要挖多大才是大呢? Chris拿一个具体的例子给大家分享下哈,这是一个
    发表于 08-04 16:00

    高速PCB铺铜到底怎么铺

    在日常PCB设计中,我们经常会看到整版大面积铺铜,看起来既专业又美观,好像已经成了“默认操作”。但你真的了解这样做的后果吗?尤其是在电源类板子和高速信号板中,铺铜可不是越多越好,处理不好反而会影响电气性能甚至埋下安全隐患!
    的头像 发表于 07-24 16:25 2945次阅读
    高速PCB铺铜到底怎么铺

    机器人看点:机器人正式发布六足仿生机器狗 智元公布机器人运动控制模型专利

    给大家带来两个机器人的最新消息: 机器人正式发布六足仿生机器狗 7月9日,深圳机器人正式
    的头像 发表于 07-09 15:03 1758次阅读

    干式电力变压器选型指南:5个关键参数帮你避开90%的坑

    这篇干式电力变压器选型指南,用5个关键的核心参数,帮你理清思路,避开90%的常见错误。记住:选对一台变压器,不是“参数越多越好”,而是“参数匹配需求越好”。
    的头像 发表于 07-07 09:29 1944次阅读
    干式电力变压器选型指南:5个关键参数帮你避开90%的坑

    升降速曲线对直线电机系统性能影响的研究

    摘要:对一次速度曲线升降速,二次速度曲线升降速,三次速度曲线升降速以及三角函数速度曲线升降速曲线进行了分析,并对后3种升降速
    发表于 06-17 08:48

    PCB板层数越多越好吗?SMT加工中的利与弊分析

    一站式PCBA加工厂家今天为大家讲讲PCB板层数对SMT加工有什么影响?PCB板层数对SMT加工的影响。在电子产品生产中,PCB是核心的组成部分,其层数设计直接关系到产品的性能和加工效率。而SMT
    的头像 发表于 06-05 09:35 676次阅读

    功率分析仪带宽是否越好

    功率分析仪带宽宽,对被测对象的适用性越强,就这一点而言,带宽越好!实际选购时,需要注意: 仪器的真实带宽是多少?或者说,在实际使用中,仪器的宽频带性能能够施展多少? 带宽相关指标
    的头像 发表于 04-27 09:41 515次阅读
    功率分析仪带宽是否<b class='flag-5'>越</b>宽<b class='flag-5'>越好</b>?