0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

怎么看见和定量分析验证平台的时间呢

工程师邓生 来源:杰瑞IC验证 作者:Jerry 2022-08-30 09:23 次阅读

我们说的“提速”到底提的是什么时间?

1、验证仿真中的“3个时间”

在验证仿真过程中,我们脑中需要闪过至少3个概念:

墙上时钟时间(wall clock time)

cpu时间(cpu time)

仿真时间(simulation time)

他们都是什么呢?

1.墙上时钟时间(wall clock time):

顾名思义,它是“挂在墙上的时钟”的时间,这个时间也就是我们真实世界真正“走过的时间”。

你跑一个case,对于linux系统来说,就是一个或多个进程,而这个wall clock time,它是进程运行的时钟总量。它除了包括cpu真正的运行时间之外,还包括了如:

就绪时间:

进程具备运行条件,但是还没有CPU资源可用。例如你提交了一个case,但是半天提不上去跑不起来,可能因为其他人的case太多,导致机器满载了,等别人释放了之后你的case才真正获得cpu资源运行起来。

阻塞时间:

例如你的case已经跑起来了,发现某个vip lisence不够了,“卡”到那里了。

或者例如你编译运行过程中因为磁盘不太充足出现的卡顿现象等。

2.cpu时间(cpu time):

当进程运行起来之后,占用cpu进行计算花费的时间。同样是代码在cpu上运行,依据代码类别不同,cpu时间也分为用户cpu时间和系统cpu时间。

用户cpu时间是代码在用户态(User Mode)运行的时间。

系统cpu时间是代码在内核态(Kernel Mode)运行的时间。

我们可以简单理解:依据代码权限不同,用户态执行用户代码,内核态执行的是操作系统代码。这里不深入展开了,感兴趣的朋友可以查阅一些资料(为什么这里要多引申提一下这个概念,主要帮没有听过这些概念的朋友,在仿真性能分析报告中如果碰到相关词汇,至少可以有一个简单的感性认知)。

此外,从前面的wall clock time解释可以看出,比如你的case被阻塞了、挂起了是不占用cpu时间的,但是真实时间还是继续走的。有兄弟可能会问:“照这么说,wall clock time是不是肯定是大于cpu time?”

答案是:不一定。

如果是多核处理器机器上,cpu总时间是所有不同线程或进程cpu时间之和,此时wall clock time时间就会比cpu总时间小了。其实依据wall clock time和cpu总时间的关系,也把进程分为计算密集型(wall clock time小于cpu time,有多核并行的优势)和I/O密集型(wall clock time大于cpu time,没有多核优势,很多等待时间)。

举一个例子,如下截图,VCS软件对于verilog设计部分的编译过程中,允许通过-j选项指定并行数量。在选择合适的并行数量的情况下,相关部分编译的wall clock time就会小于cpu time哦~

189de864-27e1-11ed-ba43-dac502259ad0.png

3.仿真时间(Simulation time)

仿真时间是仿真器维护的时间,就是我们波形中看到的那个多少ns多少ps那个时间,它显然不是仿真过程中真实的时间。这个时间是为了表示实际电路的运行时间,给电路仿真建模用的一个“数字”。

我们知道SystemVerilog是在值的更新、计算等一个个离散事件的相互触发“推着”往前走的(推着走的单位就是也就是我们之前讲过的global time precision,也就是timeslot)。

所以仿真时间长短和运行时间长短、仿真速度没什么关系,主要是看“步子”有多少。在其他所有因素都一样的情况下,谁的事件少、推的步子少谁仿真的速度也就更快。

再举个例子:`timescale 1ns/1ps 和`timescale 10ns/10ps,它们的time unit和time precision都同时扩大了10倍,但它们的比值是一样的,即“步子”数量是一样的。在其他背景完全一样的相同仿真单位度量情况下(这里指的不带具体单位,如,#1;前者代表运行1ns后者表示运行10ns),仿真速度是一样的。

Tips:我们说平台提速到底要提哪个时间?

刚才Jerry给大家抛出了验证仿真的“3个时间”,我们回到本系列文章“验证仿真提速”主题,抛出一下最底层的问题:我们追求“提速”,根本目标是想要减少哪个时间?

没错,我们追求的最根本目标是减少墙上时钟时间(wall clock time),即我们需要的是减少自己浪费的真实世界的时间,多跑几轮case或者早点跑出结果早下班。如果你费尽心思减少cpu time、仿真时间,最后wall clock time没有降下来对于我们有个毛线意义??虽然如前面有提到这3个时间有相关性,但是希望大家心中一定要明确我们的根本目标。

2、怎么看见和定量分析验证平台的时间?

有了前面的认知铺垫,我们回到实战。如何定量分析验证平台的时间和资源,我们以VCS工具为例(其他家工具大家自行探索),一般可以有两种抓取性能信息的方式,一种是以“轻量级”的方式输出编译和运行仿真过程中的性能汇总信息,一种是相对“重量级”的方式进一步详细分析仿真运行性能信息。第二种为什么说比较“重量级”呢?主要原因是它本身就会造成很大的时间消耗。我们都简要介绍一下:

1.以“轻量级”的方式输出编译和运行仿真过程中的性能汇总信息。

增加vcs编译选项: -reportstats

增加simv仿真选项:-reportstats

工具将会直接把编译和运行的汇总性能报告直接打印在屏幕上,我们示意性跑出来的一组截图如下:

18cd3cc2-27e1-11ed-ba43-dac502259ad0.png

18db4484-27e1-11ed-ba43-dac502259ad0.png

上面的主要细节vcs手册解释原文如下:

• VCS start time

• Elapsed real time: wall clock time from VCS start to VCS end

• CPU time: Accumulated user time + system time from all

processes spawned from VCS

• Peak virtual memory size summarized from all the contributing

processes at specific time points

• Sum of resident set size from all the contributing processes at

specific time points

• Sum of shared memory from all the contributing processes at

specific time points

• Sum of private memory from all the contributing processes at

specific time points

• Major fault accumulated from all processes spawned from VCS

我们本篇主要关心时间,有了前文的铺垫相信这里可以看得比较清楚了。

从上面的解释可知:Elapsed real time就是编译或运行阶段的墙上时钟时间(wall clock time),cpu time是vcs产生所有进程的用户cpu时间和系统cpu时间总和。

顺便,从这个举例的截图报告也可以明显看出wall clock time大于cpu time,没有任何多核优势,属于I/O密集型。

这里提一个点,我们前面讨论3种时间的时候可以了解到:即使是跑同样的case,用同样的种子,跑出来的时间统计信息也一定会因为磁盘状态等原因而不同。所以对于测试某种手段是否减少了总时间花费,是否有收益(尤其是不太明显的手段),单纯的通过前后两次跑同样的case,对比统计结果是不足以判别的,如果不是明显的提速手段,可能会出现使用后wall clock time和cpu time反而比使用前花费更多时间。但是如果基于相同的服务器等因素的状态,或基于统计的方式多次测试评估,就可以看出总体速度的提升趋势。

2.以相对“重量级”的方式进一步详细分析仿真运行的性能信息。

增加vcs编译选项 -lca -simprofile

增加simv仿真选项 -simprofile time

(这个仿真选项后面除了跟time观测仿真时间信息还可以加:如mem收集服务器内存消耗信息等,当然也可以如time+mem同时收集) 这些选项加了之后,工具会生成如下带“profile”关键词的文件和文件夹,我们主要看profileReport.html文件。

18ef5d8e-27e1-11ed-ba43-dac502259ad0.png

html文件打开后会发现分左右两个区域,通过左边区域可以控制出现在右边区域你想要看到的性能信息,示意图如下:

19116212-27e1-11ed-ba43-dac502259ad0.png

Jerry通过time+mem的选项,随意跑了一个case,相关的summary示意图如下:

192c6418-27e1-11ed-ba43-dac502259ad0.png

我们还是关心time,主要贴下time的相关copmponent的含义(下面有的条目在上图例子中不涉及,别的case也许就会有):

•CONSTRAINT

The CPU time needed to solve and simulate the SystemVerilog constraint blocks.

•KERNEL

The CPU time needed by the VCS kernel. This CPU time is separate from the CPU time needed to simulated your Verilog or SystemVerilog, VHDL, SystemC, or C or C++ code for your design and testbench.

•VERILOG

The CPU time needed by VCS to simulate this example’s SystemVerilog code, which is a program block. For Verilog and SystemVerilog there are sub-components.

•DEBUG

The CPU time needed by VCS to simulate this example with the debugging capabilities of Verdi and the UCLI or to write a simulation history VCD or FSDB file.

•Value Change Dumping

The CPU time needed by VCS to write a simulation history VCD or VPD file.

•VHDL

For VCS only, the CPU time needed to simulate the VHDL code design.

•PLI/DPI/DirectC

The CPU time needed by VCS to simulate the C/C++ in a PLI, DPI, or DirectC application.

•HSIM (Hybrid Simulation)

This is about the CPU time used by HSOPT (Hybrid Simulation Optimization). The HSIM bucket indicates the CPU time consumption of design constructs that are optimized by HSOPT. It has become prominent in GLS design/RTL. The HSIM cost is more with GLS design because most constructs are optimized by HSOPT. But it cannot be zero because there are some global HSIM activities.

•COVERAGE

The CPU time needed for functional coverage (testbench and assertion coverage). Code coverage is not part of this component.

•SystemC

The CPU time needed for SystemC simulation.

通过调节前面提到html左边区域选项,还可以看到更多的信息,如进一步查看仿真过程中rtl和tb各个模块层级花费的时间信息,这里就不多赘述了,其他的玩法大家感兴趣可以自己研究。

这种“重量级”的方式,虽然会拖慢仿真时间,但一个优势是收集的信息更加详细,可以更直观的看到各部分资源消耗百分比,更好的协助我们找到消耗时间的性能瓶颈,提供优化方向和缩小优化范围。

结语

我们今天围绕“时间”这个主题,首先讨论了验证仿真中的“3个时间”建立了基础认知,接着明确了平台提速到底要提哪个时间?最后以vcs工具举例了怎么收集和分析相关信息。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10442

    浏览量

    206564
  • 时钟
    +关注

    关注

    10

    文章

    1479

    浏览量

    130306
  • 多核处理器
    +关注

    关注

    0

    文章

    108

    浏览量

    19742

原文标题:验证仿真提速系列--认识“时间”与平台速度定量分析

文章出处:【微信号:处芯积律,微信公众号:处芯积律】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    电能质量分析仪功能介绍

    保定联智电气的电能质量分析仪器是专门用于检测电网中发生波形畸变、谐波含量和三相不平衡等电能质量问题的高精度测试仪器;同时还具备电参量测试、谐波判断、矢量分析、历史查阅的功能。 电能质量分析仪 1.
    的头像 发表于 03-22 08:55 157次阅读

    热重分析仪的热重分析法有哪些应用?

    热重分析法的主要应用是精确测定几个相继反应的质量变化。质量变化的大小与直接所进行反应的特定化学计量关系有关。所以,可以对已知样品组成的试样进行精确的定量分析,此外通过热重量曲线还能推断样品的磁性转变
    的头像 发表于 03-08 16:31 469次阅读
    热重<b class='flag-5'>分析</b>仪的热重<b class='flag-5'>分析</b>法有哪些应用?

    片上中红外铟镓砷悬浮波导气体传感器研究

    大多数气体分子在中红外光谱范围(2.5~20 μm)内具有振动特征吸收峰,这一特性可应用于痕量气体检测和定量分析
    的头像 发表于 03-01 09:24 250次阅读
    片上中红外铟镓砷悬浮波导气体传感器研究

    电能质量分析仪的作用有哪些呢?

    电能质量分析仪是一种专门用于分析电网运行质量的专用仪表,可以准确快速地测量与功耗和发电相关的各种参数,包括电压、电流、相角、功率因数、有功功率、频率等多种电参量。同时,它还具备电参量测试和矢量分析的功能,有效帮助用户
    的头像 发表于 12-04 14:25 459次阅读
    电能质<b class='flag-5'>量分析</b>仪的作用有哪些呢?

    利用拉曼光谱对制药应用的条状薄膜进行实时定量分析

    、食品、电子和能源行业应用的颗粒特性。除了工程颗粒之外,他和他的同事还专注于模式识别和聚类分析。 图1:由于FNB的存在,非诺贝特(FNB)条带膜和纯FNB粉末出现了1092 cm -1和1148 cm -1处的拉曼线,而由于基材的原因没有出现明显的拉曼线。数据由 Guluzar Gor
    的头像 发表于 12-01 10:27 110次阅读
    利用拉曼光谱对制药应用的条状薄膜进行实时<b class='flag-5'>定量分析</b>

    如何使用SBC ToolBox云平台进行时间序列分析

    使用SBC ToolBox云平台时间序列分析模块探索基因集在不同时间点的表达趋势,使用c-means算法对基因集进行聚类分群,寻找出表达趋势一致的基因集。
    的头像 发表于 09-20 16:52 689次阅读
    如何使用SBC ToolBox云<b class='flag-5'>平台</b>进行<b class='flag-5'>时间</b>序列<b class='flag-5'>分析</b>?

    工业X光机的功能及其应用领域介绍

    及其应用领域。 一、工业X光机的主要功能 1. 无损检测:利用X光透视技术,工业X光机可以在不破坏或改变被检测物体的前提下,检测其内部结构和存在的缺陷。 2. 定量分析:通过测量X光的强度和分布,工业X光机能够对被检测物体进行定量分析
    的头像 发表于 09-08 14:06 450次阅读

    上拉下拉电阻的作用和应用场景 RS-485上下拉电阻如何选择

    首先,想说上拉电阻几乎都是应运三极管电路而生的,但是本文基本上都属于定性的分析,避免对其定量分析,相信即使没有学过三极管晶体电路的同学还是可以基本理解的。
    的头像 发表于 08-28 11:12 3227次阅读
    上拉下拉电阻的作用和应用场景 RS-485上下拉电阻如何选择

    三合一微流控液滴数字PCR平台,用于DNA绝对定量分析

    目前,液滴数字PCR(droplet digital PCR,ddPCR)技术以其可调的动态检测范围和出色的绝对定量能力,在核酸超敏分析领域得到广泛应用。
    的头像 发表于 07-31 10:36 829次阅读
    三合一微流控液滴数字PCR<b class='flag-5'>平台</b>,用于DNA绝对<b class='flag-5'>定量分析</b>

    124. 任务124:池化层的原理 定量分析 - 副本 #硬声创作季

    神经网络深度学习
    充八万
    发布于 :2023年06月21日 19:08:19

    科普|电能质量分析仪的应用和优点

    电能质量分析仪已经成为了企业电气安全和正常运转的设备之一,其可靠性和使用效果受到广泛认可。企业如果想要提高设备的工作效率,延长设备的寿命,降低电能成本,就要尽可能利用电能质量分析仪的优点,并不断改进和完善设备,实现企业的可持续发展。
    的头像 发表于 06-19 16:04 451次阅读

    可重用的验证组件中构建测试平台的步骤

    本文介绍了从一组可重用的验证组件中构建测试平台所需的步骤。UVM促进了重用,加速了测试平台构建的过程。 首先对 测试平台集成者(testbench integrator) 和 测试编写
    的头像 发表于 06-13 09:14 354次阅读
    可重用的<b class='flag-5'>验证</b>组件中构建测试<b class='flag-5'>平台</b>的步骤

    Easygo 实时仿真丨微网孤岛运行下储能控制策略仿真应用

    效果有轻微差距,但是从matlab、半实物和实际样机的数据来看,半实物能代替实际样机进行定性和定量分析验证了EasyGo 仿真平台的准确性与可靠性,为用户提供高效、安全的测试平台。欢
    发表于 06-08 14:57

    藏不住了,反相比例运放居然有缺陷!

    今天我们继续聊第4篇。在聊正式内容之前,先回复下在上一篇《爆肝2000字-定量分析运放的平衡电阻》中留的拓展问题:在如下交流耦合输入电路中,平衡电阻Rp应当如何取值?
    的头像 发表于 05-29 09:46 1008次阅读
    藏不住了,反相比例运放居然有缺陷!

    一种用于气相增强拉曼传感的新型光学反馈频率锁定线型F-P腔增强技术

    拉曼光谱法能克服传统色谱法气体检测时间长、易老化等不足,又能弥补吸收型光谱法无法直接测量同核双原子分子的弱点,基于单一频率激光器能实现多组分混合气体同时定性和定量分析
    的头像 发表于 05-20 11:30 842次阅读
    一种用于气相增强拉曼传感的新型光学反馈频率锁定线型F-P腔增强技术