0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浅谈GPU: 衡量计算效能的正确姿势(1)

Linux阅码场 来源:面包板社区 作者:Linux阅码场 2021-04-16 11:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

琢磨了好几天,也不知道公众号第一篇正式文章应该怎么写。现在很后悔在朋友圈高调公开公众号,还竟敢宣称有15年行业经验,大家不要信以为真,其实不过是一年经验重复了十几年而已。连知乎的小朋友都知道问问题的正确姿势,我真是有些汗颜。

言归正状,万事开头难,现在骑虎难下,也只好勉力为之。在这里想先介绍些今后文章经常会涉及的一些指标概念,希望能达成基本的共识,到时候交流起来会方便些。

Lateny和Throughput

1 延迟(latency),完成一个任务所需要的时间。

2.吞吐量(throughput),单位时间完成的任务量。

体系结构大神David.A.Patterson在他的著作《计算机组成和设计》用洗衣过程来做譬喻。洗衣过程由清洗,烘干,折叠,收纳四个环节组成,每个环节耗时30分钟,所以每次洗衣任务的latency是2个小时,没有优化以前,8个小时的完成4次洗衣任务,所以throughput只有0.5。

f85aacca-9e22-11eb-8b86-12bb97331649.png

经过流水线改造以后,效率得到改善,虽然每次洗衣还是花费2小时,但单位时间完成的任务量大大提升,4次洗衣任务只花了3.5个小时。

f8699bae-9e22-11eb-8b86-12bb97331649.png

我们可以把生活常识映射到处理器的流水线(Pipeline)设计,处理器的指令Pipeline通过实现指令级的并行(Instruction Level Parallelism)来提高throughput。这种ILP的优化对码农们就是免费的午餐,躺着程序性能就上去了。

f877aef6-9e22-11eb-8b86-12bb97331649.png

另外,如下图,我们也可以通过多核CPU或者内置很多计算单元的GPU来提高程序整体的性能(throughput),这种优化属于线程级并行(Thread Level Parallelism)。相比ILP,TLP对码农不太友好,不再供应免费的午餐,我们需要编写多线程程序,甚至通过专门的接口(CUDA/OpenCL)让CPU/GPU忙碌起来,才能得到性能的提升。

第一篇先写到这儿了,再长就没人看了,接下来会介绍其它几个重要概念。
编辑:lyn

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20377

    浏览量

    255600
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11370

    浏览量

    226394
  • 吞吐量
    +关注

    关注

    0

    文章

    49

    浏览量

    12703
  • 延迟
    +关注

    关注

    1

    文章

    74

    浏览量

    13998

原文标题:GPU: 衡量计算效能的正确姿势(1)

文章出处:【微信号:LinuxDev,微信公众号:Linux阅码场】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    aduc841的定时周期的正确计算方法是怎么样的

    ADUC841,MCU外接11.0592M的晶振,不分频,目前使用ADUC841的定时器0,配置为模式1,TH0设置为0x028,TL0设置为0x00,按照理论计算定时周期应该是6s吧,实际测量是1s,请问aduc841的定时周
    发表于 05-15 06:55

    2026年1至2月中国集成电路出口额同比大增69%

    根据海关总署3月10日公布的数据,今年1月和2月,中国集成电路(IC)出口额达到3046.7亿元,同比增长68.9%。按数量计算,集成电路出口量比上年同期增长13.7%,达到524.6亿个。
    的头像 发表于 03-14 14:04 1073次阅读

    成功案例:象帝先计算技术与Imagination合作——面向现代图形与计算工作负载的专业GPU

    为专业计算设计桌面GPU桌面GPU不仅用于游戏,还能加速从专业可视化、高级模拟到数据密集型计算在内的多种现代工作负载。专业用户需要能在多种应用场景中稳定运行的高性能、多功能平台。构建桌
    的头像 发表于 03-09 09:17 547次阅读
    成功案例:象帝先<b class='flag-5'>计算</b>技术与Imagination合作——面向现代图形与<b class='flag-5'>计算</b>工作负载的专业<b class='flag-5'>GPU</b>

    STPMC1可编程多相电能计算器IC:设计与应用详解

    ,我们就来深入探讨一下STPMC1的特性、功能、工作原理以及在实际应用中的设计要点。 文件下载: STPMC1BTR.pdf 一、STPMC1的核心特性 1.1 多相支持与能量计算 S
    的头像 发表于 03-02 16:55 666次阅读

    炎核开源开放平台上架推出OpenSparseBlas高性能稀疏计算

    在科学计算与工程仿真领域,高效处理大规模稀疏矩阵运算是提升整体计算效能的关键。为此,我们在炎核开源开放平台上架推出 OpenSparseBlas——一个专为稀疏矩阵/向量计算而打造的高
    的头像 发表于 12-15 15:18 1082次阅读

    汽车中的GPU是如何使用的?

    。我们从GPU在汽车中的应用场景及其具体需求出发,深入探讨了GPU对汽车行业发展的影响,并对未来趋势提出了关键判断。1GPU计算在汽车中的
    的头像 发表于 12-03 14:45 9768次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    分体电磁流量计正确接线方法!

    量计
    jzyb
    发布于 :2025年10月24日 18:18:36

    绝缘子漏电起痕试验仪泄漏电流信号的小波变换分析及电弧能量计算

    手段;而基于该分析结果的电弧能量计算,则能量化电弧对绝缘子性能的影响,两者共同为试验结果的精准解读与绝缘子耐痕性能评估提供科学依据。​ 泄漏电流信号的小波变换分析,核心在于对信号的“分层解析与特征提取”。试
    的头像 发表于 10-15 09:43 595次阅读
    绝缘子漏电起痕试验仪泄漏电流信号的小波变换分析及电弧能<b class='flag-5'>量计算</b>

    如何正确使用分体式电磁流量计

    量计
    jzyb
    发布于 :2025年09月16日 18:05:13

    一步步教你正确的电磁流量计安装

    在电磁流量计安装过程中,您是否遇到过流量计测量不准、维修困难甚至彻底失效的问题?很多时候,并不是仪表本身有问题,而是安装细节被忽略了。电磁流量计直管段不够、孔板流量计差压变送器安装位置
    的头像 发表于 09-06 10:38 4644次阅读
    一步步教你<b class='flag-5'>正确</b>的电磁流<b class='flag-5'>量计</b>安装

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    如何选择合适的电池电量计

    最优的电池性能依赖于驱动电量计算法的高精度的电池模型。花费大量时间进行定制特征分析能够获得高精度电池性能、最大程度减小电池电量的(SOC)误差,以及正确预测电池何时接近空电量。
    发表于 07-10 14:23 1次下载

    【VisionFive 2单板计算机试用体验】1、开箱初体验(刷系统+静态IP设置+GPU跑分测评)

    衷心感谢电子发烧友论坛! 1、开箱刷系统 开箱图片 大概手掌大小,双网口,四个USB口,外设资源很充足。要是能再加个WIFI和蓝牙模块就完美了。 刷系统 搞了一张64G的TF卡 准备以下
    发表于 07-09 21:50

    如何计算孔板流量计和平衡流量计的流量?计算公式一样吗?

    平衡流量计与孔板流量计作为差压式流量计的典型代表,虽均基于压力差与流量的数学关系进行计算,但是平衡流量计
    的头像 发表于 07-09 13:54 1254次阅读
    如何<b class='flag-5'>计算</b>孔板流<b class='flag-5'>量计</b>和平衡流<b class='flag-5'>量计</b>的流量?<b class='flag-5'>计算</b>公式一样吗?

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行
    的头像 发表于 05-30 10:36 2082次阅读
    <b class='flag-5'>GPU</b>架构深度解析