0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU基准测试实现从数字到有意义数据的飞跃

星星科技指导员 来源:嵌入式计算设计 作者:Ed Plowman 2022-06-21 14:27 次阅读

只要过程存在,合成 GPU 基准测试和其他性能基准测试就一直是嵌入式行业争论的焦点。从历史上看,GPU 基准测试除了关注性能的宏观子部分之外几乎没有提供什么,同时声称告诉人们 GPU 的整体性能。客户应得的不仅仅是这些,尤其是考虑到这些数字与购买决策相关的权重时。

当今的基准测试问题可以总结为一个简单的问题:在投资任何形式的技术时,您是否会更自在地了解使用现实世界的示例执行某项操作,或者您是否愿意在理论上的情况下工作?了解诸如 GPU 提供用户喜爱游戏的图形的难易程度以及以合适的 fps 播放它们的时间长度等信息对消费者和 OEM 级别都有用。

移动 GPU 正处于类似于桌面 GPU 基准测试所经历的演变之中:

· 第 1 阶段:基准测试包括对每秒架构三角形和每秒像素速率的极度理论化和有些混淆的比较。

· 第 2 阶段:以前的基准被开发成实际应用程序,据称可以在任意旋转物体之前测量三角形和像素。

· 第 3 阶段:基准包括专门设计用于测试 GPU 的最大计算能力的合成游戏场景。这就是我们现在使用移动 GPU 的地方。

· 第 4 阶段:基准扩展以涵盖通过运行实际内容获得的指标比较,并以此为基础评估每个 GPU 的优点。

案例研究:实际应用与综合基准测试

逐帧检查基准可以为情况提供更多色彩。当前流行的基准测试声称对 GPU 进行压力测试,以发现它们在特定时间段内可以提供的最大帧数。虽然有些观众可能想知道,一台设备能够在固定时间段内交付 300 多帧特定内容,而不是另一台只能交付 250 多帧的设备,但这并不是消费者真正需要的内容。这充其量是任意的,并且不符合他们可能对设备的任何体验。

ARM 一直在内部运行基准测试,其中包含来自应用商店中支持 OpenGL ES 的顶级游戏的超过一百万帧的真实内容,分析多个性能领域。我们正在使用像愤怒的小鸟这样的流行游戏,并正在分析 CPU 负载、每秒帧数、uArch 数据以及大量与 GPU 无关的 API 使用情况和渲染流组合数据。该分析中收集的数据产生了一些非常有趣的结果。例如,在同一 GPU 上的《狂野飙车 7》和其他高清游戏中的图像似乎显示出相似级别的图形用户体验。这会让用户相信它们是由大致相似的工作负载水平构成的,但事实并非如此(图 1)。

图 1:测试结果似乎显示了相似级别的用户体验,因此也显示了相似级别的工作负载,但事实并非如此。

poYBAGKxZQyAPF9TAAI7TB0YT4o982.png

在检查来自流行基准测试的数据与来自实际应用程序的数据时,基准测试的片段计数与流行游戏的片段计数相似,而顶点计数则超过了屋顶。在全球范围内,该基准在 1080p 时的原始与片段比率的平均值为 1:13.1。但是,通过逐个绘制调用检查内容绘制调用,50% 的 Benchmark C 绘制调用的基元与片段的比率小于 1:1,另外 24% 的比率小于 1:10,这直接与超过 1:10 的推荐指南(图 2)。这样做的效果是,基准测试并没有给人以整体性能的感觉,它实际上变成了性能单个方面的微观基准,由于实际应用程序中的工作负载更加平衡,这很少是一个因素。

图 2:在检查实际应用程序数据时,图 1 的 Benchmark C 绘图调用给出了误导性的性能结果。

poYBAGKxZRWARounAADc9O2AVuw237.png

实际游戏更加平衡和一致,微三角形更少,大多数绘制调用每个三角形处理超过 10 个片段。基准测试提供商承认他们使用高顶点数来给 GPU 施加压力,声称它为用户提供了关于他们的 GPU 将如何响应未来内容的“现实”反馈。然而,这种压力测试显然是不现实的,因为它不能准确地反映消费者日常使用的应用程序中使用的片段和几何形状的平衡。

几何不平衡没有考虑到移动设备性能方面的最大限制因素:带宽(图 3)。

图 3:与实际应用相比,基准测试中的相对带宽。

pYYBAGKxZRyAR0xsAAJJ_RGdS9M718.png

现实世界的应用程序在整个渲染中使用的带宽平衡更加一致。我们在这里看到的是几何图形使用的带宽增加了 3-8 倍,这意味着可用于片段生成的带宽更少——这是用户实际看到的。通过关注架构选择的微观效应而不是宏观性能效应,这再次产生了对能力的错误印象。实际上,这些基准所强调的所谓差异对于实际用例的最终用户永远不会被察觉,但会助长军备竞赛,推动硅足迹和功率包络以支持更大数量的生产。

改变的五个步骤

由于综合基准不会消失,它们至少应该遵循以下规则:

· 遵循摩尔定律:摩尔定律(计算潜力每 18 个月翻一番)适用于 GPU 和 CPU。与去年同期相比,基准中表示的平均工作量不应超过上一年的两倍,并且应保持平衡。这样,公司就不会试图超越摩尔定律。

· GPU 超带宽测试:每帧 60 fps 的原始带宽不应超过可用带宽。未来 24 个月的带宽基准应设置在典型的移动设备上。使测试的目标尽可能独立,无论设备是否具有高带宽容量。

· 使用公认的技术:技术应与当前的最佳实践相一致,并适合场景类型。这些技术也应该与移动市场相关(参见带宽规则)。

· 过多的几何图形不是可接受的工作负载代理:应平衡每个绘制调用的基元与片段比率。许多当前的基准具有太多的几何形状。10 frags/prim 规则应该是最低水印。

· Overdraw 不能代表工作量:在任何表面上超过 2 倍的 Overdraw 平均值并不具有代表性。相反,添加一个为用户提供视觉投资回报的功能(他们可以实际看到的东西)。

GPU 基准测试还有很长的路要走;然而,采用上述规则至少会使综合基准测试更接近于代表真实内容的东西。

移动内容世界本身就是动态的并且不断发展。最终,为了应对这个问题,行业将不得不到达一个类似于桌面的地方,真正的应用程序工作负载成为基准,从而可以更全面地了解 GPU。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10301

    浏览量

    206122
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4307

    浏览量

    126220
收藏 人收藏

    评论

    相关推荐

    请问同步电机使用矢量变频器拖动有意义吗?

    ,此时输出电压增加以求恢复转速,同时内环限制电流不能过载。但是在同步电机的情况下,除非负载达到失步,其转速是与电压无关的,是否可以认为此时外环是起不到作用的,只有内环有作用,这岂不是可以认为用矢量变频器拖动同步电动机是没有意义的?或者说是一种浪费?
    发表于 11-16 06:49

    如何在FPGA中实现高效的compressor加法树呢?

    大规模的整数加法在数字信号处理和图像视频处理领域应用很多,其对资源消耗很多,如何能依据FPGA物理结构特点来有效降低加法树的资源和改善其时序特征是非常有意义的。
    的头像 发表于 11-08 09:06 629次阅读
    如何在FPGA中<b class='flag-5'>实现</b>高效的compressor加法树呢?

    do{}while(0)只执行一次有意义吗?

    在嵌入式开发中,宏定义非常强大也非常便捷,如果正确使用可以让你的工作事半功倍。然而,在很多的C程序中,你可能会看到不是那么直接的比较特殊一点的宏定义,比如do{}while(0)。
    的头像 发表于 10-09 14:20 235次阅读
    do{}while(0)只执行一次<b class='flag-5'>有意义</b>吗?

    STM8可以实现从SRAM启动程序吗?

    STM8可以实现从SRAM启动程序吗
    发表于 10-09 07:38

    2023百度云智大会看点:李彦宏表示卷大模型没有意义 不如卷应用

    2023百度云智大会看点 李彦宏卷大模型没有意义 不如卷应用 9月5日百度智能云在北京举办2023百度云智大会。 在今天的2023百度云智大会上,百度创始人、董事长兼首席执行官李彦宏表示,在AI领域
    的头像 发表于 09-05 15:36 504次阅读

    GPU上OpenVINO基准测试的推断模型的默认参数与CPU上的参数不同是为什么?

    在 CPU 和 GPU 上推断出具有 OpenVINO™ 基准的相同模型: benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m
    发表于 08-15 06:43

    有意义的创新|高通发布《2022高通中国企业责任报告》

    践行富有意义的创新并逐步实现2025年企业责任目标。报告还介绍了2022财年高通在中国开展的各项企业责任工作。 高通公司中国区董事长孟樸表示: 富有意义的创新不仅仅只是一项理念,它是高通业务各个方面的指导原则,包括企业责任、产
    的头像 发表于 06-29 14:35 203次阅读
    富<b class='flag-5'>有意义</b>的创新|高通发布《2022高通中国企业责任报告》

    AI芯片,就是GPU吗?

    这些问题的核心是矩阵代数,涉及相当简单的数学问题,例如一个数字乘以另一个数字,但需要大规模完成。GPU 的设计采用较小的内核(更简单的数学),且数量较多(大规模)。因此,使用这些处理器代替具有较少数量较大内核的 CPU 是
    的头像 发表于 06-27 17:08 743次阅读

    PyTorch教程-13.6. 多个 GPU 的简洁实现

    from mxnet.gluon import nn from d2l import mxnet as d2l npx.set_np() 13.6.1。玩具网络¶ 让我们使用一个比13.5 节中的 LeNet 更有意义的网络 ,它仍然足够容易和快
    的头像 发表于 06-05 15:44 592次阅读
    PyTorch教程-13.6. 多个 <b class='flag-5'>GPU</b> 的简洁<b class='flag-5'>实现</b>

    微软首席科学官反驳马斯克 暂停开发人工智能没有意义

    ChatGPT火爆全球之后,AI被越来越多关注,更多的科技企业加入进来,更多的大佬在布局。微软首席科学官反驳马斯克 暂停开发人工智能没有意义。 微软首席科学官反驳马斯克关于呼吁暂停
    的头像 发表于 05-04 18:41 1497次阅读

    LabView实现多语言界面

    每个控件都有label和caption,label用来标识这个控件,caption用来给这个控件定义一些有意义的描述。
    的头像 发表于 05-04 09:43 3758次阅读
    LabView<b class='flag-5'>实现</b>多语言界面

    TPT19新特性之Linux中的Simulink模型测试

    为什么要在云端Linux环境中测试Simulink和Targetlink?它更快,可扩展,并且可以节省高达60%的成本。 测试总是需要三个要素: 1. 测试对象,即要测试的东西 2
    的头像 发表于 04-28 17:24 244次阅读
    TPT19新特性之Linux中的Simulink模型<b class='flag-5'>测试</b>

    数据分析有什么作用?_光点科技

    数据分析是一种将大量数据转化为有意义信息的过程,可以帮助我们更好地了解各种现象和趋势。在当今数字化的世界中,数据分析已经成为各个领域中不可或
    的头像 发表于 04-27 10:29 1179次阅读

    什么是大数据?大数据技术有哪些?

    对于一个从事大数据行业人来说,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、
    的头像 发表于 03-29 10:56 1.3w次阅读
    什么是大<b class='flag-5'>数据</b>?大<b class='flag-5'>数据</b>技术有哪些?

    如何判断推理何时由GPU或NPU在iMX8MPlus上运行?

    当我为 TFLite 模型运行基准测试时,有一个选项 --nnapi=true我如何知道 GPU 和 NPU 何时进行推理?谢谢
    发表于 03-20 06:10