GPU基准测试实现从数字到有意义数据的飞跃-电子发烧友网

只要过程存在，合成 GPU 基准测试和其他性能基准测试就一直是嵌入式行业争论的焦点。从历史上看，GPU 基准测试除了关注性能的宏观子部分之外几乎没有提供什么，同时声称告诉人们 GPU 的整体性能。客户应得的不仅仅是这些，尤其是考虑到这些数字与购买决策相关的权重时。

当今的基准测试问题可以总结为一个简单的问题：在投资任何形式的技术时，您是否会更自在地了解使用现实世界的示例执行某项操作，或者您是否愿意在理论上的情况下工作？了解诸如 GPU 提供用户喜爱游戏的图形的难易程度以及以合适的 fps 播放它们的时间长度等信息对消费者和 OEM 级别都有用。

移动 GPU 正处于类似于桌面 GPU 基准测试所经历的演变之中：

· 第 1 阶段：基准测试包括对每秒架构三角形和每秒像素速率的极度理论化和有些混淆的比较。

· 第 2 阶段：以前的基准被开发成实际应用程序，据称可以在任意旋转物体之前测量三角形和像素。

· 第 3 阶段：基准包括专门设计用于测试 GPU 的最大计算能力的合成游戏场景。这就是我们现在使用移动 GPU 的地方。

· 第 4 阶段：基准扩展以涵盖通过运行实际内容获得的指标比较，并以此为基础评估每个 GPU 的优点。

案例研究：实际应用与综合基准测试

逐帧检查基准可以为情况提供更多色彩。当前流行的基准测试声称对 GPU 进行压力测试，以发现它们在特定时间段内可以提供的最大帧数。虽然有些观众可能想知道，一台设备能够在固定时间段内交付 300 多帧特定内容，而不是另一台只能交付 250 多帧的设备，但这并不是消费者真正需要的内容。这充其量是任意的，并且不符合他们可能对设备的任何体验。

ARM 一直在内部运行基准测试，其中包含来自应用商店中支持 OpenGL ES 的顶级游戏的超过一百万帧的真实内容，分析多个性能领域。我们正在使用像愤怒的小鸟这样的流行游戏，并正在分析 CPU 负载、每秒帧数、uArch 数据以及大量与 GPU 无关的 API 使用情况和渲染流组合数据。该分析中收集的数据产生了一些非常有趣的结果。例如，在同一 GPU 上的《狂野飙车 7》和其他高清游戏中的图像似乎显示出相似级别的图形用户体验。这会让用户相信它们是由大致相似的工作负载水平构成的，但事实并非如此（图 1）。

图 1：测试结果似乎显示了相似级别的用户体验，因此也显示了相似级别的工作负载，但事实并非如此。

在检查来自流行基准测试的数据与来自实际应用程序的数据时，基准测试的片段计数与流行游戏的片段计数相似，而顶点计数则超过了屋顶。在全球范围内，该基准在 1080p 时的原始与片段比率的平均值为 1:13.1。但是，通过逐个绘制调用检查内容绘制调用，50% 的 Benchmark C 绘制调用的基元与片段的比率小于 1:1，另外 24% 的比率小于 1:10，这直接与超过 1:10 的推荐指南（图 2）。这样做的效果是，基准测试并没有给人以整体性能的感觉，它实际上变成了性能单个方面的微观基准，由于实际应用程序中的工作负载更加平衡，这很少是一个因素。

图 2：在检查实际应用程序数据时，图 1 的 Benchmark C 绘图调用给出了误导性的性能结果。

实际游戏更加平衡和一致，微三角形更少，大多数绘制调用每个三角形处理超过 10 个片段。基准测试提供商承认他们使用高顶点数来给 GPU 施加压力，声称它为用户提供了关于他们的 GPU 将如何响应未来内容的“现实”反馈。然而，这种压力测试显然是不现实的，因为它不能准确地反映消费者日常使用的应用程序中使用的片段和几何形状的平衡。

几何不平衡没有考虑到移动设备性能方面的最大限制因素：带宽（图 3）。

图 3：与实际应用相比，基准测试中的相对带宽。

现实世界的应用程序在整个渲染中使用的带宽平衡更加一致。我们在这里看到的是几何图形使用的带宽增加了 3-8 倍，这意味着可用于片段生成的带宽更少——这是用户实际看到的。通过关注架构选择的微观效应而不是宏观性能效应，这再次产生了对能力的错误印象。实际上，这些基准所强调的所谓差异对于实际用例的最终用户永远不会被察觉，但会助长军备竞赛，推动硅足迹和功率包络以支持更大数量的生产。

改变的五个步骤

由于综合基准不会消失，它们至少应该遵循以下规则：

· 遵循摩尔定律：摩尔定律（计算潜力每 18 个月翻一番）适用于 GPU 和 CPU。与去年同期相比，基准中表示的平均工作量不应超过上一年的两倍，并且应保持平衡。这样，公司就不会试图超越摩尔定律。

· GPU 超带宽测试：每帧 60 fps 的原始带宽不应超过可用带宽。未来 24 个月的带宽基准应设置在典型的移动设备上。使测试的目标尽可能独立，无论设备是否具有高带宽容量。

· 使用公认的技术：技术应与当前的最佳实践相一致，并适合场景类型。这些技术也应该与移动市场相关（参见带宽规则）。

· 过多的几何图形不是可接受的工作负载代理：应平衡每个绘制调用的基元与片段比率。许多当前的基准具有太多的几何形状。10 frags/prim 规则应该是最低水印。

· Overdraw 不能代表工作量：在任何表面上超过 2 倍的 Overdraw 平均值并不具有代表性。相反，添加一个为用户提供视觉投资回报的功能（他们可以实际看到的东西）。

GPU 基准测试还有很长的路要走；然而，采用上述规则至少会使综合基准测试更接近于代表真实内容的东西。

移动内容世界本身就是动态的并且不断发展。最终，为了应对这个问题，行业将不得不到达一个类似于桌面的地方，真正的应用程序工作负载成为基准，从而可以更全面地了解 GPU。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉