图形测试基准消费者指南

作者:AlexandruVoica

如果您像我一样,您可能跟踪即将发布的智能手机和平板电脑的最新评论,并犹豫着接下来购买哪款设备。

许多新设备评价过程中的一部分包含名为性能评测的章节。这经常导致许多网站的评论栏成为讨论哪个处理器是最好的火药味十足的辩论场所。

在本文中,我将给出现衡量GPU性能的看法,因为这或许是移动芯片中最具争议的话题之一。

有许多图形基准测试可供选择,但今天我将集中于以下三个::
• Futuremark公司的3DMark Ice Storm
• Kishonti公司的GFXBench 3.0
• Rightware公司的Basemark X

以上所有基准测试包含游戏般的图形测试,含有高度复杂的内容,目的是将GPU推向极限。测试结果为消费者提供了当前设备的相对性能,同时也为半导体公司和OEM提供了分析他们下代设计的一个途径。

我们也和其他人一样使用这些基准测试程序,为您提供我们PowerVR图形IP的性能效率结果。例如,当我们推出PowerVR 6XT系列家族产品时,我们如下声明:

[PowerVR]6XT系列图形处理器在最新业界标准测试程序上相比前代同等GPU配置实现了50%性能增长。通过原始GFLOPS的显著增加,6XT同时在 GFLOPS/mm2 和GFLOPS/mW上提供了业界最佳性能。

这些数字基于上述测试程序的多次和深入运行,这些程序包含令人印象至刻的视觉效果和细节渲染。我们将持续使用这些测试基准—— 除了真实的应用程序和开发人员或客户的反馈——来优化我们最新的PowerVR Rogue GPU驱动程序性能表现。

每秒帧数

随便打开一个当今最流行的图形基准测试结果页面,您马上会看到一些显著的数字。可能基准测试程序中常用的数字是帧速率,表示为每秒多少帧(fps)。这是一个客观的分数,基于完成给定工作负载所需的总帧时间。

例如,曼哈顿测试(GFXBench3.0套件的一部分),持续62秒,并包括一个片段,实现了最新的OpenGL ES3.0特性。让我们来看看最新的台电P98 air的结果;该平板采用全志A80T处理器,使用的是PowerVR G6230 GPU。该芯片的息屏性能表现是7.0fps;这意味着,GPU能够在62秒内渲染432帧。

曼哈顿测试是GFXBench3.0图形基准测试的一部分,用于测试OpenGL ES 3.0性能

fps信息可以以多种方式提供给最终用户。由于精心设计的GPU基准测试工作量很大,而且往往导致入门级设备只能取得很低的帧率,一些消费者可能会认为低结果意味着低性能GPU。

为避免这一误解,Rightware公司的Basemark X使用归一化方法,通过相乘得到一个较高标称值的分数。如果我们看一下由Rightware公司所提供的得分榜,内置PowerVR SGX544MP2 GPU的华硕Memo Pad FHD 10 平板的平均得分为9961.47。

Basemark®X是一个流行的基准测试工具,可跨平台评估和对比游戏和图形性能

上述结果由Rightware公司通过使用下面的公式获得:

Final score = 2500 * FPS(DUNES_OFFSCREEN)/REF_DUNES + 2500 * FPS(HANGAR_OFFSCREEN)/REF_HANGAR

REF_DUNES和REF_HANGAR 是三星Galaxy S4 (GT-I9505)取得的息屏fps数字. 这些参数数字的真实值为:
• REF_DUNES = 7.6897 fps
• REF_HANGAR = 5.6559 fps

选择参考指标的原因是基于消费者的一个普遍概念:分数越高,东西越好。但总的得分实际上是多个因素的组合,并且通常隐藏了底层细节;因此,基准测试用户总是期待比简单的分数更多的事实,以进行深入技术分析,这显得非常重要的。

要记住的一条非常有用的信息是,基准测试旨在强调设计最大化;因此,低帧率数字并不自动意味着一个糟糕的用户体验,因为大多数实际应用程序进行了跨多种设备的深入优化,包括使得内嵌欠佳GPU的平台运行良好。

三角形

三角形也许是当今最被滥用,并在图形中被高估的指标——我再怎么强调这一点都不为过。真实应用具有较一般的三角形速率要求;此外,移动领域的高三角形速率,在成为GPU受限之前,正迅速成为带宽受限。

事实上,在当今的大多数GPU中,三角形吞吐量不再是个问题——甚至不再是相关指标。目前的移动GPU可以轻松支持每秒100〜200百万个三角形(百万三角/秒),为真实应用案例提供足够多的资源。此外,这一数字甚至超过了过度使用情况下的三角形需求,如全高清(1080p)的分辨率下以60帧为每个像素分配一个三角形。

如果我们审视当今的手机游戏,赛车模拟器或第一人称射击使用密集的3D图形,通常平均为数万个三角形(如真实赛车3有80,500个,而暗影之枪:死亡地带约20,000个),而休闲风格的2D游戏通常是数千个三角形这样的级别(如辛普森一家商场峰值低于10,000)。

即便是3DMark的Ice Storm中的图形测试也仅只达到190000个三角形;我们还在今年的MWC上展示了Cloud Gate图形测试(1.1百万个三角形)在当代PowerVR Rogue GPU上流畅运行。下面场景包含了OpenGL ES3.0的粒子效果、基于FFT的绽放和景深效果。

Imagination率先展示了3DMark Cloud Gate(1.1百万三角形,15.6百万像素),运行于PowerVR 6系列GPU上

Imagination率先展示了3DMark Cloud Gate(1.1百万三角形,15.6百万像素),运行于PowerVR 6系列GPU上

PowerVR RogueGPU提供高达每秒数亿个三角形的能力,即便运行几何最密集的实际应用也是绰绰有余。

像素和纹理

另一方面像素速率大概为所有细分市场和典型使用场景中最重要的指标。以60 fps运行用户界面或浏览器都在推动着纹理像素。

如果你正在寻找一种简单的顶层需求计算,下面公式为您提供获取每秒百万像素(百万像素/秒)数字的方法:
屏幕分辨率 乘以fps=像素/秒

往往不够,这个数字还须与场景的复杂度系数相乘,因为纹理和alpha层可能增加相当显著的复杂度。下表将为您说明了像素性能如何在一系列流行的设备越累积越高:

每秒像素个数可能是所有细分市场和典型使用场景中最重要的指标

每秒像素个数可能是所有细分市场和典型使用场景中最重要的指标

如果您使用的是GFXBench,度量纹理元素(纹理像素)表现的是填充率。例如,英特尔®凌动™Z3460处理器内的PowerVR G6400 GPU 提供3225 百万纹理/秒。

在3DMark Ice Storm 和Ice Storm Extreme两种情况下,像素负载在1.9百万到18.6百万之间变化。 Futuremark公司发布了每一个测试的细节和得分公式,供公众访问的技术指南中查阅;该公司是少数几个公开分享内部运作的移动基准测试开发商。

3DMark在一个应用程序中包括您需要的测试图形硬件的一切

注意:当您查询GPU的像素或者纹理像素时,确保供应商引用的的是持续的和实际测得的填充率,而不只是理论峰值数字。

GFLOPS

当涉及到图形和计算性能时,每秒浮点运算次数(FLOPS)日益成为移动GPU的关键参数。该FLOPS指标指示了图形处理器的数字运算能力,可以类比于CPU提供的每秒百万条指令数(MIPS)。

FLOPS确定了ALU着色器的复杂度级别,通常影响渲染场景相关的的几个要素:动画和光照的复杂度、像素着色的复杂度、图像质量以及用户体验。

FLOPS性能的增长是指数性的,跟随台式PC和游戏机市场所见到的趋势。下图为您展示了PowerVR GPU在过去十年中的发展态势:

移动GFLOPS性能经历了指数级发展

移动GFLOPS性能经历了指数级发展

GFXBench3.0包括了一个测试,称为ALU,其目的是衡量给定场景下ALU的性能,并采用了一个比较复杂的像素着色器。

然而,这不应该被用来确定峰值GFLOPS性能,因为这将需要一个高度优化的微基准测试。移动GPU可能具有截然不同的结构,以致于为确定峰值GFLOPS性能ALU测试必须仔细地设计和向下优化到内部结构。

驱动开销、物理和其他各种测试

一些图形基准测试还包括一些聚焦于其他渲染相关领域的测试。例如,GFXBench 3提供了一个 驱动开销 测试,本质上是一个关于衡量一系列真实API调用驱动程序的影响。

也有图形基准测试内的一些少数测试,涉及到芯片的其他部分。例如,3DMark的物理测试主要测量CPU的性能。

长期性能

如果您正在为当代图形硬件寻找一个真实工作负载更好的指示, 长期性能可能是您的最佳选择。

没有基准测试应排除这一重要特征。真正的问题是真实的应用随着时间的推移应提供持续的性能(比如几十分钟)——而不是仅在第一分钟提供最佳性能;如果您查看GFBench 3最近的一些结果,您可以看到竞争产品随着时间流逝,性能严重钳制,下降到30%至50%的峰值性能。形成对比的是,PowerVR GPU没有任何跳动。

PowerVR GPU传递持续性能

PowerVR GPU传递持续性能

结束语

GPU测量指标听起来很简单,但是底层架构的复杂性以及一些术语的混合,比如纹理、三角形、着色器以及核心,经常导致滥用或误解。

或许您会问,基准测试有什么用?其一,通常图形IP在授权时并无对应硅产品,所以我们使用的基准测试结果给出的性能指标提供给我们的客户。Imagination具有广泛的仿真能力并在测试时引入了所有帧。

其二,提供某个具体应用的单个数据点以显示性能;结果需要很好地理解并谨慎使用,因为一个给定的基准与某个特定产品可能没有任何关联。

假设您正在测试一个智能手或嵌入式平台。他们与一个高端智能手机并从比较;他们有完全不同的规格、使用情况和性能要求。这时基准测试结果通常被滥用而成为不足点、不相关甚至是误导的。

我希望这篇文章对GPU性能评价提供一些视角。敬请关注博客的另一篇文章,将关注当今的CPU基准测试状况。

原文链接: http://blog.imgtec.com/powervr/new-powervr-graphics-sdk-and-tools-tutori...

声明:
本文为原创文章,转载需注明作者、出处及原文链接,否则,本网站将保留追究其法律责任的权利

--电子创新网--
粤ICP备12070055号