硬件级光线追踪:移动游戏图形的变革时刻

作者:Kristof Beets,Imagination Technologies技术前瞻副总裁

在实时计算生成的图形中实现真实感的关键是照明。光栅化——传统渲染 3D 图形的方式,并不是模拟真实光和阴影的最佳技术。它需要大量的计算资源和复杂的开发技术,结果仍然不理想。

相反,电影动画师使用光线追踪技术来创建全局照明、阴影和反射等效果。光线追踪可以精确且轻松地模拟光线的行为,从而生成一个更逼真的场景,而所需的工作量更少。

然而,为了在游戏中获得真正的沉浸式体验,光线追踪必须实时完成,图像渲染只需要几秒钟。这使得它在处理计算和资源耗费方面成本昂贵,令人望而却步。虽然现有硬件可以在PC和游戏主机实现实时光线追踪效果,但我们需要权衡性能、功耗和面积等各个方面,所以光线追踪选择性用于仅照亮场景中最重要的对象。在某些情况下,用户可以决定如何,以及是否使用光线追踪。

这些权衡使得在电源受限的设备中实施实时光线追踪极具挑战性,因此该技术尚未用于移动平台。不过,据有关数据显示,移动游戏很快将占据全球游戏市场的52%(NewZoo,2021年),移动游戏的体验成为未来发展不容忽视的方向。

移动图形

尽管在尚未出现光线追踪前,移动平台上的图形质量一直在稳步提高。但是,使用传统技术制作越来越逼真的图形变得愈加复杂,这正在将性能、功耗和带宽推向移动处理器的极限。

例如生成阴影,传统上使用级联阴影贴图(CSM, Cascaded shadow maps)完成。这个过程需要大量的几何处理,分配大量的缓冲区,多个高分辨率渲染目标的处理,以及昂贵的着色器操作。在经历了所有过程、功耗和带宽使用后,结果仍然不如使用光线追踪那么真实。

在光线追踪中不存在许多假图、分辨率问题和其他与传统光栅化有关的问题。通过光线追踪,光线从单个像素出发到达光源。如果光线击中某物,则该区域就处于阴影之中。每个像素一条光线,这很直接,且成本较低,特别是对于高效实现的专用硬件。

今天,我们使用阴影贴图等技术做近似处理代价较高,是以实时光线追踪正成为一种更高效的选择。而且,我们不能再依赖每两年的呈指数级增长的可编程硬件,因此高效设计固定功能的硬件加速器来推进光线追踪技术,成为必须,尤其是对于功耗受限的平台。

当前的光线追踪硬件

光线追踪可以以不同的性能和效率水平进行分级。为了阐明这一点,Imagination建立了光线追踪等级系统(RTLS),确定将其分为从0级到5级的六个级别。

早期硬件加速光线追踪的尝试并不是最优的。这些传统解决方案——我们称之为 RTLS 级的"0 级" ——功能有限,需要定制应用程序编程接口(API)和硬件。然后,市场发展到基于传统 GPU 的"1级" 软件计算解决方案。这些解决方案更加灵活,但仍远远不够理想。

今天,大多数光线追踪解决方案(例如用于PC和游戏主机)是 "2 级" RTLS解决方案。他们有专门的硬件,用于最基本的光线追踪操作:针对三角形/盒的交集测试器。将此操作放在固定功能硬件中可以实现更高的能效,但仍然会将多个级别的光线追踪处理运行在 GPU 上的shader,这些处理阶段对GPU的并行执行引擎并不友好。这还导致传统图形性能和算术逻辑单元(ALU)管线效率降低,从而限制了总体吞吐量。

"3级" RTLS 解决方案在专用硬件中集成了更多的光线追踪功能,包括通过遍历光线追踪的主要数据结构(边界体积层次结构(BVH)进行完整的光线相交处理。这将提高更复杂场景的光线追踪效率,更好地转移光线追踪功能,并减少对传统图形性能的影响。但是,3 级解决方案缺乏一个基本组件:一致性排序。没有这一点,GPU的许多并行性优势就会丧失。

当今最先进的 PC 和游戏主机解决方案是 RTLS 级中的 3 级解决方案,虽然它们可能声称每秒有高达千兆的光线数,但效率很低,与GPU 处理资源利用率低或内存访问限制有关,这是由于光线在整个场景中散射造成的非相干的内存访问模式造成的。

为了使光线追踪在移动设备中工作,我们必须利用 GPU 中固有的并行性,并开发优化硬件的智能算法。

用于光线追踪的智能硬件

Imagination在移动 GPU 方面的辉煌传统——为超过100 亿设备提供图形——意味着我们知道如何在高效硬件中提供令人惊叹的图形。现在我们提供的光线追踪,可达到RTLS级别的4级。

在第4级,BVH光线遍历是在使专用硬件中完成的(如第3级),但重要的是,光线相干性排序也是如此,它将沿同一方向移动的光线分组,以充分利用GPU的并行计算能力。与基于分块的渲染类似,它通过空间局部性分块排序提高了效率,光线的相干性排序提高了ALU的总体使用率,并显著提高了测试效率。而且,由于我们几乎将光线追踪处理负载完全转移到专用硬件中,因此对传统图形性能的影响最小。

4 级的实现将很快通过Imagination的光线追踪IP(IMG CXT)提供。使用 CXT,公司可以构建高达9 TFLOPS 的 FP32 光照性能和超过 7.2G光线/秒的光线追踪性能,同时提供比 2 级和 3 级解决方案高达 2.5 倍的功耗效率。

当然,最高效的硬件依然对实现最佳的移动图形质量具有极大帮助,我们在开发人员网站上详细介绍了许多技术,以帮助开发人员从硬件中获得最大的收益。

通过我们新的高效硬件,我们正在为移动设备实现实时光线追踪。这是一个真正的游戏规则改变者。它将把世界上最庞大的游戏玩家群体带向开发者,为移动设备制造商提供一种新的差异化方式,并实现全新的沉浸式移动用户体验。

声明:本文为原创文章,转载需注明作者、出处。

最新文章