深度揭秘:"万物GPU"(The GPU of Everything)

几个月前,Imagination在其“Inspire年度技术大会”上发布了全新的第十代PowerVR图形处理架构IMG A系列(IMG A-Series)。作为Imagination有史以来性能最强大的图形处理器(GPU)半导体知识产权(IP)产品,IMG A系列GPU具有多维度的可扩展性、低功耗图形处理和计算性能,是一系列垂直应用领域的理想解决方案,可支持手机、平板电脑、游戏、汽车、机顶盒、8K超高清电视、桌面处理器、服务器等应用,因此Imagination称其为“万物GPU”(The GPU of Everything)。

IMG A系列是Imagination有史以来性能最强大的GPU

IMG A系列是GPU技术的一次重大飞跃,在每一个维度上都提供了显著的改进。相比Imagination的第九代PowerVR GPU,比如联发科(MediaTek)的Helio P95 SoC所采用的PowerVR GM9446 GPU,在相同的时钟和半导体工艺上,IMG A系列的图形处理性能提高了2.5倍,人工智能(AI)处理速度提高了8倍,同时功耗降低了60%,这些特性着实让人印象深刻。

与当前其他可用的GPU IP解决方案相比,IMG A系列具有更佳的PPA(性能、功耗、面积)指标,可提供更高的性能、更低的功耗(与采用相同时钟和半导体工艺的竞品相比)和更低的带宽(与竞争对手使用相同的缓存大小),并且所有产品均占用更小的芯片面积。在所有应用领域中,IMG A系列GPU都能够在更长的运行时间里以极低的功耗预算提供最佳性能,因此它确实是可应用于一切设备的“万物GPU”。

IMG A系列在性能、AI处理速度和功耗等方面均实现了显著改进

IMG A系列的增强性能

相比Imagination现在提供的GPU产品,IMG A系列实现了显著的性能提升,你可能会好奇他们是如何一步到位做到这一点的,其实这些改进源于各方面的性能增强,下面来具体看看他们通过哪些技术手段实现了这些性能增强。

超宽的ALU单元

带来显著性能加速的原因是ALU单元的变化。ALU单元的全称是算术逻辑单元,它是图形处理单元的基本部分,可以为图形处理和计算任务提供强大的计算性能。对于IMG A系列而言,Imagination从双MAD x32宽度的ALU改为了单MAD 128线程宽度的ALU。通过转换为128线程宽的单元,IMG A系列能够在每个时钟周期内执行更多的操作指令,从而为提升功耗效率奠定了基础。当然,保证ALU单元有足够的数据也很关键,Imagination通过几个机制确保了这一点,其结果就是性能显著提升,功耗明显降低。

IMG A系列采用了128线程宽的ALU单元

HyperLane(超线程)技术

现代的GPU都需要支持多任务处理,为了能够高效且安全地实现这一点,Imagination开发了HyperLane技术,并将其用于IMG A系列。从最低性能到最高性能的每款A系列GPU,都拥有8个独立的硬件控制通道。这些通道在内存中是相互隔离的,意味着可以有8个完全不同的工作负载同时运行。这样,不同的任务便可以同时交由GPU处理,从而实现了完全安全的GPU多任务处理。这一功能在目前的市场上是独一无二的。

HyperLane技术还有一个特性称为动态性能控制,它可以确保GPU将性能合理地分配给多个图形处理或计算任务,以实现GPU利用率的最大化,从而提升实际性能。例如,你可以在使用信息娱乐系统的同时在GPU上运行仪表盘,而不必担心至关重要的仪表盘性能受到影响。关于动态性能控制,Imagination在桌面处理器领域也进行了很好的探索,一个物理内核作为多个逻辑内核出现,支持多任务同时处理,从而提升硬件资源利用率和多任务处理性能。

HyperLane技术也可以在安全方面为诸多应用提供支持,例如数字电视、安防监控等。对于数字电视的内容提供商而言,一个关键的问题是通过数字版权管理来确保他们的内容IP(无论是视频还是音频)安全。虽然有些竞争厂商的GPU提供了“TrustZone(信任区)”特性,但这是一种“把所有鸡蛋放进一个篮子里”的做法,即所有应用程序都部署在一个安全内存中。而HyperLane技术的内存隔离功能是将每个服务或应用程序放在完全独立的安全内存中,因此即使一个应用程序受到黑客攻击也不会暴露其他应用程序的内容。

每款IMG A系列GPU都拥有8个独立的硬件控制通道

AI协同功能

IMG A系列GPU还支持一项新功能——AI协同(AI Synergy),该功能可支持SoC设计人员利用IMG A系列令人难以置信的计算能力来加速其AI工作负载。通过AI协同功能,GPU可以在提供图形处理能力的同时,使用其备用资源支持可编程AI,同时固定功能的AI运算则可以放在专用的神经网络加速器(例如Imagination的PowerVR 3NX NNA)上执行,从而实现更高的AI性能。AI 协同功能可在最小的芯片面积上支持可编程AI,而统一的软件栈则可实现灵活性和出色的性能。

AI协同功能使IMG A系列GPU可同时支持图形处理和可编程AI

配置缓存空间

IMG A系列产品的另一项新特性是缓存大小可以根据自己的需要进行配置,从而支持用户大幅度降低GPU的带宽需求。用户可以减少更多的系统级缓存,以减少使用系统内存的需求,或者使用性价比高的外部RAM来降低功耗、发热量和系统成本。

“完美像素”特性

“完美像素”特性可以归结为在不牺牲图像质量的情况下提供出色性能的一系列技术。Imagination为了实现“完美像素”,在IMG A系列GPU中应用了许多新技术和成熟技术。例如,Imagination独有的PVRIC4图像压缩技术,可以实现无损压缩或高度优化的有损压缩,从而确保至少减少50%的带宽并节省50%的内存占用。IMG A系列中还加入了新的细节等级算法和各向异性滤波算法,这两种算法都能够显著提高图像质量。

IMG A系列支持各类应用场景

之所以将IMG A系列GPU称为“万物GPU”,是因为它可以为各类应用场景提供理想解决方案,包括移动设备、游戏、汽车、数据中心/服务器、数字电视/机顶盒、安防监控、桌面处理器、人工智能物联网(AIoT)等应用。

下面列举了一些IMG A系列可以提供支持的应用案例。

游戏

由于散热条件限制,大多数移动GPU都很难提供持续一致的游戏体验,即它们在短时间内可快速运行,然后随着芯片发热,性能会下降到不可接受的水平,最后再也无法恢复,从而导致令人失望的用户体验。

IMG A系列GPU可以通过提供持续稳定的帧速来消除因芯片过热导致的时钟降频甚至故障等情况,从而为游戏用户提供最佳的体验。Imagination通过多种技术来确保实现这一点:基于分块延迟渲染(TBDR)技术,IMG A系列GPU只需绘制屏幕上可见的内容,这使它具有与生俱来的带宽和功耗优势;使用了主动动态电压与频率调节(DVFS)及时限调度(Deadline Scheduling)算法的先进功耗控制技术,可提供具有超低响应延迟的快速功耗控制能力;如果GPU的某些部分没有得到充分利用或没用于处理工作,它们就会被立即降频甚至进入睡眠状态,以确保最佳的功耗效率。

此外,Imagination对“完美像素”的强烈专注也使得IMG A系列GPU可以为游戏用户提供完美的图像质量。这体现在很多技术细节上,包括行业领先的视觉无损PVRIC压缩技术、完全重新设计的各向异性滤波算法,以及其他一些全新设计的算法实现。

IMG A系列GPU可以为游戏用户提供完美的图像质量

汽车

在现代化汽车中,数字仪表盘显示的信息对驾驶员至关重要,因此要求GPU为其提供充分的性能支持。同时,诸如信息娱乐系统、卫星导航等其他功能也需要GPU的支持。所有这些功能可以由单个高性能IMG A系列GPU来驱动。通过将Imagination的硬件虚拟化技术与HyperLane技术结合在一起,可以提供优先级技术和完美的内存隔离机制,从而使IMG A系列GPU在运行上述所有功能的同时,可以确保主要任务的运行效率并满足用户对其他功能的体验需求。这意味着,其他工作负载的运行不会影响仪表盘的使用,同时当其他工作负载出现问题时也可以保护仪表盘的数据不受影响。

数据中心

GPU作为高度并行的计算协处理器,其拥有的能力使其非常适合于加速包括3D图形在内的多种任务。IMG A系列GPU的设计可以满足云端的图形处理和计算需求,其将会推动基于云的AI训练和推理以及未来云游戏体验的发展。此外,数据中心对于能效是非常敏感的,而IMG A系列的低功耗设计使其非常适合数据中心对能效的需求,比如HyperLane技术可以最大化GPU的资源利用率,从而可有效地提升能效。

IMG A系列IP内核

IMG A系列GPU从多个维度实现了性能可扩展性,从面向入门级市场的每时钟周期处理1个像素(1 PPC)的组件,一直到用于高性能设备的速度高达每秒2万亿次浮点运算(2 TFLOPS)的内核,甚至到针对云应用的、速度超越2 TFLOPS的多核解决方案,IMG A系列可以面向各种性能需求提供支持。

Imagination最新发布的IMG A系列GPU涵盖AXT、AXM、AXE三类产品,共七款内核,其中包括四款高性能内核,一款面向中端设备的内核,以及两款可为更低成本的细分市场提供最佳PPA指标的内核:

IMG AXT-64-2048旗舰版:拥有2 TFLOPS、64 Gpixels的性能,以及8 TOPS的AI性能。

IMG AXT-48-1536:面向高端手机,性能为1.5 TFLOPS、48 Gpixels和6 TOPS。

IMG AXT-32-1024:面向高性能移动设备和汽车应用,性能为1TFLOPS、32 Gpixels和4TOPS。

IMG AXT-16-512:面向中高性能移动设备和汽车应用,性能为0.5 TFLOPS、16 Gpixels和2 TOPS。

IMG AXM-8-256:面向中端移动设备,性能为 0.25 TFLOPS、8 Gpixels和1 TOPS。

IMG AXE-2-16:面向高端物联网、入门级数字电视/机顶盒(DTV/STB)、显示和其他需要高填充率的应用,性能为16 GFLOPS和2 Gpixels。

IMG AXE-1-16:面向入门级移动设备和物联网,为同类产品中速度最快的支持Vulkan功能的GPU,性能为 16 GFLOPS和1 Gpixels。

IMG A系列实现了2.5倍的性能提升

面向未来

目前,Imagination已经将IMG A系列GPU在多个市场中授权给了客户,首批搭载该IP的SoC器件将在今年供货。

本文介绍的只是IMG A系列 GPU的一部分功能特性和应用场景,如果你想了解“万物GPU”的更多信息,欢迎点击“此处”访问Imagination官网页面。

更重要的是,IMG A系列GPU只是Imagination一个新的起点,他们制定了一个从IMG A系列开始的产品开发路线图,在未来几个月至几年内,他们将带来更多的产品设计。当然,如果你正在为产品设计寻找GPU IP,那么IMG A系列无疑是你当前最好的选择。

推荐阅读