Alpha Test为何破坏TBDR优化？

demi 在周六, 02/28/2026 - 14:35 提交

TBDR（基于瓦片的延迟渲染）的高效性源于其提前收集渲染命令并按瓦片处理的方式，减少显存访问。然而，alpha test/discard会破坏这一优势，因为它让像素写入变得不可预测，导致early-Z失效、片上缓存浪费、显存访问增加，最终使TBDR无法提前优化。简言之，alpha test的不可预测性迫使显卡处理所有像素，削弱了TBDR的性能优势。

1. TBDR的高效之处在哪里？

TBDR（Tile-Based Deferred Rendering，基于瓦片的延迟渲染）架构的高效，主要体现在：

提前收集所有三角形和渲染命令，然后把屏幕分成小块（Tile），每次只处理一个Tile。

在片上缓存（on-chip memory）里完成所有像素的颜色、深度、混合等操作，极大减少了对外部显存的访问，节省带宽和能耗。

依赖于提前知道哪些像素会被写入，这样可以做early-z（提前深度测试）、合批、裁剪等优化。

2. alpha test/discard为什么会破坏TBDR的高效？

核心原因：不可预测性

alpha test/discard让像素是否被写入变得不可预测。

显卡在收集三角形和命令时，无法提前知道哪些像素会被丢弃，哪些会被保留。

这就像工厂在准备原材料时，突然有人随时可能把一部分材料扔掉，工厂根本没法提前规划和优化流程。

具体带来的问题：

① Early-Z失效

TBDR本来可以提前用深度信息裁剪掉被遮挡的像素（early-z），但有了discard，像素可能被shader随时丢弃，early-z就没法提前做了。

② 片上缓存利用率下降

本来只需要为会被写入的像素分配缓存，现在不得不为所有可能的像素分配，导致缓存浪费甚至溢出。

③ 需要频繁访问外部显存

片上缓存不够用时，必须把数据写到外部显存，丧失TBDR的带宽和能耗优势。

④ 命令和数据冗余

由于无法提前裁剪，所有三角形、像素都要处理一遍，增加了命令和数据量。

3. 一句话总结

alpha test和discard破坏TBDR高效的根本原因，是让像素的最终命运变得不可预测，显卡无法提前规划和优化，只能“全都处理一遍”，导致缓存浪费、带宽增加、能耗上升，TBDR的优势大打折扣。

我们来更底层地聊聊TBDR架构下alpha test/discard带来的具体实现难题，以及更工程化的优化建议。

一、底层实现细节

1. TBDR的工作流程

以PowerVR（Imagination）、Mali（ARM）等主流TBDR架构为例，流程大致如下：

① Geometry Phase（几何阶段）

收集所有三角形，计算每个三角形覆盖哪些Tile。

记录每个Tile需要处理的三角形列表。

② Tile Phase（瓦片阶段）

依次处理每个Tile，把相关三角形拉进片上缓存。

在Tile内部做光栅化、深度测试、着色、混合等操作。

Tile处理完后，把结果写回显存。

2. Early-Z与Alpha Test/Discard的冲突

Early-Z：在片上缓存中，TBDR可以先做深度测试，提前丢弃被遮挡的像素，节省后续着色和混合的计算。

Alpha Test/Discard：着色器执行时，像素可能被丢弃（比如alpha < 0.5时discard），这意味着：

只有等到着色器执行完，才知道像素是否有效。

不能在着色器前做Early-Z，必须等着色器后再做深度测试（Late-Z）。

这样就失去了提前剔除无效像素的机会，所有像素都要完整走一遍着色流程，极大增加了计算和带宽压力。

3. 片上缓存压力

TBDR依赖片上缓存（on-chip tile buffer）来存储Tile内的所有像素数据（颜色、深度、模板等）。

如果大量像素被discard，缓存空间被浪费，甚至溢出，导致不得不频繁访问外部显存（off-chip memory），带宽和能耗飙升。

4. G-Buffer不完整问题（延迟渲染）

在延迟渲染（Deferred Rendering）中，G-Buffer阶段如果用discard，可能导致某些像素的G-Buffer数据缺失，后续光照阶段出错。
这会让引擎不得不为这些像素做特殊处理，增加复杂度。

二、底层优化建议

1. Shader层面

能用alpha blend就不用discard。比如树叶、栅栏等，尽量用半透明混合而不是硬裁剪。

用clip/discard时加条件限制，只在极少数像素上用，避免大面积使用。

提前分支：在shader前面用if判断，能提前return的就return，减少不必要的计算。

2. 渲染管线层面

Alpha Mask Prepass：先用一个低开销pass做alpha遮罩测试，主pass只处理通过的像素。

分层渲染：不透明物体和透明物体分开渲染，不透明物体充分利用TBDR优势，透明物体单独处理。

延迟渲染时，透明物体用前向渲染，不要写入G-Buffer。

3. 美术资源层面

优化alpha贴图，减少需要discard的区域，比如用更紧凑的遮罩、拆分大面积透明的贴图。

合并材质和贴图，减少drawcall和材质切换。

4. 引擎/平台层面

Profile分析：用Mali Graphics Debugger、PVRTune、Adreno Profiler等工具，分析discard带来的带宽和缓存压力。

平台适配：针对不同GPU架构做有针对性的优化，比如PowerVR和Mali对discard的处理方式不同，Profile后有针对性地调整渲染策略。

5. 算法层面

Alpha-to-Coverage：在MSAA场景下，用alpha值控制采样点覆盖率，避免直接discard。

Order-Independent Transparency（OIT）：对于复杂透明效果，采用OIT等算法，减少对discard的依赖。

三、实际工程建议

在移动端开发时，优先考虑TBDR架构的特性，设计资源和渲染流程。

多和美术、引擎开发沟通，资源和代码两手抓。

定期用真机Profile，发现瓶颈及时调整。

关注引擎和GPU厂商的最佳实践文档。

结论

TBDR的高效依赖于可预测性和片上缓存，alpha test/discard让像素命运变得不可预测，破坏了TBDR的提前优化和缓存利用。只有从Shader、资源、管线、算法等多方面协同优化，才能最大限度发挥TBDR的性能优势。

版权声明：本文为CSDN博主「你一身傲骨怎能输」的原创文章，
遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_33060405/article/details/149211980

针对移动端TBDR架构GPU特性的渲染优化	移动端TBDR：全屏后处理的性能陷阱	移动端全屏后处理优化关键
TBDR架构下drawcall过多的致命隐患	延迟渲染的原理与代码应用	UE高级性能剖析技术（1）-- RHI线程（渲染提交)

最新文章

最新文章