Shader

学习shader之前必须知道的东西——渲染管线

所谓GPU的渲染管线,听起来好像很高深的样子,其实我们可以把它理解为一个流程,就是我们告诉GPU一堆数据,最后得出来一副二维图像,而这些数据就包括了”视点、三维物体、光源、照明模型、纹理”等元素。
在各种图形学的书中,渲染管线主要分为三个阶段:应用程序阶段、几何阶段、光栅阶段。

1、应用程序阶段

这个阶段相对比较好理解,就比如我们在Unity里开发了一个游戏,其实很多底层的东西Unity都帮我们实现好了,例如碰撞检测、视锥剪裁等等,这个阶段主要是和CPU、内存打交道,在把该计算的都计算完以后,在这个阶段的末端,这些计算好的数据(顶点坐标、法向量、纹理坐标、纹理)就会通过数据总线传给图形硬件,作为我们进一步处理的源数据。

2、几何阶段

主要负责顶点坐标变换、光照、裁剪、投影以及屏幕映射,改阶段基于GPU进行运算,在该阶段的末端得到了经过变换和投影之后的顶点坐标、颜色、以及纹理坐标。简而言之,几何阶段的主要工作就是“变换三维顶点坐标”和“光照计算”。

Unity Shader 知识点总结(二)

紧接着上一篇文章的shader入门知识的总结,本文主要总结shader中的纹理贴图、透明度混合、顶点动画、后期特效处理等操作。如果有什么地方有错,请指出更正,谢谢。本文的代码主要来自开源书:unity入门精要

一、Unity shader中的纹理

1、简单纹理

在unity shader中,纹理的主要作用是用来给模型贴上一个外表,这样得到的模型颜色就具有纹理的颜色混合。在常见的一些shader上,都会有一个_MainTex的选项,这就是我们常常用的主纹理贴图。对于纹理贴图,其对应的需要有纹理坐标。在应用阶段,unity就会将模型的纹理坐标进行整理,存储在语义为TEXCOORD的语义中,通常我们会在shader中定义应用阶段到顶点计算阶段的结构体:

struct a2v{
     vertex:POSITION;  

Unity Shader的组织形式

Unity Shader的形态

Unity官方手册上讲Unity Shader有三种不同的编写方案,这三种编写方案分别是surface shaders、vertex and fragment shaders和fixed function shaders。

可编程图形管线中能够编写shader的主要是两个部分:vertex shader和fragment shader,但Unity还有surface shaders和fixed function shaders。

对于fixed function shaders,从表面意思来理解就是固定管线着色器,在可编程管线硬件出现之前,很多的光照流水计算都会放在硬件里进行处理,我们把这样的固定管线功能也看作是对应于固定管线硬件的操作,这种shader的功能是很保守的,比如说启用简单的光照,进行简单的纹理采样等等,对于现在绝大多数硬件都能得到很好的支持。

Unity Shader 知识点总结(一)

在学习了一段时间的Unity Shader后,打算写一些知识总结,便于今后的查找。如有错误,希望大家指出更改。

本文参照的unity入门精要一书,做一个知识归纳,如有兴趣可以看看其开源的部分,是一本比较好的入门shader书。

一、渲染流水线

学习shader的知识,最重要的是要理解渲染流水线,基于渲染流水线,才能进一步的理解和学习下面的各个部分的shader。基于 Real-time rendering一书,渲染流水线可以分为三个部分:

1、应用阶段

在unity shader中,应用阶段主要完成三个基本的事:

1)准备渲染的场景和模型;

2)设置渲染的状态,主要是渲染所用到的材质、shader、贴图等;

3)对渲染对象做一个粗粒度的剔除操作。

这一阶段都是在CPU阶段执行的,特别是渲染状态的设置,对于后期的渲染有较大的影响,常见的批处理等操作都是在这阶段完成的。对于CPU阶段的优化,我也翻译了一篇外文如何优化CPU造成的渲染性能问题,可以查看这儿:Unity渲染优化中文翻译(二)——CPU的优化策略

【Unity Shader】---数据类型和关键字

一、基本数据类型:Cg支持7种基本的数据类型

1、float,32位浮点数据,一个符号位。浮点数据类型被所有的图形接口支持;

2、half,16位浮点数据;

3、int,32位整形数据

4,fixed,12位定点数,

5、bool,布尔数据,被所有的图形接口支持;

6、sampler*,纹理对象的句柄,分为sampler、sampler1D、sampler2D、sampler3D、samplerCUBE和samplerRECT。

二、内置的数据类型

基于基础数据类型,如float3,表示float类型的三维向量;同理,bool2表示布尔类型的二维向量。

注:向量最长不能超过四元,如float5 vector;//编译错误

向量的赋值:

    float2 a=float(1.0,1.0); //编译通过

float2 a=float(1.0f,1.0f); //编译错误

float3 b=float(a,0.0); //编译通过

矩阵数据类型:

Unity Shader 之渲染流水线

什么是渲染流水线?

一个渲染流程分成3个步骤:

• 应用阶段(Application stage)
• 几何阶段(Geometry stage)
• 光栅化阶段(Rasterizer stage)

CPU 与 GPU之间的通信

通信主要包括3个步骤:

• 把数据加载到显存中
• 设置渲染状态
• 调用Draw Call

GPU 流水线

Unity Shader 之渲染流水线

在渲染流水线的几何阶段和光栅化阶段,开发者能做的事情很少,这里制作简单介绍。

GPU的渲染流水线接受顶点数据作为输入。这些顶点数据应用阶段加载到显存中,再由Draw Call指定。随后传递给顶点着色器。

梳理 Opengl ES 3.0 (五)shader运行原理

shader都是在运行时编译和执行的,每个shader都有一个main函数作为它的入口。

vertex shader的功能有两个:一个是计算顶点坐标变换,另一个就是为片元shader计算逐顶点信息。

梳理 Opengl ES 3.0 (五)shader运行原理

fragment shader在每个像素片上会执行,如上图的4和5,它的功能是计算片元即fragment的颜色值,一般来说,这类shader会计算颜色插值,纹理坐标计算,纹理提取,法线插值,光照,雾效等等。上图里的6是光栅化处理后的图像,framebuffer即帧缓存里的一个pixel是由一个或者任意多个fragment的信息组合而成,至于如何组合,就可以用程序来决定了,每个fragment都是可以用程序控制的对象。

现代的多核GPU针对大数据量的多边形转换计算以及浮点型运算进行了优化,能够并行处理大量数据。处理过程如下所示:

GPU 优化总结

由于图形引擎的复杂性,瓶颈可能发生在CPU、GPU、,也可能发生在CPU与GPU的传输数据与交互之中。这里我们只假设瓶颈在GPU上,讨论GPU的优化方法。

Premature optimization is the root of all evil. -- Donald Knuth 这告诉我们过早优化程序是不可取的,我觉得有两方面的意思:
1、在没有找到高效的算法前就开始优化。
2、在没有找到真正的瓶颈关就开始优化。

正确的流程大概是这样的

1、使功能能工作,程序能跑起来。
2、功能正确的工作。
3、让整个程序能工作。
4、让整个程序能正确工作。
5、使用这个程序并找到性能瓶颈。
6、使用性能分析工具找到瓶颈所在。
7、使程序高效正确的运行。[1]

还有一个原则就是80~20原则,即只有百分之二十的代码是常用的,所以要集中优化这些代码,而不是一些很少执行的代码上花些时间。

既然直接谈GPU优化,那我们就假设上面流程中的前五条已经满足,我们假定GPU有瓶颈了,这时我们可以借助一些工具或其它方法来找到程序的瓶颈所在,然后根据这些分析结果来有目的的优化程序。

【Unity Shader】---数据类型和关键字

一、基本数据类型:Cg支持基本的数据类型

1、float,32位浮点数据,一个符号位。浮点数据类型被所有的图形接口支持;

2、half,16位浮点数据;

3、int,32位整形数据

4,fixed,12位定点数,

5、bool,布尔数据,被所有的图形接口支持;

6、sampler*,纹理对象的句柄,分为sampler、sampler1D、sampler2D、sampler3D、samplerCUBE和samplerRECT。

二、内置的数据类型

基于基础数据类型,如float3,表示float类型的三维向量;同理,bool2表示布尔类型的二维向量。

注:向量最长不能超过四元,如float5 vector;//编译错误

向量的赋值:

float2 a=float(1.0,1.0); //编译通过

float2 a=float(1.0f,1.0f); //编译错误

float3 b=float(a,0.0); //编译通过

矩阵数据类型:

float1X1 m1; //即float m1,一维矩阵

shader程序员需要注意的优化Tips

在写shader的时候,其实一些写法对于其执行影响非常大,而且由于gpu和cpu在架构上的不同,代码的优化思想也不一样...

首先要树立几个思想:

1.gpu是SIMD的架构,即单指令多数据流架构,即在gpu上同时执行n个数据和执行1个数据的效率是一样的,我们要

尽量的把并行的计算搬到gpu上

2.gpu是以向量计算为基础设计的,也就是说在gpu上执行一个向量乘法和执行一个float的乘法的效率是一样的,

并不向cpu那样要多执行几次

3、通常,需要渲染的像素比顶点数多,而顶点数又比物体数多很多。所以如果可以,尽量将运算从PS移到VS,或直接通过script来设置某些固定值;

所以

1.尽量把一些计算合并成向量计算,记住一个向量计算和一个float计算那样快!
比如
float x,y;
x = x * a;
y = y * b;
不如写成 float2 v = float2(x,y);
v = v*float2(a,b);

因为前一种写法是两次乘法计算,而后一种只要1次

2.不要在gpu里面用分支或者条件判断这种语句,尽管大多数gpu 的shader支持这种语法,但是多数gpu里面的

同步内容
--电子创新网--
粤ICP备12070055号