RGB彩图卷积过程

demi 在周三, 05/13/2020 - 14:57 提交

在CNN中，滤波器filter（带着一组固定权重的神经元）对局部输入数据进行卷积计算。每计算完一个数据窗口内的局部数据后，数据窗口不断平移滑动，直到计算完所有数据。这个过程中，有这么几个参数：

　　a. 深度depth：神经元个数，决定输出的depth厚度。同时代表滤波器个数。

　　b. 步长stride：决定滑动多少步可以到边缘。

　　c. 填充值zero-padding：在外围边缘补充若干圈0，方便从初始位置以步长为单位可以刚好滑倒末尾位置，通俗地讲就是为了总长能被步长整除。

cs231n课程中有一张卷积动图，貌似是用d3js 和一个util 画的，我根据cs231n的卷积动图依次截取了18张图，然后用一gif 制图工具制作了一gif 动态卷积图。如下gif 图所示

可以看到：

• 两个神经元，即depth=2，意味着有两个滤波器。
• 数据窗口每次移动两个步长取3*3的局部数据，即stride=2。
• zero-padding=1。

然后分别以两个滤波器filter为轴滑动数组进行卷积计算，得到两组不同的结果。

如果初看上图，可能不一定能立马理解啥意思，但结合上文的内容后，理解这个动图已经不是很困难的事情：

• 左边是输入（7*7*3中，7*7代表图像的像素/长宽，3代表R、G、B 三个颜色通道）
• 中间部分是两个不同的滤波器Filter w0、Filter w1
• 最右边则是两个不同的输出

随着左边数据窗口的平移滑动，滤波器Filter w0 / Filter w1对不同的局部数据进行卷积计算。

值得一提的是：

• 左边数据在变化，每次滤波器都是针对某一局部的数据窗口进行卷积，这就是所谓的CNN中的局部感知机制。

• 打个比方，滤波器就像一双眼睛，人类视角有限，一眼望去，只能看到这世界的局部。如果一眼就看到全世界，你会累死，而且一下子接受全世界所有信息，你大脑接收不过来。当然，即便是看局部，针对局部里的信息人类双眼也是有偏重、偏好的。比如看美女，对脸、胸、腿是重点关注，所以这3个输入的权重相对较大。

与此同时，数据窗口滑动，导致输入在变化，但中间滤波器Filter w0的权重（即每个神经元连接数据窗口的权重）是固定不变的，这个权重不变即所谓的CNN中的参数（权重）共享机制。

• 再打个比方，某人环游全世界，所看到的信息在变，但采集信息的双眼不变。btw，不同人的双眼看同一个局部信息所感受到的不同，即一千个读者有一千个哈姆雷特，所以不同的滤波器就像不同的双眼，不同的人有着不同的反馈结果。

我第一次看到上面这个动态图的时候，只觉得很炫，另外就是据说计算过程是“相乘后相加”，但到底具体是个怎么相乘后相加的计算过程则无法一眼看出，网上也没有一目了然的计算过程。本文来细究下。

首先，我们来分解下上述动图，如下图

接着，我们细究下上图的具体计算过程。即上图中的输出结果1具体是怎么计算得到的呢？其实，类似wx + b，w对应滤波器Filter w0，x对应不同的数据窗口，b对应Bias b0，相当于滤波器Filter w0与一个个数据窗口相乘再求和后，最后加上Bias b0得到输出结果1，如下过程所示：

1* 0 + 1*0 + -1*0

-1*0 + 0*0 + 1*1

-1*0 + -1*0 + 0*1

-1*0 + 0*0 + -1*0

0*0 + 0*1 + -1*1

1*0 + -1*0 + 0*2

0*0 + 1*0 + 0*0

1*0 + 0*2 + 1*0

0*0 + -1*0 + 1*0

然后滤波器Filter w0固定不变，数据窗口向右移动2步，继续做内积计算，得到0的输出结果

最后，换做另外一个不同的滤波器Filter w1、不同的偏置Bias b1，再跟图中最左边的数据窗口做卷积，可得到另外一个不同的输出。

解析卷积的高速计算中的细节，一步步代码带你飞	关于卷积神经网络体系设计的理论实现	C++ 中的卷积神经网络 (CNN)
离散卷积理论	CNN中卷积层参数量与输出特征图尺寸的计算公式	科普：反卷积原理

最新文章