深度学习常见专业名词有哪些?

输入层
Input layer。即输入x的那一层。

输出层
Output layer。即输出y的那一层。

隐含层
Hidden layer。输入层和输出层之间不管隔了多少层都叫隐层。

卷积
Convolution。其实是一种特征提取的过程,通常会降低维度

池化
Pooling。是一种数据采样操作,有均值池化(Average Pooling),最大值池化(Max Pooling)等分类。
均值池化:即对局部接受域中的所有值求均值;
最大值池化:即对邻域内特征点取最大。
池化可以有效的降低特征值的数量,减少计算量,是将一个区域的特征用一个特征来表示

激活函数
Activation Function。为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。最常用的函数包括 sigmoid、tanh、ReLU(Rectified Linear Unit 线性修正单元) 以及这些函数的变体

Dropout
Dropout 是一种用于神经网络防止过拟合的正则化技术。它通过在每次训练迭代中随机地设置神经元中的一小部分为 0 来阻止神经元共适应(co-adapting),Dropout 可以通过多种方式进行解读,比如从不同网络的指数数字中随机取样。Dropout 层首先通过它们在卷积神经网络中的应用而得到普及,但自那以后也被应用到了其它层上,包括输入嵌入或循环网络

偏置单元
偏置单元(bias unit),在有些资料里也称为偏置项(bias term)或者截距项(intercept term),它其实就是函数的截距,与线性方程 y=wx+b 中的 b 的意义是一致的。在 y=wx+b中,b表示函数在y轴上的截距,控制着函数偏离原点的距离,其实在神经网络中的偏置单元也是类似的作用。

梯度下降
Gradient Descent。主要有两种方法,一种是随机梯度下降,一种是批量梯度下降。批量梯度下降每次更新权重需要训练完所有的数据,随机梯度下降每次训练完一条记录,就可以计算对应梯度,更新权重

嵌入
Embedding。一个嵌入映射到一个输入表征,例如一个词或一句话映射到一个矢量。一种流行的嵌入是词语嵌入(word embedding,国内常用的说法是:词向量),如 word2vec 或 GloVe。也可以嵌入句子、段落或图像。

反向传播
Backpropagation。反向传播是一种在神经网络中用来有效地计算梯度的算法,或称为前馈计算图(feedforwardcomputational graph)。它可以归结成从网络输出开始应用分化的链式法则,然后向后传播梯度。

分批标准化
Batch Normalization。分批标准化是一种按小批量的方式标准化层输入的技术。它能加速训练过程,允许使用更高的学习率,还可用作规范器(regularizer)。分批标准化在卷积和前馈神经网络中应用较多,但尚未应用到循环神经网络上。

卷积神经网络
CNN:ConvolutionalNeural Network。CNN 使用卷积连接从输入的局部区域提取特征。大部分 CNN 都包含了卷积层、池化层和仿射层的组合。CNN 凭借其在视觉识别任务的卓越性能而获得普及,它已经在该领域保持了好几年的领先地位。

深度信念网络
DBN:Deep Belief Network。DBN 是一类以无监督的方式学习数据的分层表征的概率图形模型。DBN 由多个隐藏层组成,这些隐藏层每一对连续层之间的神经元相互连接。DBN 通过堆叠多个 RBN(限制波尔兹曼机)并一个接一个地训练而创建。

循环神经网络
RNN:Recurrent NeuralNetwork。RNN 模型通过隐藏状态(或称记忆)连续相互作用。它可以使用最多 N 个输入,并产生最多 N 个输出。例如,输入是一个句子,输出是每个单词的词性标注(part-of-speechtag)(N 到 N),或是这个句子的情感分类(N 到 1);再如,输入是单个图像,输出是描述该图像所对应一系列词语(1 到 N)。在每一个时间步骤中,RNN会基于当前输入和之前的隐藏状态,计算新的隐藏状态「记忆」。其中,「循环(recurrent)」一词是指,在每一步中都使用了同样的参数,该网络根据不同的输入执行同样的计算。

递归神经网络
Recursive Neural Network。递归神经网络是循环神经网络的树状结构的一种泛化(generalization)。每一次递归都使用相同的权重。就像 RNN 一样,递归神经网络可以使用向后传播(backpropagation)进行端到端的训练。尽管可以学习树结构以将其用作优化问题的一部分,但递归神经网络通常被用在已有预定义结构的问题中,如自然语言处理的解析树中。

自编码器
Autoencoder。Bengio在2003年的《A neural probabilistic language model》中指出,维度过高,会导致每次学习,都会强制改变大部分参数。
由此发生蝴蝶效应,本来很好的参数,可能就因为一个小小传播误差,就改的乱七八糟。
因此,数据降维是数据预处理中,非常重要的一环。常用的降维算法,除了线性的PCA算法之外,还有非线性的Autoencoder。

去噪自编码器
Denoising Autoencoder。去噪自编码器所要实现的功能就是学习叠加噪声的原始数据,而它学习到的特征与从未叠加噪声的数据学到的特征几乎一样,但去噪自编码器从叠加噪声的输入中学习得到的特征更具鲁棒性,并且可以避免自编码器遇到的上述问题,简单地学习相同的特征值。

随机梯度下降
SGD:Stochastic Gradient Descent。随机梯度下降是一种被用在训练阶段学习网络参数的基于梯度的优化算法。梯度通常使用反向传播算法计算。在实际应用中,人们使用微小批量版本的 SGD,其中的参数更新基于批案例而非单个案例进行执行,这能增加计算效率。

批量梯度下降
BGD:Batch Gradient Descent。是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新,也就是方程中的m表示样本的所有个数。

小批量梯度下降法
MBGD:Mini-batch Gradient Descent。它的具体思路是在更新每一参数时都使用一部分样本来进行更新。

梯度消失问题
Gradient disappearance problem。在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类准确率反而下降了。这种现象叫做消失的梯度问题。解决这一问题的常用方法是使用 ReLU 这样的不受小梯度影响的激活函数,或使用明确针对消失梯度问题的架构,如LSTM。

梯度爆炸问题
Exploding Gradient Problem。梯度爆炸问题是梯度消失问题(Vanishing Gradient Problem)的对立面。在深度神经网络中,梯度可能会在反向传播过程中爆炸,导致数字溢出。解决梯度爆炸的一个常见技术是执行梯度裁剪(Gradient Clipping)。

多层感知器
MLP:MultilayerPerceptron。多层感知器是一种带有多个全连接层的前馈神经网络,这些全连接层使用非线性激活函数(activationfunction)处理非线性可分的数据。MLP 是多层神经网络或有两层以上的深度神经网络的最基本形式。

维度灾难
Curse of dimensionality。通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。

参考:
https://www.cnblogs.com/shinny/p/9229383.html
https://blog.csdn.net/a986597353/article/details/79866148
https://blog.csdn.net/walilk/article/details/50278697
https://blog.csdn.net/tkkzc3E6s4Ou4/article/details/78748614

本文出处:CSDN博主「邱之涵0」
原文链接:https://blog.csdn.net/Artoria_QZH/article/details/104349888

推荐阅读