【视频】LSTM在Imagination神经网络加速器上的运行
demi 在 周二, 03/02/2021 - 14:50 提交
Mozilla的DeepSpeech是一个开源的语音转文本引擎,其训练模型是基于百度深度语言研究论文的机器学习。我们将概述如何运行该模型的0.5.1版本,通过在Imagination神经网络加速器(NNA)上加速静态LSTM网络,为汽车应用创建语音助手原型。
Mozilla的DeepSpeech是一个开源的语音转文本引擎,其训练模型是基于百度深度语言研究论文的机器学习。我们将概述如何运行该模型的0.5.1版本,通过在Imagination神经网络加速器(NNA)上加速静态LSTM网络,为汽车应用创建语音助手原型。
随着技术的进步,人工智能系统变得越加复杂,加速这些操作的需求也在增加。Imagination的NNA性能使它成为运行这些网络的有效工具,它允许开发人员创建能够处理语音识别的交互式软件,这将在未来被广泛使用。
在传统神经网络中,模型不会关注上一时刻的处理会有什么信息可以用于下一时刻,每一次都只会关注当前时刻的处理。举个例子来说,我们想对一部影片中每一刻出现的事件进行分类,如果我们知道电影前面的事件信息,那么对当前时刻事件的分类就会非常容易。
循环神经网络很难训练的原因导致它的实际应用中很处理长距离的依赖。本文将介绍改进后的循环神经网络:长短时记忆网络(Long Short Term Memory Network, LSTM),
之前我们介绍了RNN 网络结构以及其所遇到的问题 ,RNN 结构对于关联度太长的时序问题可能无法处理,简单来说,RNN对于太久远的信息不能有效地储存,为了解决这个问题,有人提出了LSTM的网络结构,LSTM 网络结构最早是由 Hochreiter & Schmidhuber 在1997 年提出的,随着后来研究者的不断改进,LSTM网络在很多问题上都有非常好的表现,并且得到广泛的关注与应用。
LSTM 网络
LSTM 结构的一个优势在于可以很好的解决 “long-term dependency” 的问题,”长期记忆”是LSTM结构与生俱来的特性,而不需要刻意地去学习。
所有的RNN结构都是有一个不断重复的模块,在标准的RNN结构中,这个不断重复的模块是一个单层的tanh , 如下图所示:
Long Short Term Memory Networks (LSTMs) 最近获得越来越多的关注,与传统的前向神经网络 (feedforward network)不同,LSTM 可以对之前的输入有选择的记忆,从而有助于判断当前的输入, LSTM的这一特点在处理时序相关的输入时,有着很大的优势。
小心出现过拟合,这通常是因为神经网络在“死记”定型数据。过拟合意味着定型数据的表现会很好,但网络的模型对于样例以外的预测则完全无用。正则化有好处:正则化的方法包括l1、l2和丢弃法等。
在开始调参之前,需要确定方向,所谓方向就是确定了之后,在调参过程中不再更改。1、根据任务需求,结合数据,确定网络结构。例如对于RNN而言,你的数据是变长还是非变长;输入输出对应关系是many2one还是many2many等等
长短期记忆((Long short-term memory)最早是1997年由Hochreiter 和 Schmidhuber在论文《LONG SHORT-TERM MEMORY》中提出的。在神经网络发展的过程中,几乎所有关于LSTM的文章中对于LSTM的结构都会做出一些变动,也称为LSTM的变体。其中变动较大的是门控循环单元(Gated Recurrent Units),也就是较为流行的GRU。
由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。