英语原文共 33 页，剩余内容已隐藏，支付完成后下载完整资料

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/13853244

Article in Neural Computation · December 1997

DOI: 10.1162/neco.1997.9.8.1735 · Source: PubMed

CITATIONS

20,479

READS

87,850

2 authors, including:

Sepp Hochreiter

Johannes Kepler University Linz

178 PUBLICATIONS 27,522 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Self-normalizing Neural Networks View project

3D Object Detection View project

All content following this page was uploaded by Sepp Hochreiter on 03 April 2016.

The user has requested enhancement of the downloaded file.

长短期记忆

Neural Computation 9(8):1735{1780, 1997

Sepp Hochreiter Jurgen Schmidhuber

Fakultat fur Informatik IDSIA

Technische Universitat Munchen Corso Elvezia 36

80290 Munchen, Germany 6900 Lugano, Switzerland

hochreit@informatik.tu-muenchen.de juergen@idsia.ch

http://www7.informatik.tu-muenchen.de/~hochreit http://www.idsia.ch/~juergen

摘要

通过递归反向传播学习如何在延长的时间间隔存储信息会花费很长时间，这主要是由于不充分和衰减的误差回流而导致的。我们简要回顾了Hochreiter在1991年对该问题的分析，然后通过引入一种称为“长短期记忆”（LSTM）的新颖有效的、基于梯度的方法来解决该问题。在不造成危害的情况下截断该梯度，LSTM通过在特殊单位内以“恒定误差轮播”来强制恒定误差流，从而学习弥合超过1000个离散时间步中的最小时间滞后。乘法门单元学习如何打开和关闭恒定误差流。LSTM在时空上是局部的；其每个时间步和权重的计算复杂度为O(1)。我们的人造数据实验涉及局部、分布式、实数和噪声模式表示。与RTRL，BPTT、递归级联相关、Elman网络和神经序列分块相比，LSTM成功运行的次数更多，并且学得更快。LSTM还解决了以前的递归网络算法从未解决过的复杂的、人造长时延任务。

介绍

循环网络原则上可以使用其反馈连接以激活的形式（“短期记忆”，与通过缓慢变化的权重体现的“长期记忆”相对）来存储最近输入事件的表示。这对于包括语音处理，非马尔可夫控制和音乐创作在内的许多应用而言可能具有重要意义（例如Mozer 1992）。然而，用于学习短期记忆内容的最广泛使用的算法会花费太多时间或根本无法正常工作，尤其是在输入与相应的教师信号之间的时间间隔很短的情况下。尽管从理论上讲是令人着迷的，但是与有限时间窗口中的前馈网络中的反向传播相比，现有方法没有提供明显的实际优势。本文将对问题进行分析并提出补救措施。

问题。使用常规的“时间反向传播”（BPTT，例如Williams和Zipser 1992，Werbos 1988）或“实时递归学习”（RTRL，例如Robinson和Fallside 1987），错误信号“在时间上倒流”趋向于（1）爆炸或（2）消失：反向传播误差的时间演变成倍地取决于权重的大小（Hochreiter 1991）。情况（1）可能导致权重振荡，而情况（2）中学习弥合长时间滞后会花费大量时间，或者根本不起作用（请参阅第3节）。

补救措施。本文介绍了“长短期记忆”（LSTM），它是一种新颖的递归网络架构，并结合了适当的基于梯度的学习算法。LSTM旨在克服这些错误回流问题。即使在嘈杂，不可压缩的输入序列的情况下，它也可以学会桥接超过1000步的时间间隔，而不会损失短时滞功能。这是通过针对架构的高效，基于梯度的算法来实现的,通过特殊单元的内部状态执行恒定的（因此既不会爆炸也不会消失）错误流（前提是在某些特定于体系结构的点处截断了梯度计算）-不过，这不会影响长期错误流）。

论文大纲。第2节将简要回顾以前的工作。第三部分首先详细分析了因Hochreiter（1991）而导致的消失错误。然后，出于教学目的，它将引入一种天真的方法来解决恒定错误的反向传播问题，并重点介绍其与信息存储和检索有关的问题。这些问题将导致形成第4节中所述的LSTM体系结构。第5节将介绍许多实验以及与竞争方法的比较。LSTM胜过它们，并且还学习解决复杂的人工任务，而其他递归网络算法则无法解决。第6节将讨论LSTM的局限性和优势。附录包含对算法的详细说明（A.1）和显式错误流公式（A.2）。

前期工作

本节将重点介绍具有时变输入的递归网络（与具有固定输入和基于定点的梯度计算的网络相反，例如Almeida 1987，Pineda 1987）。

梯度下降变体。Elman（1988），Fahlman（1991），Williams（1989），Schmidhuber（1992a），Pearlmutter（1989）的方法以及Pearlmutter的全面概述（1995）中的许多相关算法都遭受与BPTT相同的问题。和RTRL（请参阅第1和第3节）。时间延迟。其他似乎仅对短时滞有效的方法是延时神经网络（Lang等人，1990年）和Plate的方法（Plate，1993年），它们根据旧激活的加权总和来更新单元激活（另请参阅de Vries和Principe） 1991）。Lin等。（1995年）提出了称为NARX网络的时延网络的变体。

时间常数。为了处理较长的时间延迟，Mozer（1992）使用影响单元激活变化的时间常数（deVries和Principe的上述方法（1991）实际上可以看作是TDNN和时间常数的混合）。但是，对于长时间的延迟，时间常数需要外部微调（Mozer 1992）。Sun等人的替代方法（1993年）通过添加旧的激活和（按比例的）当前净输入来更新循环单元的激活。但是，净输入往往会干扰存储的信息，这使得长期存储变得不切实际。

Ring的方法。Ring（1993）还提出了一种弥合长时间滞后的方法。每当网络中的某个单元收到冲突的错误信号时，他都会添加一个高阶单元来影响适当的连接。尽管他的方法有时可能非常快，但要弥合涉及100个步骤的时滞可能需要增加100个单位。而且，Ring的净额不能推广到看不见的滞后持续时间。

Bengio等人的方法。Bengio等。（1994）研究了诸如模拟退火，多网格随机搜索，时间加权伪牛顿优化和离散误差传播等方法。它们的“闩锁”和“ 2序列”问题与问题3a非常相似，但具有最小的时间滞后100（请参见实验3）。Bengio和Frasconi（1994）还提出了一种用于传播目标的EM方法。对于n个所谓的“状态网络”，在给定时间，它们的系统可以处于n个

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[237255]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

长短期记忆外文翻译资料

介绍

前期工作

您可能感兴趣的文章

登录

注册

找回密码

介绍

前期工作

您可能感兴趣的文章