Sequential Models • Roxy's Library

Recurrent Neural Network(RNN)#

RNN 是一类专为序列数据设计的神经网络，引入了循环连接，让网络在处理当前输入时，能够携带之前步骤的信息

rnn

其内部函数可以描述为：

h_t = f_W(h_{t-1}, x_t) \quad y_t = g_W(h_t)

其中 $h_t$ 是当前时间步的隐藏状态， $h_{t-1}$ 是前一个时间步的隐藏状态， $x_t$ 是当前输入， $f_W$ 和 $g_{W_y}$ 是参数为 $W$ 和 $W_y$ 的非线性函数， $y_t$ 是当前时间步的输出

RNN 展开后的结构如下图所示： unfolded_rnn

初始状态 $h_0$ 可以是一个全零向量

最初始的 RNN

h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h) \quad y_t = W_{hy} h_t + b_y

最简单的一个字母级预测模型，每次预测一个字母 vanilla_rnn

vanilla_rnn_unfolded

图中红色箭头为反向传播的路径，图中如果 $h_4$ 是最后一步则不会有来自后面的梯度

对于输出层，每个输出可以计算一个loss，应用于当前步的反向传播和 $W_{hy}$ 的权重更新。每一步都会计算出一个对于权重矩阵 $W$ （或者说 $W_{hh}$ 和 $W_{xh}$ ）的梯度，这些梯度会累加，在最后对 $W$ 进行更新

可以看到在反向传播过程中，靠前的时间步需要计算更多次的梯度乘积

解决方法：Truncated BP，太长的序列只反向传播有限的时间步

我们使用RNN进行文本生成时，对于每一步输出的向量，我们可以通过softmax函数将其转换为概率分布，然后根据这个概率分布来选择输出的token

Sample Strategy：输出时如何选取合适的token

P(y|x) = \prod_{t=1}^T P(y_t|y_{<t}, x)

梯度消失问题：由于距离较远的梯度信号比距离较近的梯度信号小得多，因此发生了丢失，模型的权重只针对近效应进行更新，而不是长期效应。

因此理论上 RNN 的 context 是无限长的，但实际上根本学不出来

RNN 优点:

RNN 缺点:

改变 RNN 的结构来一定程度上解决梯度消失问题

回顾 Vanilla RNN 的计算公式：

h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)

$tanh$ 求导后小于 $1$ ，因此在反向传播过程中，梯度会不断乘以一个小于1的数，导致梯度逐渐变小，最终消失。我们认为这里保存的是短期记忆，所以很容易忘掉；需要一种能保存长期记忆的机制

LSTM 引入了一个新的状态 $c_t$ ，称为细胞状态（cell state），它可以看作是一个长期记忆的载体，引入门控机制来控制信息的流动：

lstm

LSTM 的计算公式如下：

\begin{aligned} i_t &= \sigma(W_{hi} h_{t-1} + W_{xi} x_t + b_i) \\ f_t &= \sigma(W_{hf} h_{t-1} + W_{xf} x_t + b_f) \\ o_t &= \sigma(W_{ho} h_{t-1} + W_{xo} x_t + b_o) \\ g_t &= \tanh(W_{hg} h_{t-1} + W_{xg} x_t + b_g) \\ c_t &= f_t \odot c_{t-1} + i_t \odot g_t \\ h_t &= o_t \odot \tanh(c_t) \end{aligned}

LSTM 也不能完全解决梯度消失问题，但其类似于 skip link 的结构很好的缓解了这个问题

用RNN来解释图像的内容，生成描述性的文本。一个简单的做法就是CNN后面接一个RNN，CNN负责提取图像特征，RNN负责生成文本描述

Image Caption using RNN

对于CNN，我们不需要它在最后生成每种分类的概率，而应该在前面截断。（比如一个1000分类的CNN，最后的FC层是4096 -> 1000，我们不需要这个1000分类的输出，而是需要4096维的特征向量）

Truncated CNN

接下来把这个特征向量过一个矩阵，转化为 RNN 的输入维度，然后 RNN 就可以开始生成文本了

\begin{aligned} b_v & = W_{hi}(CNN_{\theta}(I)) \\ h_t & = f(W_{hx}x_t + W_{hh}h_{t-1} + b_h + \mathbb{1}(t=1) \odot b_v) \\ \end{aligned}

这里面RNN的输入（下面那一排）就是前一个状态的输出（ $y_{t-1}$ ），这种方式称为自回归；而在训练时，我们把前一个状态的输出换成正确的标签作为下一个状态的输入，这种方式称为teacher forcing

时刻0: <START> → 预测 "straw"
时刻1: "straw" → 预测 "hat"  
时刻2: "hat"  → 预测 <END>

plaintext

另一种方式叫做non-autoregressive，同步输入

输入:  [x₁, x₂, x₃, x₄]   ← 每个 x 是独立的外部输入（如词向量）
输出:  [y₁, y₂, y₃, y₄]   ← 每个时刻对应一个标签

plaintext