3. 循环神经网络

# 核心结构与工作原理

RNN 的核心思想是在序列数据处理中，将前一时刻的信息传递给下一时刻，从而实现对序列依赖关系的建模。

RNN 的每个时间步都接收一个输入，并结合上一时间步的隐藏层状态来计算当前时间步的隐藏层状态和输出。

输入层
- 输入：通常是独热向量（one-hot vector），表示为 $x^{(t)} \in \mathbb{R}^V$ ，其中 $V$ 是词汇表大小。
- 词嵌入：将独热向量转换为词向量（word embedding），表示为 $e^{(t)} = E x^{(t)}$ 。
隐藏层
- 隐藏层状态：隐藏层状态 $h^{(t)}$ 存储了从序列开始到当前时间步的所有历史信息，其计算公式为：
  $h^{(t)} = \sigma(W_h h^{(t-1)} + W_e e^{(t)} + b_h)$
  其中， $\sigma$ 是激活函数，常用的有 $\tanh$ 。 $h^{(t-1)}$ 是上一时间步的隐藏层状态， $W_h$ 和 $W_e$ 是权重矩阵， $b_h$ 是偏置项。
输出层
- 输出：输出层通常使用 softmax 函数将隐藏层状态 $h^{(t)}$ 转换为一个概率分布，用于预测下一个词。
  $\hat y^{(t)} = \text{softmax}(W_y h^{(t)} + b_y) \in \mathbb{R}^V$
  其中， $W_y$ 是权重矩阵， $b_y$ 是偏置项。

RNN 的损失函数通常使用交叉熵（Cross-Entropy, CE），用于衡量模型预测的概率分布与真实标签之间的差异。

$L = CE(y, \hat y) = -\sum_{i=1}^{V} y_i \log \hat y_i$

其中， $y$ 是真实标签的独热向量， $\hat y$ 是模型的预测概率分布。

RNN 的训练使用**随时间反向传播（Backpropagation Through Time, BPTT）**算法。该算法将 RNN 在时间维度上展开，然后应用标准的反向传播算法来计算梯度。

梯度计算
- $L_t$ 对 $W_h$ 的梯度：计算损失函数 $L_t$ 关于权重矩阵 $W_h$ 的梯度时，需要将所有时间步的梯度进行累加。
  $\frac{\partial L_t}{\partial W_h} = \sum_{i=1}^{t} \frac{\partial L_t}{\partial W_h} \bigg|_{i}$
Softmax 与交叉熵的梯度
- 在输出层，softmax 函数和交叉熵损失结合使用时，可以得到一个简洁的梯度计算公式：
  $\frac{\partial L}{\partial z} = \hat y - y$
  其中， $z = W_y h^{(t)} + b_y$ 。

梯度消失/爆炸问题：由于 BPTT 算法的链式法则，导致梯度在长序列中快速衰减或爆炸，使得模型难以学习到远距离依赖关系，实际能保留的信息跨度非常有限（大约7个时间步）。
计算效率低：由于其固有的序列依赖性，只能进行串行计算，无法并行化。