13. Seq2Seq模型

# Seq2Seq 概述

Seq2Seq（Sequence-to-Sequence） 是一种神经网络架构，用于将一个序列转换为另一个序列，常用于神经网络机器翻译（NMT）。

Seq2Seq 模型是条件语言模型（Conditional Language Model） 的应用。在翻译任务中，解码器在预测下一个单词时，其预测过程是基于源句子 $x$ 的条件进行的。其概率计算公式为：

$P(y | x) = \prod_{t=1}^{T_y} P(y_t | y_{<t}, x)$

早期的 Seq2Seq 模型通常采用循环神经网络（RNN） 作为其核心组件，其核心是编-解码器（Encoder-Decoder） 结构：

整个模型通过端到端的方式进行训练。在训练过程中，通常会使用 “教师强制（Teacher Forcing）” 技术，即在预测下一个单词时，模型会使用真实的前一个单词作为输入，而不是模型自身的预测结果。

在生成目标序列时，有多种解码策略可供选择，以在效率和准确性之间取得平衡。

贪心解码（Greedy Decoding）：在每一步都选择概率最高的单词作为输出。这种方法虽然简单快速，但无法保证得到全局最优解。
穷举搜索解码（Exhaustive Search Decoding）：理论上可以找到概率最大的序列，但其复杂度为 $O(V^{T_y})$ ，其中 $V$ 是词汇表大小， $T_y$ 是目标序列长度，计算量巨大，在实践中不可行。
束搜索解码（Beam Search Decoding）：这是一种介于前两者之间的启发式方法。它在每一步保留 $k$ $k$ 个最有可能的候选路径（称为“束”或“Beam”），并跟踪这些路径。
- 束大小（Beam Size） $k$ ：通常取值为 5 到 10。
- 优点：比穷举搜索高效得多，同时通常能获得比贪心解码更好的结果。
- 缺点：并不能保证找到全局最优解。
- 停止条件：达到预设的最大时间步 $T$ ，或至少 $n$ 个假设路径已经生成了结束符（</s>）。
- 完成阶段：从所有已结束的路径中，选择归一化分数最高的路径作为最终输出。
  $\text{score}(y_1, y_2, \cdots, y_t) = \frac{1}{t} \sum_{i=1}^{t} \log P(y_i | y_{<i}, x)$

传统的 RNN NMT 在处理长序列时表现不佳，因为编码器最终的隐藏状态无法有效承载整个长句子的所有信息。注意力机制（Attention Mechanism） 的引入解决了这一问题，并提供了一定的可解释性。

编码器（Encoder）：对输入序列进行编码，生成一系列隐藏状态 $h_1, h_2, \cdots, h_n \in \mathbb{R}^h$ 。
解码器（Decoder）：在每个时间步 $t$ ，解码器 RNN 基于上一个时间步的隐藏状态 $s_{t-1}$ 和输出 $y_{t-1}$ ，生成当前隐藏状态 $s_t \in \mathbb{R}^h$ 。
$s_t = f(s_{t-1}, y_{t-1})$
计算注意力得分：将当前解码器隐藏状态 $s_t$ 与所有编码器隐藏状态 $h_i$ 进行计算，得到注意力得分向量 $e_t$ 。
$e_t = \begin{bmatrix} s_t^T h_1 & s_t^T h_2 & \cdots & s_t^T h_n \end{bmatrix} \in \mathbb{R}^n$
生成注意力分布：对注意力得分 $e_t$ 进行 softmax 操作，得到注意力权重分布 $\alpha_t$ 。
$\alpha_t = \text{softmax}(e_t) \in \mathbb{R}^n$
计算注意力输出：根据注意力分布对编码器隐藏状态进行加权求和，得到注意力输出向量 $a_t$ 。
$a_t = \sum_{i=1}^{n} \alpha_{ti} h_i \in \mathbb{R}^h$
生成最终输出：将注意力输出 $a_t$ 与当前解码器隐藏状态 $s_t$ 拼接，然后通过分类层生成最终的输出词汇概率分布 $y_t$ 。
$y_t = \text{softmax}(g(s_t, a_t))$

相较于传统的统计机器翻译（SMT），神经网络机器翻译（NMT）具有显著优势：

NMT 仍然面临一些挑战：