NLP论文阅读- ELMo

论文题目

Deep Contextualized Word Representations (ELMo)

背景介绍

预训练词向量是神经网络语言理解的基础模块。然而，如何得到高质量的词向量仍是一项挑战。获取高质量的词向量需要解决两个问题：

词语本身复杂的特性，如语法和语义
语境变化引发词语用法的改变，如一词多义

特别是第二点，传统词向量基本无能为力，如Word2vec。Word2vec 一般只看周围几个词，仅是语言模型训练过程中的副产物，词向量相对单薄。而ELMo 根据整个句子来决定词的表示，ELMo 是整个双向语言模型中间层表示的融合产物，除了语义语法信息，还可缓解一词多义问题。

ELMo 全称是Embeddings from Language Models。其实Word2vec 也是来源于语言模型，只不过和ELMo 相比，没有尽可能多地利用语言模型的各中间部分的信息。下面具体看看ELMo 是如何利用双向语言模型各层结果的。

模型结构

如图所示，预训练双向语言模型自底而上分别是句子原始输入(input tokens)；输入表示层(token representation layer $L_{o}$)；双向LSTM 层(context-sensitive representation layer $L_{1}$)；双向LSTM 层(context-sensitive representation layer $L_{2}$)。

原始输入为句子的切分片段$t_{k}$，如词、词片段(word piece)。输入表示层一般直接使用embedding 或者使用字符级CNN 进行编码，得到$\textbf{x}_{k}^{LM}$。这部分是上下文无关的，仅与$t_{k}$有关。

接下来是双向LSTM层。对于任意词$t_{k}$，在已知前面词和后面词的情况下，分别从两个方向预测词${t}_{k}$的概率，并输出该词的前向表示$\overrightarrow{\textbf{h}}_{k,j}^{LM}$ 和后向表示$\overleftarrow{\textbf{h}}_{k,j}^{LM}$。文章使用双向LSTM 层不同方向的参数是共享的。图中仅使用了2 层BiLSTM，理论上是可以使用任意个。

有了各层表示之后，对于每个token $t_{k}$，有2L+1个表示集合：
\begin{equation}
\begin{aligned}
R_{k} &= \left \{ \textbf{x}_{k}^{LM}, \overrightarrow{\textbf{h}}_{k,j}^{LM}, \overleftarrow{\textbf{h}}_{k,j}^{LM} | j= 1, …, L \right \} \\
&= \left \{ \textbf{h}_{k,j}^{LM}|j=1, …, L \right \}
\end{aligned}
\end{equation}
其中$\textbf{h}_{k,0}^{LM}$ 为输入表示层。对于每个biLSTM层$\left(j>0\right)$，$\textbf{h}_{k,j}^{LM} = \left[\overrightarrow{\textbf{h}}_{k,j}^{LM}, \overleftarrow{\textbf{h}}_{k,j}^{LM}\right]$。

对于下游任务来说，ELMo 将每个token的表示集合$R_{k}$ 转换成一个向量，即$\textbf{ELMo}_{k} = E\left(R_{k};\Theta ^{task}\right)$。

最简单地，当仅选择ELMo 最后一个biLSTM　层的输出: $\textbf{ELMo}_{k} = \textbf{h}_{k,j}^{LM}$。

普遍来说$E$是一个根据不同任务对双向语言模型不同层进行加权的函数。
\begin{equation}
\textbf{ELMo}_{k}^{task} = E\left(R_{k};\Theta ^{task}\right) = \gamma^{task} \sum_{j=0}^{L}s_{j}^{task}\textbf{h}_{k,j}^{LM}
\end{equation}

模型训练

文章对Char n-gram进行CNN编码，然后接两层Highway层和一个投影层，将其映射成定长512维向量，然后经过两层隐藏单元为4196、输出维度为512的BiLSTM层，从第一个BiLSTM到第二个biLSTM加一个残差连接。相比固定词表的模式，Char CNN 可以很好解决oov 问题。

将双向语言模型在大规模语料中训练好后，把每个单词对应模型中的各层表示记录下来，然后让下游监督任务学习这些表示的线性组合。一般可以将$\textbf{x}_{k}$ 和$\textbf{ELMo}_{k}$ 拼接起来作为接下来监督任务的输入，监督任务一般采用RNN、CNN 或者全连接层进行训练。在某些任务中，再次把$\textbf{ELMo}_{k}$ 和监督任务监督任务的输出层拼接起来可以提升监督任务的效果。

另外, 文章发现对ELMo加入Dropout 正则或者权重L2 正则，效果更佳。同时，在多数下游任务中，进一步Finetune 双向语言模型，效果也有提升。

模型分析

ELMo 认为语言模型不同层可以捕获不同级别的语言特性。高级别表示层可以获得语境相关的语义，而低级别表示层能够学习语法层面的信息。结合起来，可以很好的表示词。ELMo 相比ULMFiT，训练过程操作性更好。同时为使用复杂语言模型来获得词向量提供了新思路。

参考资料：

Deep Contextualized Word Representations