学界 | 超越Softmax瓶颈：一种高秩RNN语言模型_

选自arXiv

机器之心编译

参与：Panda

卡内基梅隆大学计算机科学学院最近一篇正在评议阶段的 ICLR 2018 论文在 arXiv 上公开，该论文证明使用分布式词嵌入的 Softmax 实际上没有足够的能力来建模自然语言，他们为此也提出了自己的解决方法。本论文的并列第一作者是 Zhilin Yang 和 Zihang Dai。杨植麟（Zhilin Yang）本科就读于清华大学计算机系，现就读于CMU。曾在清华 4 年保持全年级第一，同时也是清华大学 2014 年本科生特奖获得者。此外，领导苹果公司的人工智能技术研究的 CMU 教授 Ruslan Salakhutdinov 也是该论文的作者之一。本文由浙江大学博士生杨海宏推荐，他的研究方向为知识图谱问答。

在因式分解（factorization）的基础上，基于循环神经网络（RNN）的语言模型在多项基准上都达到了当前最佳的水平。尽管 RNN 作为通用近似器有出色的表达能力，但点积和 Softmax 的组合是否有能力建模条件概率（会随语境的变化而发生巨大的变化），这个问题还没有得到清楚的解答。

在这项工作中，我们从矩阵分解的角度研究了前面提到的基于 Softmax 的循环语言模型的表达能力。我们表明使用标准公式学习基于 Softmax 的循环语言模型等价于求解矩阵分解问题。更重要的是，因为自然语言高度依赖于语境，所以被分解的矩阵可能是高秩的（high-rank）。这进一步表明带有分布式（输出）词嵌入的基于标准 Softmax 的语言模型没有足够的能力建模自然语言。我们称之为 Softmax 瓶颈（Softmax bottleneck）。

我们提出了一种解决 Softmax 瓶颈的简单且有效的方法。具体而言，我们将离散隐变量（discrete latent variable）引入了循环语言模型，并且将 next-token 概率分布形式化为了 Mixture of Softmaxes（MoS）。Mixture of Softmaxes 比 Softmax 和以前的研究考虑的其它替代方法有更好的表达能力。此外，我们表明 MoS 可以学习有更大的归一化奇异值（normalized singular values）的矩阵，因此比 Softmax 和基于真实世界数据集的其它基准有高得多的秩。

我们有两大贡献。首先，我们通过将语言建模形式化为矩阵分解问题而确定了 Softmax 瓶颈的存在。第二，我们提出了一种简单且有效的方法，可以在当前最佳的结果上实现显著的提升。

论文地址：https://arxiv.org/pdf/1711.03953.pdf

摘要：我们将语言建模形式化了矩阵分解问题，并且表明基于 Softmax 的模型（包括大多数神经语言模型）的表达能力受限于 Softmax 瓶颈。鉴于自然语言高度依赖于语境，这就进一步表明使用分布式词嵌入的 Softmax 实际上没有足够的能力来建模自然语言。我们提出了一种解决这一问题的简单且有效的方法，并且在 Penn Treebank 和 WikiText-2 上分别将当前最佳的困惑度水平改善到了 47.69 和 40.68。

在 PTB 和 WT2 上的语言建模结果分别在表 1 和表 2 中给出。在参数数量差不多的情况下，MoS 的表现超越了所有使用了或没使用动态评估（dynamic evaluation）的基准，并且在当前最佳的基础上实现了显著的提升（困惑度改善了高达 3.6）。