ESIM 短文本匹配模型解读分析

大鹅 • 2023-01-02 • 云技术社区 • 282 阅读

ESIM是一个综合应用了BiLSTM和注意力机制的模型，在文本匹配中效果十分强大.

文本匹配说就是分析两个句子是否具有某种关系，比如有一个问题，现在给出一个答案，我们就需要分析这个答案是否匹配这个问题，所以也可以看成是一个二分类问题（输出是或者不是）。
现在主要基于SNIL和MutilNLI这两个语料库，它们包含两个句子premise和hypothesis以及一个label，label就是判断这两个句子的关系，本文主要讲解的就是如何利用ESIM分析这个问题。

1. 简介

ESIM模型主要是用来做文本推理的，给定一个前提premise pp 推导出假设hypothesis pp，其损失函数的目标是判断pp与hh是否有关联，即是否可以由pp推导出hh，因此，该模型也可以做文本匹配，只是损失函数的目标是两个序列是否是同义句。

2. 模型结构

ESIM的论文中，作者提出了两种结构，如下图所示，左边是自然语言理解模型ESIM，右边是基于语法树结构的HIM，本文也主要讲解ESIM的结构，大家如果对HIM感兴趣的话可以阅读原论文。

ESIM一共包含四部分，Input Encoding、Local Inference Modeling、 Inference Composition、Prediction

2.1 Input Encoding

这一层结构的输入内容，一般可以采用预训练好的词向量或者添加embedding层。接下来就是一个双向的LSTM，起作用主要在于对输入值做encoding，也可以理解为在做特征提取，最后把其隐藏状态的值保留下来，分别记为\\bar{a}_i和\\bar{b}_i，其中i与j分别表示的是不同的时刻，a与b表示的是上文提到的p与h。

\\begin{array}{l} \\bar{a}_{i}=\\operatorname{BiLSTM}(a, i) \\\\ \\bar{b}_{i}=\\operatorname{BiLSTM}(b, i) \\end{array}

2.2 Local Inference Modeling

接下来就是需要分析这两个句子之间的联系了，具体怎么分析，首先要注意的是，我们现在得到的句子和单词的表示向量，是基于当前语境以及单词之间的意思综合分析得到的，那么如果两个单词之间联系越大，就意味着他们之间的距离和夹角就越少，比如（1，0）和（0，1）之间的联系就没有（0.5，0.5）和（0.5，0.5）之间的联系大。在理解了这一点之后，我们再来看看ESIM是怎么分析的。

首先，两个句子的词向量之间相乘

e_{i j}=\\bar{a}_{i}^{T} \\bar{b}_{J}

正如之前所说的，如果两个词向量联系较大，那么乘积也会较大，然后进行softmax运算求出其权重：

\\begin{array}{l} \\tilde{a}_{i}=\\sum_{j=1}^{l_{b}} \\frac{\\exp \\left(e_{i j}\\right)}{\\sum_{k=1}^{l_{b}} \\exp \\left(e_{i k}\\right)} \\bar{b}_{j} \\\\\\\\ \\widetilde{b}_{j}=\\sum_{i=1}^{l_{a}} \\frac{\\exp \\left(e_{i j}\\right)}{\\sum_{k=1}^{l_{a}} \\exp \\left(e_{k j}\\right)} \\bar{a}_{i} \\end{array}

上述几条公式的目的，简单来说可以这样理解，比如premise中有一个单词"good"，首先我分析这个词和另一句话中各个词之间的联系，计算得到的结果e_{ij}eij标准化后作为权重，用另一句话中的各个词向量按照权重去表示"good"，这样一个个分析对比，得到新的序列。

以上操作就是一个attention机制，\\tilde{a}_{i} 和 \\tilde{b}_{j}的前面分式部分就是 attention weight。这里要注意，计算 \\tilde{a}_{i} 其计算方法是与 \\bar{b}_{j}做加权和。而不是 \\bar{a}_{j}，对于 \\tilde{b}_{j} 同理。

接下来就是分析差异，从而判断两个句子之间的联系是否足够大了，ESIM主要是计算新旧序列之间的差和积，并把所有信息合并起来储存在一个序列中：

\\begin{array}{l} m_{a}=[\\bar{a} ; \\tilde{a} ; \\bar{a}-\\tilde{a} ; \\bar{a} \\odot \\tilde{a}] \\\\\\\\ m_{b}=[\\bar{b} ; \\tilde{b} ; \\bar{b}-\\tilde{b} ; \\bar{b} \\odot \\tilde{b}] \\end{array}

2.3 Inference Composition

上面之所以要把所有信息储存在一个序列中，因为ESIM最后还需要综合所有信息，做一个全局的分析，这个过程依然是通过BiLSTM处理这两个序列：

\\begin{array}{l} v_{a, t}=\\operatorname{BiLSTM}\\left(F\\left(m_{a, t}\\right), t\\right) \\\\\\\\ v_{b, t}=\\operatorname{BiLSTM}\\left(F\\left(m_{b, t}\\right), t\\right) \\end{array}

值得注意的是，F是一个单层神经网络（ReLU作为**函数），主要用来减少模型的参数避免过拟合，另外，上面的t表示BiLSTM在t时刻的输出。

因为对于不同的句子，得到的向量v长度是不同的，为了方便最后一步的分析，这里把BiLSTM得到的值进行了池化处理，把结果储存在一个固定长度的向量中。值得注意的是，因为考虑到求和运算对于序列长度是敏感的，因而降低了模型的鲁棒性，所以ESIM选择同时对两个序列进行average pooling和max pooling，再把结果放进一个向量中：

\\begin{aligned} V_{a, a v e} &=\\sum_{i=1}^{l_{a}} \\frac{V_{a}, i}{l_{a}}, \\quad V_{a, \\max }=\\max _{i=1}^{l_{a}} V_{a, i} \\\\ V_{b, a v e} &=\\sum_{j=1}^{l_{b}} \\frac{V_{b}, j}{l_{b}}, \\quad V_{b, \\max }=\\max _{j=1}^{l_{b}} V_{b, j} \\\\ V &=\\left[V_{a, a v e} ; V_{a, \\max } ; V_{b, a v e} ; V_{b, \\max }\\right] \\end{aligned}

2.4 prediction

终于来到最后一步了，那就是把向量v扔到一个多层感知器分类器，在输出层使用softmax函数。

总结

ESIM首先是将输入句子进行word embedding 或者直接使用预训练好的词向量送入到BiLSTM网络中，将LSTM网络的输出进行Attention计算（将p句子中的每个单词向量用h中所有单词向量加权和表示，同理将h句子中的每个单词向量用p句子中所有单词向量加权和表示），然后计算差异性。将两个差异性矩阵再次送入到BiLSTM网络中，将LSTM网络输出做均值池化和最大池化（两者连接起来），最后将池化输出送入到多层感知机分类器中，使用softmax分类。

ESIM使用的损失函数就是来判断输入的两个句子是否语义相匹配，匹配为1，不匹配为0；因此使用交叉熵损失函数。

Ref

https://www.pianshen.com/article/66361316884/
https://zhuanlan.zhihu.com/p/47580077

本站文章资源均来源自网络，除非特别声明，否则均不代表站方观点，并仅供查阅，不作为任何参考依据！
如有侵权请及时跟我们联系，本站将及时删除！
如遇版权问题，请查看本站版权声明

THE END

ESIM NLP 机器学习机器学习平台深度学习腾讯云 TI 平台自然语言处理

二维码

海报

ESIM 短文本匹配模型解读分析

ESIM是一个综合应用了BiLSTM和注意力机制的模型，在文本匹配中效果十分强大.

如何解决Elasticsearch集群负载不均的问题？

<<上一篇

微信小程序自定义导航栏兼容适配所有机型

下一篇>>

Thomas

12月20日

尊敬的站长您好，在这留下评论，如有造成不便，还望您能谅解。那这里我先简单的介绍一下。我是Thomas，代表Bl...

评论于 DigitalOcean VPS启用IPv6以及解决IPv6地址Ping不通问题

红油麻将

12月18日

请教下我在编译的时候出现问题 /opt/bin/gcc limit.c -o limit gcc: err...

评论于威联通套件版 qBittorrent: Too many open files 或者 No file descriptors available 的解决方案

maodoudou

11月14日

感谢分享

评论于梦幻西游H5游戏超详细图文架设教程

yugan

11月4日

请问这个方法支持微信的动画表情吗？我自己添加的表情可以，但是微信自带的表情显示一个Error: Empty S...

评论于【干货分享】在TG上聊微信

健康就好

9月5日

感谢

搜索内容

ESIM 短文本匹配模型解读分析

1. 简介