嵌入向量能理解数字吗? BERT比ELMo差吗?-betway下载_必威体育下载_betway88必威

作者:Eric Wallace等

参加:魔王

对天然语言文本执文科有哪些专业行数字推理是端到端模型的长时间难题,来自艾伦人工智能研讨所、北京大学和加州大学欧文分校的研讨者测验探求「开箱即用」的神经 NLP 模型是否可以处理该问题,以及怎么处理。
  • 论文:Do NLP Models Know Numbers? Probing Numera嵌入向量能了解数字吗? BERT比ELMo差吗?-betway下载_必威体育下载_betway88必威 cy in Embeddings
  • 论文地址:https://arxiv.org/pdf/1909.07940.pdf

了解和处理数字(识数)的才能关于许多杂乱的推理使命而言十分要害。现在,大部分天然语言处理模型对文本中数字的处理smartisys办法与其他 token 相同:将数字看作分布式向量。可是这足以捕捉数字吗?

石田燿子

来自艾伦人工智能研讨所、北京大学和加州大学欧文分校的研讨者查询了当时最优问答模型在 DROP 数据集上的数字推理才能,发现该模型拿手处理需求数字推理的问题,也便是说它现已可以捕捉数字。

为了了解该才能的来历,研讨者在归纳列表最大值(synthetic list maximum嵌入向量能了解数字吗? BERT比ELMo差吗?-betway下载_必威体育下载_betway88必威 )、数字解码和加法使命上测验了 token 嵌入办法,如 BERT、GloVe。令人惊奇的是,规范嵌入办法天然具有适当高程度的识数能一线城市有哪些力。例如,GloVe 和 word2vec 可以精确编码的数字高达上千。字符级嵌入乃至愈加精确——在一切预练习办法中,ELMo 的嵌入向量能了解数字吗? BERT比ELMo差吗?-betway下载_必威体育下载_betway88必威 数字捕捉才能最强壮,而运用子词单元的 BERT 模型精确率不如 ELMo。

全能网卡驱动

图 1:研讨者练习了一个 probing model,根据词嵌入对 [-500,嵌入向量能了解数字吗? BERT比ELMo差吗?-betway下载_必威体育下载_betway88必威 500] 区间内随机 80% 的整数进行数字解码,如「71」→ 71.陈仓气候0。

研讨者制作了模型对 [-2000, 2000] 区间中一切数字的猜测成果。该模型精确解码了练习区间中的数字(蓝色),即预练习嵌入(如 GloVe 和 BERT)可以捕捉数字。可是,该 probing model 无法处理较大的数字(赤色)。Char-CNN (e) and Char-LSTM (f) 均运用 probing model 联合练习而成。

NLP 模型「识数」的重要性

对天然语言履行数字推理的第一步是识数:了解和处理数值或文本方式数字。例如,你有必要了解「23」比「twentytwo」数值大。在一个数值呈现时(或许是隐式呈现),推理算法可以处理文本,如提取射门得分列表并核算炽其最大值(图 2 的第一个问题)。对仅具有问答监督色屌丝信号的阶段履行数字推理是端到端模型的长时间难题,而该研讨测验探求「开箱即用」的神经 NLP 模型是否现已学习以及怎么大败农学习处理该难题。

图 2:三个需求数字推理的 DROP 问题,当时最优的 NAQANet 模型精确答复了每一个问题。(每个问题的或许答案已用下划线标出,模型猜测成果均以粗体显现。)

研讨者首要在 DROP 数据集上剖析了当时最优的 NAQANet 模型,在数字推理问题子集进步行了模型测验。令人惊奇的是,该模型展现出优异的数字推理才能。在阅览和邓紫霄布景了解天然语言时,该模型成功地核算出得分列表最大值/最小值,提取第一流实体(superlative entity,argmax 推理),以及比照数值。

例如,虽然 NAQANet 在整个验证集上仅取得了 49 F1 分数,但它在数值比照问题上取得了 89 F1 的分数。研讨者还经过打乱验证阶段履行模型测验,并发现了一种失利方式:模型难以揣度练习区间外的数字。

研讨者对该模型学习数字的才能十分猎奇,即该模型怎么根据嵌入了解数值?该模型运用规范嵌入(GloVe a 和 Char-CNN),并未接纳数字巨细/排序方面的直接监督信号。为了了解它怎么把握识数才能,研讨嵌入向量能了解数字吗? BERT比ELMo差吗?-betway下载_必威体育下载_betway88必威 者在归纳列表最大值、数字解码和加法使命中探求了 token 嵌入办法(如 BERT 和 GloVe)。

研讨发现,一切广泛应用的预练习嵌入办法(如 ELMo、BERT 和 GloVe)都可佛说错错错以捕捉数字:数字巨细可呈现在嵌入中,即使是上千的数字。在一切嵌入中,字符级办法要比词级、子词级办法具有更强壮的识数才能,如 ELMo 胜过 BERT。在归纳使命上直接学得的字符级模型全体是最强的。最终,研讨者查询了 NAQANet 难以处理外推的原因,是模型问题仍是嵌入问题?研讨者重复施行探求(probing)使命,并对模型外推动行了测验,发现神经网络在猜测练习区间外数字时存在困难。

嵌入的识数身手有多大?

研讨者运用归纳数值使命探冰点脱毛索 token 嵌入的识数才能,共考虑了 3 个归纳使命(见图 3)。

图 3:探求设置。研讨者将数字输入到预练习嵌入模型中(如 BERT、GloVe),练习 probing model 来处理数值使命,如找出列表最大值、解码数字或加法。

假如 probing model 可泛化至留出数字(held-out number),则预练习嵌入必定包括数字信息。研讨者供给了数字的几种方式:单词、数值(9)、浮点(9.1)或负数(-9)。

  • 列表最大值:给出包括 5 个数字的嵌入列表,该使命便是猜测其间最大值的索引。
  • 解码:探求是否辨认数字巨细。
  • 加法:该使命需求数值运算:给出两个数字的嵌入,该使命即猜测二者之和。

研讨者评价了多种 token 嵌入办法:

  • 词向量:运用 300 维 GloVe 和 word2ve 向量。
  • 语境嵌入:运用 ELMo 和 BERT 嵌入。
  • N中统AQANet 嵌入:在 DROP 数据集上练习 NAQANet 模型,从中提取 GloVe 嵌入和 Char-CNN。
  • 预练习嵌入:运用字符嵌入向量能了解数字吗? BERT比ELMo差吗?-betway下载_必威体育下载_betway88必威 级 CNN (Char-CNN) 和字符级 LSTM (Char-LSTM)。
  • 把数值作为嵌入:将数字的嵌入直接映射至数值。

成果:嵌入的识数才能

研讨者发现一切预练习嵌入均包括关于数量和排序的细粒度信息。研讨者首要探参龄集究了整数(见表 4):

求职简历模板

表 4:运用整数(如 18)插值。一切预练习嵌入办法(如 GloVe 和 ELMo)均可以捕捉数字。probing model 在随机打乱的 80% 整数区间上练习,在剩下 20% 的数字上测验。

最终,研讨者探求了词方式游览的含义数字、浮点数和负数的嵌入,发现这些输入的趋势与整数相同:预练习模型展现出天然的数学了解才能,学到嵌入向量能了解数字吗? BERT比ELMo差吗?-betway下载_必威体育下载_betway88必威 强壮的嵌入(见表 5、6 和 10)。

表 5:列表最大值使命中运用浮点数(如 18.1)的插值。预练习嵌入辨认浮点数。probing model 在随机打乱的 80% 整数区间上练习,在剩下 20% 的数字进步行测验。

表 6:列表最大值使命中运用负数(如-雇佣兵18)进行插值。预练习嵌入辨认负数。

probing model 难以履行外推

之前,归纳试验通常在与练习数据同一规模内的留出数值进步行评价。但现在,研讨者在特定整数规模上练习模型,在比最大练习数字更大和比最小练习数字更小的数字规模内进行测验。

列表最大值使命的精确率挨近插值halo环境下的模型。可是,它们依然存在距离。表 7 展现了在整数规模 [0,150] 上练习、在 [151,160]、[151,180] 和 [151,200] 规模内测验的模型的精确率,一切办法均作用欠好,尤其是 token 向量。

表 7:在列表最大值使命上的外推成果。probing model 在整数规模 [0,150] 上练习,在 [151,160]、[151,180] 和 [151,200] 整数规模上评价。

本文为机器之心编译,转载请联络本大众号取得授权。

拼多多商家后台

评论(0)