0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

识别文本蕴涵任务的小样本学习

Tensorflowers 来源:苏黎世语言团队 作者:Julian Eisenschlos, 2021-03-10 18:06 次阅读

识别文本蕴涵的任务,也称自然语言推理,是指确定一段文本(前提)是否可被另一段文本(假设)所暗示或否认(或两者都不能)。虽然这一问题通常被视为机器学习 (ML) 系统推理能力的重要测试,并且在纯文本输入方面已经有过深入研究,但对于此类模型在结构化数据,如网站、表格、数据库等方面的应用,相关投入却要少得多。然而,每当需要将表格的内容准确地归纳并呈现给用户时,识别文本蕴涵就显得尤为重要,这对于高保真的问答系统和虚拟助手来说更是必不可少。

在发表于 Findings of EMNLP 2020 的“通过中间预训练以了解表格(Understanding tables with intermediate pre-training)”中,我们介绍了为表格解析定制的首批预训练任务,可使模型从更少的数据中更好、更快地学习。

我们在较早的 TAPAS模型基础上进行了改进,该模型是 BERT双向 Transformer 模型的扩展,采用特殊嵌入向量在表格中寻找答案。新的预训练目标应用于 TAPAS 后即在涉及表格的多个数据集上达成突破性进展。

例如,在 TabFact 上,它将模型和人类之间的表现差距缩小了约 50%。我们还系统地对选择相关输入的方法进行了基准测试以获得更高效率,实现了速度和内存的 4 倍提升,同时保留了 92% 的结果。适用于不同任务和规模的所有模型均已发布在 GitHub repo 中,您可以在 Colab Notebook 中试用它们。

文本蕴涵

当应用于表格数据时,相比于纯文本,文本蕴涵任务更具挑战性。以一份 Wikipedia 的表格为例,其中有一些句子来自其关联的表格内容。评估表格内容是包含还是与句子相矛盾,这可能需要查看多个列和行,还可能需要执行简单的数字计算,例如求平均值、求和、差分等。

0bdc95fe-7ee5-11eb-8b86-12bb97331649.png

表格,以及来自 TabFact 的一些语句:表格内容可用于支持或反驳语句

按照 TAPAS 使用的方法,我们将语句和表格的内容一起编码,通过 Transformer 模型传递,得到一个单一数字,表示语句被表格蕴涵或反驳的概率。

TAPAS 模型架构使用 BERT 模型对语句和展平的表格进行编码,逐行读取。特殊嵌入向量用于编码表格结构。第一个令牌的向量输出用于预测蕴涵的概率

由于训练样本中唯一的信息是一个二元值(即“正确”或“不正确”),因此训练模型来理解语句是否被蕴涵是具有挑战性的。这也凸显了在深度学习中泛化的困难,特别是当提供的训练信号较为稀缺的时候。发现孤立的蕴涵或反驳样本时,模型可以轻松地在数据中提取虚假模式进行预测,例如在“Greg Norman and Billy Mayfair tie in rank”中提取“tie”一词,而不是比较排名,因此无法超越原始训练数据成功应用模型。

预训练任务

预训练任务可通过提供大量现成的未标记数据来“预热”模型。然而,预训练通常主要包括纯文本而非表格数据。事实上,TAPAS 最初的预训练使用的是简单的掩码语言建模目标,而这一目标并非为表格数据应用而设计。为了提高模型在表格数据上的性能,我们引入了两个新的预训练二元分类任务,称其为反事实和合成任务,可以用作预训练的第二阶段(通常称为中间预训练)。

在反事实任务中,我们从 Wikipedia 提取句子,该句子提到同时出现在给定表格中的实体(人、地点或事物)。然后,在 50% 的时间里,我们将实体替换为另一个替代实体来修改语句。为了确保语句的真实性,我们在表格中同一列的实体内选择一个替换。模型以识别语句是否被修改为目标接受训练。这项预训练任务包括数百万个这样的样本,虽然它们的推理并不复杂,但通常还是会听起来很自然。

对于合成任务,我们采取类似于语义解析的方法,使用一组简单的语法规则生成语句,要求模型理解基本的数学运算,比如求和与求平均值(例如“the sum of earnings”),或者理解如何使用条件过滤表格中的元素(例如“the country is Australia”)。虽然这些语句是人为的,但它们仍然有助于提高模型的数字和逻辑推理能力。

两个新的预训练任务的示例实例。反事实示例将输入表格随附的句子中提及的实体换为一个可信的替代实体。合成语句使用语法规则创建新句子,这些句子需要以复杂的方式组合表格的信息

结果

我们通过与基线 TAPAS 模型和先前两个文本蕴涵领域的成功模型 LogicalFactChecker (LFC) 和 Structure Aware Transformer (SAT) 进行比较,评估了反事实和合成预训练目标在 TabFact 数据集上的成功。基线 TAPAS 模型相对于 LFC 和 SAT 表现出更好的性能,但预训练的模型 (TAPAS+CS) 的性能明显更好,达到新的技术水平。

我们还将 TAPAS+CS 应用于 SQA 数据集上的问答任务,这要求模型在对话框环境下从表格内容中找到答案。加入 CS 目标后,最佳性能相比于之前提高了 4 个百分点以上,这表明这种方法还可以将性能泛化到文本蕴涵之外。

TabFact(左)和 SQA(右)的结果。使用合成和反事实数据集,我们在这两项任务中都以较大优势取得了新的最先进结果

数据和计算效率

反事实和合成预训练任务的另一个方面是,由于模型已经针对二元分类进行了调整,因此可以应用而无需对 TabFact 进行任何微调。我们探索了只对数据的一个子集(甚至没有数据)进行训练时,每个模型会发生什么。不查看单个样本时,TAPAS+CS 模型与强基线 Table-Bert 不相上下,只包含 10% 的数据时,结果与先前的最先进水平相当。

TabFact 上的开发准确率相对于所用训练数据的分数

试图使用此类大型模型对表格进行操作时,一个普遍的担忧是,高计算要求会使其难以解析非常大的表格。为了解决这个问题,我们研究了是否可以启发式地选择要通过模型的输入子集,以优化其计算效率。

我们对各种过滤输入的方法进行了系统性研究,发现选择整列和主题语句之间的单词重叠的简单方法可获得最佳结果。通过动态选择要包括的输入令牌,我们可以使用更少的资源或以相同的成本处理更大的输入。这样做的挑战是如何保留重要信息和准确率。

例如,上述模型全部使用 512 个令牌的序列,接近于 Transformer 模型的正常极限(尽管最近的效率方法,如 Reformer或 Performer被证明可以有效地缩放输入大小)。我们在这里提出的列选择方法可以让训练速度更快,同时还能在 TabFact 上实现高准确率。对于 256 个输入令牌,我们的准确率下降非常小,但现在可以对模型进行预训练、微调,并使预测速度提高 2 倍。在 128 个令牌的情况下,模型仍然优于之前的最先进模型,速度提升更为显著,获得 4 倍全面提升。

通过我们的列选择方法缩短输入,使用不同序列长度在 TabFact 上得出的准确率

使用我们提出的列选择方法和新颖的预训练任务,可以创建出以更少数据和更少计算能力得出更好结果的表格解析模型。

我们已经在 GitHub repo 中提供了新的模型和预训练技术,您可以在 Colab 中亲自尝试。为了使这种方法更易于使用,我们还共享了不同大小的模型,最小到“Tiny”。我们希望这些结果有助于在更广泛的研究社区中推动表格推理的发展。

这项工作由苏黎世语言团队的 Julian Martin Eisenschlos、Syrine Krichene 和 Thomas Müller 完成。

原文标题:用于表格数据推理的小样本学习

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6504

    浏览量

    87448
  • 机器学习
    +关注

    关注

    66

    文章

    8062

    浏览量

    130442
  • 自然语言
    +关注

    关注

    1

    文章

    265

    浏览量

    13176

原文标题:用于表格数据推理的小样本学习

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    异构信号驱动下小样本跨域轴承故障诊断的GMAML算法

    论文提出了一种通用的模型不可知元学习(GMAML)方法,用于在异质信号驱动的不同工况下,进行轴承的少样本故障诊断。
    的头像 发表于 12-06 15:07 541次阅读
    异构信号驱动下<b class='flag-5'>小样本</b>跨域轴承故障诊断的GMAML算法

    小模型也能进行上下文学习!字节&amp;华东师大联合提出自进化文本识别

    场景文本识别(Scene Text Recognition)的目标是将图像中的文本内容提取出来。实际应用场景中,场景文本识别面临着多种挑战:
    的头像 发表于 11-27 16:28 438次阅读
    小模型也能进行上下文<b class='flag-5'>学习</b>!字节&amp;华东师大联合提出自进化<b class='flag-5'>文本</b><b class='flag-5'>识别</b>器

    深度学习在语音识别中的应用及挑战

    一、引言 随着深度学习技术的快速发展,其在语音识别领域的应用也日益广泛。深度学习技术可以有效地提高语音识别的精度和效率,并且被广泛应用于各种应用场景。本文将探讨深度
    的头像 发表于 10-10 18:14 463次阅读

    【KV260视觉入门套件试用体验】七、VITis AI字符和文本检测(OCR&amp;Textmountain)

    技术,包括传统文档图像识别与场景文字识别技术。 在计算机视觉领域,文本检测是其重要的一个子任务文本检测分为两个主要步骤:
    发表于 09-26 16:31

    什么是零样本学习?为什么要搞零样本学习

    样本分类的技术目前正处于高速发展时期, 所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。 对此, 本文将其称为广义零样本分类。 相应
    发表于 09-22 11:10 844次阅读
    什么是零<b class='flag-5'>样本</b><b class='flag-5'>学习</b>?为什么要搞零<b class='flag-5'>样本</b><b class='flag-5'>学习</b>?

    上交提出RCLSTR:面向场景文本识别的关系对比学习

    基于MoCo[3]的框架,该文提出了用于文本识别的关系对比学习框架(RCLSTR)。如下图所示:1、在Online分支(上半部分)中引入了一个新的重排阶段,从原始分支中产生水平重排的图像,称为关系正则化模块(Relational
    的头像 发表于 09-14 17:21 355次阅读
    上交提出RCLSTR:面向场景<b class='flag-5'>文本</b><b class='flag-5'>识别</b>的关系对比<b class='flag-5'>学习</b>

    NUC240_FreeRTOS修改BSP样本代码

    修改 BSP 样本代码, 以在 FreeRTOS 下工作。 FreeRTOS 是一个实时操作系统。 样本代码设定了执行进程样本代码的两项任务 。 您可以在下列时间下载
    发表于 08-31 10:05

    NANO100_FreeRTOS修改BSP样本代码

    NANO100_FreeRTOS 修改 BSP 样本代码, 以在 FreeRTOS 下工作。 FreeRTOS 是一个实时操作系统。 样本代码设定了执行进程样本代码的两项任务
    发表于 08-31 06:30

    如何使用机器学习在M480上执行关键字识别

    应用程序: 本样本代码使用机器学习来在 M480 上执行关键字识别。 BSP 版本: M480系列 BSP CMSIS V3.04.000 硬件: NuMaker-PFM-M487 VER 3.0
    发表于 08-29 06:46

    使用机器学习在M480上执行关键字识别

    应用程序: 本样本代码使用机器学习来在 M480 上执行关键字识别。 BSP 版本: M480系列 BSP CMSIS V3.04.000 硬件: NuMaker-PFM-M487 VER 3.0
    发表于 08-22 08:02

    如何在缺陷样本少的情况下实现高精度的检测

    样本少的情况下实现高精度的检测呢?目前有两种方法,一种是小样本学习,另一种是用GAN。本文将介绍一种GAN用于无缺陷样本产品表面缺陷检测。   深度
    的头像 发表于 06-26 09:54 716次阅读
    如何在缺陷<b class='flag-5'>样本</b>少的情况下实现高精度的检测

    基于GAN的零缺陷样本产品表面缺陷检测

    少的情况下实现高精度的检测呢?目前有两种方法,一种是小样本学习,另一种是用GAN。本文将介绍一种GAN用于无缺陷样本产品表面缺陷检测。
    的头像 发表于 06-26 09:49 553次阅读
    基于GAN的零缺陷<b class='flag-5'>样本</b>产品表面缺陷检测

    基于预训练模型和语言增强的零样本视觉学习

    Stable Diffusion 多模态预训练模型 考虑多标签图像分类任务——每幅图像大于一个类别 如果已有图文对齐模型——能否用文本特征代替图像特征 训练的时候使用文本组成的句子 对齐总会有 gap,选 loss 的时候使用
    的头像 发表于 06-15 16:36 289次阅读
    基于预训练模型和语言增强的零<b class='flag-5'>样本</b>视觉<b class='flag-5'>学习</b>

    小样本学习领域的未来发展方向

    什么是小样本学习?它与弱监督学习等问题有何差异?其核心问题是什么?来自港科大和第四范式的这篇综述论文提供了解答。 数据是机器学习领域的重要资源,在数据缺少的情况下如何训练模型呢?
    的头像 发表于 06-14 09:59 571次阅读
    <b class='flag-5'>小样本</b><b class='flag-5'>学习</b>领域的未来发展方向

    一个通用的自适应prompt方法,突破了零样本学习的瓶颈

    为了解决这个问题,这篇研究提出了一种Universal Self-adaptive Prompting (USP)方法,对LLMs的零样本学习进行了优化,同时也适用于少样本学习
    的头像 发表于 06-01 14:48 466次阅读
    一个通用的自适应prompt方法,突破了零<b class='flag-5'>样本</b><b class='flag-5'>学习</b>的瓶颈