0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

识别文本蕴涵任务的小样本学习

Tensorflowers 来源:苏黎世语言团队 作者:Julian Eisenschlos, 2021-03-10 18:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

识别文本蕴涵的任务,也称自然语言推理,是指确定一段文本(前提)是否可被另一段文本(假设)所暗示或否认(或两者都不能)。虽然这一问题通常被视为机器学习 (ML) 系统推理能力的重要测试,并且在纯文本输入方面已经有过深入研究,但对于此类模型在结构化数据,如网站、表格、数据库等方面的应用,相关投入却要少得多。然而,每当需要将表格的内容准确地归纳并呈现给用户时,识别文本蕴涵就显得尤为重要,这对于高保真的问答系统和虚拟助手来说更是必不可少。

在发表于 Findings of EMNLP 2020 的“通过中间预训练以了解表格(Understanding tables with intermediate pre-training)”中,我们介绍了为表格解析定制的首批预训练任务,可使模型从更少的数据中更好、更快地学习。

我们在较早的 TAPAS模型基础上进行了改进,该模型是 BERT双向 Transformer 模型的扩展,采用特殊嵌入向量在表格中寻找答案。新的预训练目标应用于 TAPAS 后即在涉及表格的多个数据集上达成突破性进展。

例如,在 TabFact 上,它将模型和人类之间的表现差距缩小了约 50%。我们还系统地对选择相关输入的方法进行了基准测试以获得更高效率,实现了速度和内存的 4 倍提升,同时保留了 92% 的结果。适用于不同任务和规模的所有模型均已发布在 GitHub repo 中,您可以在 Colab Notebook 中试用它们。

文本蕴涵

当应用于表格数据时,相比于纯文本,文本蕴涵任务更具挑战性。以一份 Wikipedia 的表格为例,其中有一些句子来自其关联的表格内容。评估表格内容是包含还是与句子相矛盾,这可能需要查看多个列和行,还可能需要执行简单的数字计算,例如求平均值、求和、差分等。

0bdc95fe-7ee5-11eb-8b86-12bb97331649.png

表格,以及来自 TabFact 的一些语句:表格内容可用于支持或反驳语句

按照 TAPAS 使用的方法,我们将语句和表格的内容一起编码,通过 Transformer 模型传递,得到一个单一数字,表示语句被表格蕴涵或反驳的概率。

TAPAS 模型架构使用 BERT 模型对语句和展平的表格进行编码,逐行读取。特殊嵌入向量用于编码表格结构。第一个令牌的向量输出用于预测蕴涵的概率

由于训练样本中唯一的信息是一个二元值(即“正确”或“不正确”),因此训练模型来理解语句是否被蕴涵是具有挑战性的。这也凸显了在深度学习中泛化的困难,特别是当提供的训练信号较为稀缺的时候。发现孤立的蕴涵或反驳样本时,模型可以轻松地在数据中提取虚假模式进行预测,例如在“Greg Norman and Billy Mayfair tie in rank”中提取“tie”一词,而不是比较排名,因此无法超越原始训练数据成功应用模型。

预训练任务

预训练任务可通过提供大量现成的未标记数据来“预热”模型。然而,预训练通常主要包括纯文本而非表格数据。事实上,TAPAS 最初的预训练使用的是简单的掩码语言建模目标,而这一目标并非为表格数据应用而设计。为了提高模型在表格数据上的性能,我们引入了两个新的预训练二元分类任务,称其为反事实和合成任务,可以用作预训练的第二阶段(通常称为中间预训练)。

在反事实任务中,我们从 Wikipedia 提取句子,该句子提到同时出现在给定表格中的实体(人、地点或事物)。然后,在 50% 的时间里,我们将实体替换为另一个替代实体来修改语句。为了确保语句的真实性,我们在表格中同一列的实体内选择一个替换。模型以识别语句是否被修改为目标接受训练。这项预训练任务包括数百万个这样的样本,虽然它们的推理并不复杂,但通常还是会听起来很自然。

对于合成任务,我们采取类似于语义解析的方法,使用一组简单的语法规则生成语句,要求模型理解基本的数学运算,比如求和与求平均值(例如“the sum of earnings”),或者理解如何使用条件过滤表格中的元素(例如“the country is Australia”)。虽然这些语句是人为的,但它们仍然有助于提高模型的数字和逻辑推理能力。

两个新的预训练任务的示例实例。反事实示例将输入表格随附的句子中提及的实体换为一个可信的替代实体。合成语句使用语法规则创建新句子,这些句子需要以复杂的方式组合表格的信息

结果

我们通过与基线 TAPAS 模型和先前两个文本蕴涵领域的成功模型 LogicalFactChecker (LFC) 和 Structure Aware Transformer (SAT) 进行比较,评估了反事实和合成预训练目标在 TabFact 数据集上的成功。基线 TAPAS 模型相对于 LFC 和 SAT 表现出更好的性能,但预训练的模型 (TAPAS+CS) 的性能明显更好,达到新的技术水平。

我们还将 TAPAS+CS 应用于 SQA 数据集上的问答任务,这要求模型在对话框环境下从表格内容中找到答案。加入 CS 目标后,最佳性能相比于之前提高了 4 个百分点以上,这表明这种方法还可以将性能泛化到文本蕴涵之外。

TabFact(左)和 SQA(右)的结果。使用合成和反事实数据集,我们在这两项任务中都以较大优势取得了新的最先进结果

数据和计算效率

反事实和合成预训练任务的另一个方面是,由于模型已经针对二元分类进行了调整,因此可以应用而无需对 TabFact 进行任何微调。我们探索了只对数据的一个子集(甚至没有数据)进行训练时,每个模型会发生什么。不查看单个样本时,TAPAS+CS 模型与强基线 Table-Bert 不相上下,只包含 10% 的数据时,结果与先前的最先进水平相当。

TabFact 上的开发准确率相对于所用训练数据的分数

试图使用此类大型模型对表格进行操作时,一个普遍的担忧是,高计算要求会使其难以解析非常大的表格。为了解决这个问题,我们研究了是否可以启发式地选择要通过模型的输入子集,以优化其计算效率。

我们对各种过滤输入的方法进行了系统性研究,发现选择整列和主题语句之间的单词重叠的简单方法可获得最佳结果。通过动态选择要包括的输入令牌,我们可以使用更少的资源或以相同的成本处理更大的输入。这样做的挑战是如何保留重要信息和准确率。

例如,上述模型全部使用 512 个令牌的序列,接近于 Transformer 模型的正常极限(尽管最近的效率方法,如 Reformer或 Performer被证明可以有效地缩放输入大小)。我们在这里提出的列选择方法可以让训练速度更快,同时还能在 TabFact 上实现高准确率。对于 256 个输入令牌,我们的准确率下降非常小,但现在可以对模型进行预训练、微调,并使预测速度提高 2 倍。在 128 个令牌的情况下,模型仍然优于之前的最先进模型,速度提升更为显著,获得 4 倍全面提升。

通过我们的列选择方法缩短输入,使用不同序列长度在 TabFact 上得出的准确率

使用我们提出的列选择方法和新颖的预训练任务,可以创建出以更少数据和更少计算能力得出更好结果的表格解析模型。

我们已经在 GitHub repo 中提供了新的模型和预训练技术,您可以在 Colab 中亲自尝试。为了使这种方法更易于使用,我们还共享了不同大小的模型,最小到“Tiny”。我们希望这些结果有助于在更广泛的研究社区中推动表格推理的发展。

这项工作由苏黎世语言团队的 Julian Martin Eisenschlos、Syrine Krichene 和 Thomas Müller 完成。

原文标题:用于表格数据推理的小样本学习

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95015
  • 机器学习
    +关注

    关注

    67

    文章

    8564

    浏览量

    137215
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    14026

原文标题:用于表格数据推理的小样本学习

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    金属小样品电阻率的四探针高精度测量方法

    用于金属小样品时尺寸效应影响显著,现有修正模型缺乏系统验证。本文以纯铁样品为研究对象,借助Xfilm埃利的四探针技术系统,探究输入电流、测量模式及样品尺寸对测量结果的
    的头像 发表于 03-03 18:04 228次阅读
    金属<b class='flag-5'>小样</b>品电阻率的四探针高精度测量方法

    Linux Shell文本处理神器合集:15个工具+实战例子,效率直接翻倍

    在 Linux 系统中,文本是数据交互的 “通用语言”—— 日志文件、配置文件、数据报表、程序输出几乎都以文本形式存在。手动编辑文本不仅繁琐,还容易出错,而掌握 Shell 文本处理工
    的头像 发表于 02-03 15:42 2712次阅读
    Linux Shell<b class='flag-5'>文本</b>处理神器合集:15个工具+实战例子,效率直接翻倍

    详解DBC的Signal与JSON文本结合

    为了优化CAN数据发送与接收的操作流程,更改以前手动输入状态对应数据的模式,采用下拉列表选择内容,但这需要用到超出DBC原有承载能力的信息。因此,将JSON与其结合,采用JSON格式文本写入Signal的Comment属性,将Comment属性的字符串通过JSON文本拓展
    的头像 发表于 01-06 10:57 421次阅读
    详解DBC的Signal与JSON<b class='flag-5'>文本</b>结合

    经世智能复合机器人,助力实验室检测样本上下料,提升实验效率

    在生命科学、医药研发、环境监测等前沿领域的实验室中,样本检测的准确性与时效性直接关系到实验成果的产出效率。然而,传统人工进行检测样本上下料时,常面临“样本种类繁杂易混淆、微量样本操作误
    的头像 发表于 11-18 13:43 2002次阅读
    经世智能复合机器人,助力实验室检测<b class='flag-5'>样本</b>上下料,提升实验效率

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的语音芯片不同,语音识别芯片不仅能存储和播放声音,更能真正实现对人声的识别与理解,从而完成指令响应、交互对话等复杂
    的头像 发表于 11-14 17:11 1537次阅读

    ElfBoard技术贴|如何在【RK3588】ELF 2开发板上完成PPOC本地化部署

    PPOCR是由百度开发的一款开源深度学习OCR(光学字符识别)模型,专注于文本检测、识别与理解任务,具备多场景、多语言的字符
    的头像 发表于 11-14 10:54 7438次阅读
    ElfBoard技术贴|如何在【RK3588】ELF 2开发板上完成PPOC本地化部署

    FreeRTOS任务调度及优先级问题

    大家好,最近本人在学习FreeRTOS ,之前有过一些裸机开发的经验,目前知道了FreeRTOS的任务是基于时间片轮转来调度,也就是知道了任务会基于各个时间片来运行。 于是联想了如果有一些外设芯片
    发表于 11-06 02:18

    打破“黑匣子”:RFID技术实现危险生物样本全程可视化与无感溯源

    RFID技术无线识别、批量读取、数据可追溯等特性,为危险生物样本管理提供了智能化解决方案。 当前危险生物样本管理的三大痛点有以下几点: 1、流转过程黑匣子 高致病性样本在传递窗、离心机
    的头像 发表于 10-31 15:26 395次阅读

    模板驱动 无需训练数据 SmartDP解决小样本AI算法模型开发难题

    。但是这个平台不适用于小样本AI模型开发,特别是一些特殊行业,数据本来就不多,但又有着需求,因此陷于两难。面临这种市场困境,慧视光电推出了一个全新的AI平台Sma
    的头像 发表于 09-09 17:57 1551次阅读
    模板驱动  无需训练数据  SmartDP解决<b class='flag-5'>小样本</b>AI算法模型开发难题

    Task任务:LuatOS实现“任务级并发”的核心引擎

    Task任务通过其强大的并发处理能力,使LuatOS能够在单线程环境中模拟多线程执行,通过协程的挂起与恢复机制,实现任务级的并行操作,显著提升系统效能。 sys核心库是LuatOS运行框架库,也是
    的头像 发表于 08-28 13:49 639次阅读
    Task<b class='flag-5'>任务</b>:LuatOS实现“<b class='flag-5'>任务</b>级并发”的核心引擎

    飞书开源“RTV”富文本组件 重塑鸿蒙应用富文本渲染体验

    更高效的富文本解决方案。 富文本作为内容展示和信息交互的重要形式,在内容创作、办公协作、教育学习、企业应用等多种复杂业务场景中扮演着重要角色。随着鸿蒙生态应用类型的不断丰富,富文本渲染
    的头像 发表于 07-11 15:20 778次阅读
    飞书开源“RTV”富<b class='flag-5'>文本</b>组件 重塑鸿蒙应用富<b class='flag-5'>文本</b>渲染体验

    基于LockAI视觉识别模块:手写数字识别

    1.1 手写数字识别简介 手写数字识别是一种利用计算机视觉和机器学习技术自动识别手写数字的过程。它通过图像预处理、特征提取和模型训练来实现高效准确的数字
    发表于 06-30 16:45

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1596次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    深度学习赋能:正面吊车载箱号识别系统的核心技术

    在现代物流与智慧港口建设中,集装箱的高效精准识别是提升作业效率的关键环节。基于OCR+AI深度学习技术的正面吊车载箱号识别系统,凭借99%以上的识别率和毫秒级响应速度,正成为港口自动化
    的头像 发表于 05-07 10:10 670次阅读

    海思SD3403边缘计算AI数据训练概述

    AI数据训练:基于用户特定应用场景,用户采集照片或视频,通过AI数据训练工程师**(用户公司****员工)** ,进行特征标定后,将标定好的训练样本,通过AI训练服务器,进行AI学习训练获得训练
    发表于 04-28 11:11