NLP中的自监督表示学习-电子发烧友网

导读

其实在自监督学习的概念提出之前，NLP中就已经运用到了这一思想。

虽然计算机视觉在自监督学习方面取得了惊人的进展，但在很长一段时间内，自监督学习一直是NLP研究领域的一等公民。语言模型早在90年代就已经存在，甚至在“自我监督学习”这个术语出现之前。2013年的Word2Vec论文推广了这一模式，在许多问题上应用这些自监督的方法，这个领域得到了迅速的发展。

这些自监督的方法的核心是一个叫做 “pretext task” 的框架，它允许我们使用数据本身来生成标签，并使用监督的方法来解决非监督的问题。这些也被称为“auxiliary task”或“pre-training task“。通过执行此任务获得的表示可以用作我们的下游监督任务的起点。

在这篇文章中，我将概述研究人员在没有明确的数据标注的情况下从文本语料库中学习表示的各种pretext tasks。本文的重点是任务的制定，而不是实现它们的架构。

自监督的方案

1. 预测中心词

在这个公式中，我们取一定窗口大小的一小块文本，我们的目标是根据周围的单词预测中心单词。

例如，在下面的图中，我们有一个大小为1的窗口，因此我们在中间单词的两边各有一个单词。使用这些相邻的词，我们需要预测中心词。

这个方案已经在著名的Word2Vec论文的“Continuous Bag of Words”方法中使用过。

2. 预测邻居词

在这个公式中，我们取一定窗口大小的文本张成的空间，我们的目标是在给定中心词的情况下预测周围的词。

这个方案已经在著名的Word2Vec论文的“skip-gram”方法中实现。

3. 相邻句子的预测

在这个公式中，我们取三个连续的句子，设计一个任务，其中给定中心句，我们需要生成前一个句子和下一个句子。它类似于之前的skip-gram方法，但适用于句子而不是单词。

这个方案已经在Skip-Thought Vectors的论文中使用过。

4. 自回归语言建模

在这个公式中，我们取大量未标注的文本，并设置一个任务，根据前面的单词预测下一个单词。因为我们已经知道下一个来自语料库的单词是什么，所以我们不需要手工标注的标签。

例如，我们可以通过预测给定前一个单词的下一个单词来将任务设置为从左到右的语言建模。

我们也可以用这个方案来通给定未来的单词预测之前的单词，方向是从右到左。

这个方案已经使用在许多论文中，从n-gram模型到神经网络模型比如神经概率语言模型 (GPT) 。

5. 掩码语言建模

在这个方案中，文本中的单词是随机掩码的，任务是预测它们。与自回归公式相比，我们在预测掩码单词时可以同时使用前一个词和下一个词的上下文。

这个方案已经在BERT、RoBERTa和ALBERT的论文中使用过。与自回归相比，在这个任务中，我们只预测了一小部分掩码词，因此从每句话中学到的东西更少。

6. 下一个句子预测

在这个方案中，我们取文件中出现的两个连续的句子，以及同一文件或不同文件中随机出现的另一个句子。

然后，任务是区分两个句子是否是连贯的。

在BERT的论文中，它被用于提高下游任务的性能，这些任务需要理解句子之间的关系，比如自然语言推理(NLI)和问题回答。然而，后来的研究对其有效性提出了质疑。

7. 句子顺序的预测

在这个方案中，我们从文档中提取成对的连续句子。然后互换这两个句子的位置，创建出另外一对句子。

我们的目标是对一对句子进行分类，看它们的顺序是否正确。

在ALBERT的论文中，它被用来取代“下一个句子预测”任务。

8. 句子重排

在这个方案中，我们从语料库中取出一个连续的文本，并破开的句子。然后，对句子的位置进行随机打乱，任务是恢复句子的原始顺序。

它已经在BART的论文中被用作预训练的任务之一。

9. 文档旋转

在这个方案中，文档中的一个随机token被选择为旋转点。然后，对文档进行旋转，使得这个token成为开始词。任务是从这个旋转的版本中恢复原来的句子。

它已经在BART的论文中被用作预训练的任务之一。直觉上，这将训练模型开始识别文档。

10. 表情符号预测

这个方案被用在了DeepMoji的论文中，并利用了我们使用表情符号来表达我们所发推文的情感这一想法。如下所示，我们可以使用推特上的表情符号作为标签，并制定一个监督任务，在给出文本时预测表情符号。

DeepMoji的作者们使用这个概念对一个模型进行了12亿条推文的预训练，然后在情绪分析、仇恨语言检测和侮辱检测等与情绪相关的下游任务上对其进行微调。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98720
nlp

nlp

+关注

关注
1

文章
463

浏览量
21818

原文标题：NLP中的自监督表示学习，全是动图，很过瘾的

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

OpenAI推出Sora：AI领域的革命性突破

大模型的核心技术是自然语言处理（NLP）和深度学习。具体而言，它基于Transformer架构，使用了大规模无监督学习方法，例如自回归语言建模和掩码语言建模，来训练一个庞大的神经网络模型。

发表于 02-21 16:36 •771次阅读

基于transformer和自监督学习的路面异常检测方法分享

铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法，有助于定位异常区域。

发表于 12-06 14:57 •796次阅读

基于transformer和自<b class='flag-5'>监督学习</b>的路面异常检测方法分享

无监督域自适应场景：基于检索增强的情境学习实现知识迁移

本文对比了多种基线方法，包括无监督域自适应的传统方法（如Pseudo-labeling和对抗训练）、基于检索的LM方法（如REALM和RAG）和情境学习方法（如In-context learning）。

发表于 12-05 14:14 •196次阅读

无<b class='flag-5'>监督</b>域自适应场景：基于检索增强的情境<b class='flag-5'>学习</b>实现知识迁移

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的学习

发表于 10-09 10:23 •355次阅读

自动驾驶操作域监督是什么

操作域监督（ODS）操作域监督功能模块图操作域监督模块监控与动态驾驶任务相关的能力、状态和情况，目的是确保自动驾驶车辆在操作设计域及其他适用的动态和静态约束下运行。它使用两个操作域表示

发表于 10-04 18:19 •326次阅读

ICML 2023 | 对多重图进行解耦的表示学习方法

Introduction 无监督多重图表示学习（UMGRL）受到越来越多的关注，但很少有工作同时关注共同信息和私有信息的提取。在本文中，我们认为，为了进行有效和鲁棒的 UMGRL，提取完整和干净

发表于 09-24 20:45 •656次阅读

Sentry ND网络防御：实时无监督机器学习解决方案

电子发烧友网站提供《Sentry ND网络防御：实时无监督机器学习解决方案.pdf》资料免费下载

发表于 09-13 10:19 •0次下载

机器学习模型类型分类

机器学习按照模型类型分为监督学习模型、无监督学习模型两大类。 1. 有监督学习 有监督学习通常是利用带有专家标注的标签的训练数据，

发表于 09-05 11:45 •1338次阅读

适用于任意数据模态的自监督学习数据增强技术

本文提出了一种适用于任意数据模态的自监督学习数据增强技术。自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的，但是在具体操作上是基于特定的数据

发表于 09-04 10:07 •784次阅读

人工智能nlp是什么方向

人工智能nlp是什么方向人工智能（AI）已经日益普及，正在改变我们的方法和方式。AI 涵盖了许多领域，其中包括机器学习，计算机视觉，自然语言处理（NLP）等。在这些方向之中，NLP

发表于 08-22 16:45 •1311次阅读

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？

有许多不同的类型和应用。根据机器学习的任务类型，可以将其分为几种不同的算法类型。本文将介绍机器学习的算法类型以及分类算法和预测算法。机器学习的算法类型 1. 监督学习算法在

发表于 08-17 16:30 •1392次阅读

深度学习框架和深度学习算法教程

了基于神经网络的机器学习方法。深度学习算法可以分为两大类：监督学习和无监督学习。监督学习的基本任务是训练模型去

发表于 08-17 16:11 •712次阅读

LeCun世界模型首个研究！自监督视觉像人一样学习和推理！

今日，Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型。该模型名为图像联合嵌入预测架构（Image Joint Embedding Predictive Architecture, I-JEPA），它通过创建外部世界的内部模型来学习，比较图像的抽象表示（

发表于 06-15 15:47 •226次阅读

NLP中的迁移学习：利用预训练模型进行文本分类

迁移学习彻底改变了自然语言处理（NLP）领域，允许从业者利用预先训练的模型来完成自己的任务，从而大大减少了训练时间和计算资源。在本文中，我们将讨论迁移学习的概念，探索一些流行的预训练模型，并通过实际示例演示如何使用这些模型进行文

发表于 06-14 09:30 •311次阅读

做实大模型的产业价值，度小满深耕“NLP+金融”

从度小满NLP开始，去看看AI走向产业的应用落地如何实现

发表于 05-18 20:43 •438次阅读