如何优雅地使用bert处理长文本-电子发烧友网

这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文《CogLTX: Applying BERT to Long Texts》，介绍了如何优雅地使用bert处理长文本。作者同时开源了不同NLP任务下使用COGLTX的代码：

论文题目：

CogLTX: Applying BERT to Long Texts

论文链接：

http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdf

Github：

https://github.com/Sleepychord/CogLTX

bert在长文本处理一般分为三种方法[1]：

截断法；

Pooling法；

压缩法。

该论文就是压缩法的一种，是三种方法中最好的。我们在科研和工作中都会遇到该问题，例如我最近关注的一个文本分类比赛：

面向数据安全治理的数据内容智能发现与分级分类竞赛 - DataFountain[2].

其文本数据长度就都在3000左右，无法将其完整输入bert，使用COGLTX就可以很好地处理该问题，那么就一起来看看该论文具体是怎么做的吧。

1.背景

基于以下情形：

bert作为目前最优秀的PLM，不用是不可能的；

长文本数据普遍存在，且文本中包含的信息非常分散，难以使用滑动窗口[3]截断。

而由于bert消耗计算资源和时间随着token的长度是平方级别增长的，所以其无法处理太长的token，目前最长只支持512个token，token过长也很容易会内存溢出，所以在使用bert处理长文本时需要设计巧妙的方法来解决这个问题。

2.提出模型

COGLTX模型在三类NLP任务中的结构如下：

首先假设：存在短文本可以完全表达原长文本的语义：

那么令代替输入原来的模型即可，那么怎么找到这个呢

1、使用动态规划算法将长文本划分为文本块集合；

2、使用MemRecall对原长句中的子句进行打分，MemRecall结构如图，而表现如下式：

从而选择出分数最高的子句组成再进行训练，这样一来的话，COGLTX相当于使用了了两个bert，MemRecall中bert就是负责打分，另一个bert执行原本的NLP任务。

可以发现刚才找到例子将问题Q放在了初始化的开头，但是并不是每个NLP任务都可以这么做，分类的时候就没有类似Q的监督，这时候COGLTX采用的策略是将每个子句从原句中移除判断其是否是必不可少的(t是一个阈值)：

作者通过设计不同任务下的MemRecall实现了在长文本中使用bert并通过实验证明了方法的有效性。

3.实验

通过多维度地对比，证明了本文提出算法的有效性。

参考文献

[1]https://zhuanlan.zhihu.com/p/88944564

[2]https://www.datafountain.cn/competitions/471

[3]Z. Wang, P. Ng, X. Ma, R. Nallapati, and B. Xiang. Multi-passage bert: A globally normalized bert model for open-domain question answering. arXiv preprint arXiv:1908.08167, 2019.

责任编辑：xj

原文标题：【NIPS 2020】通过文本压缩，让BERT支持长文本

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

文本

文本

+关注

关注
0

文章
118

浏览量
16919
nlp

nlp

+关注

关注
1

文章
463

浏览量
21818

原文标题：【NIPS 2020】通过文本压缩，让BERT支持长文本

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

搜索历史

如何优雅地使用bert处理长文本

评论

单日获客成本超20万，国产大模型开卷200万字以上的长文本处理

Kimi爆火背后的技术奥秘大模型长文本能力的技术难点

阿里通义千问重磅升级，免费开放1000万字长文档处理功能

快速全面了解大模型长文本能力

优雅停机是什么？SpringBoot+Nacos+k8s实现优雅停机

如何用AI聊天机器人写出万字长文

基于BERT算法搭建一个问答搜索引擎

港中文贾佳亚团队联手MIT发布超长文本扩展技术，打破LLM遗忘魔咒

达观曹植大模型正式对外公测！专注于长文本、多语言、垂直化发展

PyTorch教程-16.7。自然语言推理：微调 BERT

PyTorch教程-16.6. 针对序列级和令牌级应用程序微调 BERT

PyTorch教程-15.9。预训练 BERT 的数据集

PyTorch教程15.9之预训练BERT的数据集

PyTorch教程15.10之预训练BERT

ETH提出RecurrentGPT实现交互式超长文本生成