0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

入门自然语言处理的基本任务——文本匹配

深度学习自然语言处理 来源:NLP情报局 作者:Giant 2021-05-31 11:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2020年初,新冠疫情席卷全球。除了“待在家,不乱跑”,我想还能从哪为抗击疫情出点微薄之力呢?

碰巧室友推送了一个天池公益赛“新冠疫情相似句对判定大赛”,秉持“重在参与”的心态参加了比赛。经过半个月的努力,最终结果勉强不错(第6),收割了一台Kindle。

2021年1月,疫情形势依然严峻,幸运的是国家不仅及时稳住了疫情,还研发出了有效的疫苗。借助疫情主题的比赛,我希望帮助更多读者,入门自然语言处理的基本任务——文本匹配。

开源代码:

https://github.com/yechens/COVID-19-sentence-pair

01 数据分析任务背景非常直观,主办方给定了“肺炎”、“支气管炎”、“上呼吸道感染”等医疗背景下的用户真实提问,要求选手通过算法识别任意2个问题,是否表达同一个意思。举例:

问题1:“轻微感冒需不需要吃药?”

问题2:“轻微感冒需要吃什么药?”

问题1关心“是否得吃药”,问题2关心“该吃什么药”,侧重点不同所以意思不同。

数据集样本都是三元组(query1, query2, label)。为了降低难度,每一个问题的长度被控制在20字以内。

比赛的训练集、验证集分别包含8746、2001条三元组。我们从dev中随机保留了800条样本作为最终dev,其余均加入训练。

数据增强拿到数据简单分析后,我发现数据集已经过清洗,竟然异常的干净整齐(没有杂乱的符号、不通顺的句子),label分布几乎也接近1:1。

再观察数据,相同的query1总是按顺序排列在一起,随后跟着不同的query2。这种分布很容易想到一种数据增强策略:相似传递性。

A 《-》 B 相似 and A 《-》 C 相似 =》 B 《-》 C 相似

最终我额外获得了5000条高质量的数据,比赛准确率因此提升了0.5%。

实体替换此外,我们也尝试了训练一个NER模型挖掘文本中的医疗实体,如“胸膜炎”、“肺气肿”,再通过word2vec查找最接近的实体进行替换。

但这种方式并没有提升最终结果。我觉得原因有2个:

1W条样本规模偏小,NER模型识别误差较大

词向量没有针对医疗场景训练,包含的医疗实体很少

02 匹配方法实现文本匹配有非常多简单又实用的方法,例如:

基于字符统计:字符串匹配、编辑距离、Jaccards距离

基于语言模型:word2vec/glove词向量、BERT

基于神经网络:孪生网络、TextCNN、DSSM、FastText等

由于比赛需要尽可能获得高分,这里主要介绍基于神经网络和BERT的文本匹配算法。

BERT[1]是一种预训练语言模型,通过海量文本、Transformer架构和MLM训练任务在众多NLP任务上取得了优异成果。对BERT不了解的读者,可以参考我之前的文章“从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史”[2]。

比赛中我们测试了5-6种不同的神经网络方法,并最终选择了3种在dev上表现最好的模型加权融合。具体可以参考 文件。

文本CNN(TextCNN)TextCNN是Yoon Kim[3]在2014年提出的用于句子分类的卷积神经网络。文本匹配任务本质上可以理解成二分类任务(0:不相似,1:相似),所以一般的分类模型也能满足匹配需求。

与图像中的二维卷积不同,TextCNN采用的是一维卷积,每个卷积核的大小为 (h为卷积核窗口,k为词向量维度)。文中采用了不同尺寸的卷积核,来提取不同文本长度的特征。

然后,作者对于卷积核的输出进行最大池化操作,只保留最重要的特征。各个卷积核输出经MaxPooling后拼接形成一个新向量,最后输出到全连接层分类器(Dropout + Linear + Softmax)实现分类。

我们知道,文本中的关键词对于判断2个句子是否相似有很大影响,而CNN局部卷积的特效能很好的捕捉这种关键特征。同时TextCNN还具有参数量小,训练稳定等优点。

文本RNN(TextRCNN)相比TextCNN,TextRCNN的模型结构看起来复杂一些。

简单浏览论文后,会发现它的思路其实简单,粗暴。

首先通过词向量获得字符编码 ,随后将其通过双向RNN学习上下文特征,编码得到两个方向的特征。

再将词向量 和 、 拼接得到新向量,输入经tanh函数激活的全连接网络。最后,将网络的输出最大池化,并输入另一个全连接分类器完成分类。

RNN模型对于长文本有较好的上下文“记忆”能力,更适合处理文本这种包含时间序列的信息。

BERT+MLP(fine-tune)最后一种方法,直接用语言模型BERT最后一层Transformer的输出,接一层Dense实现文本匹配。

实验中我们发现,对最终输出的每个token特征取平均(MeanPooling)效果好于直接使用首字符“[CLS]”的特征。

模型权重上,崔一鸣等人[5]发布的中文roberta_wwm_ext_large模型效果要好于BERT_large。

最后,我们根据这三种模型在dev上的准确率设置了不同比重,通过自动搜索找到最优权重组合,在线上测试集取得了96.26%的准确率。

读者可以在“NLP情报局”后台回复“文本匹配”直接下载模型论文。

03 涨分trick做一个深度学习主导的算法比赛,除了分析数据与模型,一些trick也是获得高分的重要因素。这里罗列了一些常用策略。

数据增强[6]

标签平滑

自蒸馏

文本对抗训练[7]

模型融合

特征筛选

使用多个学习率[8]

针对这次文本匹配任务,数据增强、标签平滑、模型融合、多学习率都被证明是有效的。

04 总结过去将近1年的天池“新冠疫情相似句对判定大赛”,任务并不复杂,是入门NLP项目实战,提升编程能力的很好锻炼机会。

比赛虽然结束了,疫情犹在。大家一定要保护好自己哦!

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106827
  • 数据集
    +关注

    关注

    4

    文章

    1231

    浏览量

    26050
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23196

原文标题:天池NLP赛道top指南

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知
    的头像 发表于 11-10 17:30 532次阅读
    云知声论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会EMNLP 2025

    格灵深瞳突破文本人物检索技术难题

    格灵深瞳参与研究的GA-DMS框架,为攻破上述技术难题提供了全新解决方案。研究团队通过数据构建和模型架构的协同改进,推动CLIP在人物表征学习中的应用,显著提升了基于文本的人物检索效果。该成果已入选EMNLP 2025 主会(自然语言
    的头像 发表于 09-28 09:42 423次阅读
    格灵深瞳突破<b class='flag-5'>文本</b>人物检索技术难题

    HarmonyOSAI编程自然语言代码生成

    安装CodeGenie后,在下方对话框内,输入代码需求描述,将根据描述智能生成代码,生成内容可一键复制或一键插入至编辑区当前光标位置。 提问示例 使用ArkTs语言写一段代码,在页面中间部分
    发表于 09-05 16:58

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    GPIO 等),并返回结果。 Cangjie Magic 角色 :构建MCP服务器,同时提供自然语言理解能力,将用户输入的文本(如 “查看开发板 IP 地址”“点亮 LED1”)转换为机器可识别的指令(如
    发表于 08-23 13:10

    云知声四篇论文入选自然语言处理顶会ACL 2025

    近日,第63届国际计算语言学年会ACL 2025(Annual Meeting of the Association for Computational Linguistics,简称ACL)论文接收
    的头像 发表于 05-26 14:15 1053次阅读
    云知声四篇论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会ACL 2025

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务
    的头像 发表于 04-30 18:34 1070次阅读
    小白学大模型:从零实现 LLM<b class='flag-5'>语言</b>模型

    东芝硬盘如何优化存储

    自然语言处理、推荐系统和图像识别同时开跑,每个任务的训练速度呈指数级下降,大量时间浪费在等待数据加载上。像极了早高峰挤地铁——谁都别想快!
    的头像 发表于 04-11 11:17 819次阅读

    使用VirtualLab Fusion中分布式计算的AR波导测试图像模拟

    总计算时间超过31小时。通过使用一个由8个多核PC组成的网络,提供35个客户端分布式计算,将模拟时间减少到1小时5分钟。基本模拟任务基本任务集合:FOV使用分布式计算的集合模拟概述模拟时间节省96%的计算时间!!!
    发表于 04-10 08:48

    自然语言提示原型在英特尔Vision大会上首次亮相

    在英特尔Vision大会上,Network Optix首次展示了自然语言提示原型,该方案将重新定义视频管理,为各行各业由AI驱动的洞察和效率提速。
    的头像 发表于 04-09 09:30 796次阅读

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言文本处理能力的多模态人工智能模型,能够理解并生成与视觉内容相关的
    的头像 发表于 03-17 15:32 7633次阅读
    ​VLM(视觉<b class='flag-5'>语言</b>模型)​详细解析

    VirtualLab Fusion应用:白光干涉相干性测量

    到的2,904个基本模拟的模拟时间可以从一个多小时显著减少到不到3分钟。 模拟任务 基本模拟任务 基本任务集合#1:波长 基本任务集合#2:反射镜位置 使用分布式计算进行模拟
    发表于 02-14 09:46

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    和理解这些数据。在自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,这些向量包含了丰富的语义信息。RAG技术是一种结合信息检索与文本生成能
    发表于 01-17 19:53

    #新年新气象,大家新年快乐!#AIGC入门及鸿蒙入门

    Generated Content,即人工智能生成内容。它利用人工智能技术自动生成或辅助生成文本、图像、音频、视频等内容。 AIGC的核心技术包括自然语言处理(NLP)、计算机视觉、生成对抗网络(GAN)等
    发表于 01-13 10:46

    AIGC入门及鸿蒙入门

    Generated Content,即人工智能生成内容。它利用人工智能技术自动生成或辅助生成文本、图像、音频、视频等内容。 AIGC的核心技术包括自然语言处理(NLP)、计算机视觉、生成对抗网络(GAN)等
    发表于 01-13 10:32

    望获实时Linux系统与大语言模型深度融合,开创实时智能无限可能!

    语言模型的崛起为智能化应用开辟了新的可能性。借助深度学习技术,这些模型能够理解和生成自然语言处理复杂的文本和语义信息。这使得它们在诸如人机问答、内容生成和数据分析等领域展现出巨大的
    的头像 发表于 01-08 13:44 1045次阅读