0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于NLP基准数据集的快速概览,以及最新技术的进展

DPVg_AI_era 来源:lq 2019-02-16 11:01 次阅读

本文是一个自然语言处理资源索引,涵盖了目前NLP领域常用任务的最佳实验 结果和数据集资源,可以作为进一步从事NLP研究的基础。读者也可以自行在Github页面上添加新的结果,本文中大部分为英文NLP资源,还有少数汉语、印地语和越南语资源。

本文实际上是一个索引,旨在记录自然语言处理(NLP)领域的新进展,并概述最常见的NLP任务及其相应数据集的新技术。

这篇索引旨在涵盖主要的传统和核心NLP任务,如语义依赖性解析和词性标注等,以及最近不断取得新突破的任务,比如阅读理解和自然语言推理。本文主要目标是为感兴趣的读者提供关于NLP基准数据集的快速概览,以及最新技术的进展,这些数据集和新进展可以作为进一步NLP研究的基础。

因此,本文有意将这些NLP领域的新研究进展做一个简单汇总,便于研究人员集中查阅参考。

读者也可以通过浏览器访问nlpprogress.com或nlpsota.com来阅读本文。

简易使用指南

实验结果

本文首选在已发表的论文中的实验结果,但对少数影响力很大的预印本论文也可能入选。

数据集

本文中收录的数据集,除了利用该数据集的论文之外,还应经过至少一篇已发表的其他论文的评估。

代码

我们建议添加指向实现的链接(如果可用)。如果代码不存在,您可以向表中添加代码列(见下文)。在Code列,建议使用官方实现。如果有非官方实现,请使用链接(见下文)。如果没有可用的实现,可以将单元格留空。

向本索引中添加新结果

如果要添加新结果,只需单击文件右上角的小编辑按钮以执行相应任务(如下图所示)。

读者可以在Markdown中编辑文件。只需以相同的格式将一行添加到相应的表中即可。确保表格中数据排序正确(将最佳结果位于顶部)。完成更改后,单击页面顶部的“预览更改”选项卡,确保表格看起来还不错。如果一切看起来都OK,请转到页面底部确认更改。

此处需要为建议更改添加名称,可以选择添加说明文字,可以选择“创建新分支并启动拉取请求”,然后单击“提交更改”。

具体索引内容和研究领域如下,绝大部分为英语,有少量资源为汉语、印地语和越南语。

英语

自动语音识别

CCG超级标准

常识

选区解析

共同决议

依赖解析

对话

域适应

实体链接

语法纠错

信息提取

语言建模

词汇规范化

机器翻译

多任务学习

多模态

命名实体识别

自然语言推理

词性标注

问答

关系预测

关系提取

语义文本相似度

语义解析

语义角色标记

情绪分析

浅语法

简单化

状态检测

概要

分类学习

时间处理

文字分类

词义消歧

中文

实体链接

中文词汇分割

印地语

分块

词性标注

机器翻译

越南语

依赖解析

机器翻译

命名实体识别

词性标注

分词

最后以”中文-词汇分割”子类目为例,简单说明这个索引资源的呈现方式。

点击相应链接进入,首先是中文词汇分割这个任务的简要介绍。

下面列出了不同作者建立的基于不同搜索方式的单词分割模型,以及相应模型的发表时间。

接下来是评估指标,此类中为F1分数。下面以表格形式给出每种模型在不同数据集上获得的最佳F1分数。每个分数对应的研究论文链接和部分Github资源地址。

可以看到,表中中文词汇分割模型的最优F1分数均超过了96分,感兴趣的读者可以点击查看论文或Github资源。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1177

    浏览量

    24340
  • 自然语言处理

    关注

    1

    文章

    508

    浏览量

    13096
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21812

原文标题:盘点NLP最新进展:多语种40+任务最优结果任你查

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    九联科技连续21年荣获“高新技术企业”称号!

    近日,广东省科学技术厅、广东省财政厅、国家税务总局广东省税务局印发了《关于公布广东省2023年高新技术企业名单的通知》,九联科技经过严格评审,再次荣获“高新技术企业”称号。
    的头像 发表于 03-07 18:13 647次阅读
    九联科技连续21年荣获“高<b class='flag-5'>新技术</b>企业”称号!

    对基于 FPGA 的 AI 视觉应用进行基准测试

    翻译自:https://www.fpgadeveloper.com/benchmarking-an-fpga-based-ai-vision-application/ 许多智能视觉应用需要做出快速
    发表于 02-02 10:26

    关于能带隙基准源的理解

    看了关于能带隙基准源的的介绍,其原理是利用了正温度系数的电压产生器和具有负温度系数的电压,从而得到具有零温度系数的基准电压。 第一张图是基本原理图,用左边电流控制右边电流,但是书上说左右两个晶体管
    发表于 01-27 11:56

    新技术在生物样本冷冻中的应用案例分析

    可以提供关于样本冻结和解冻过程的重要信息,还可用于研究生物分子在低温条件下的行为,从而推动了相关领域的研究进展。   二、新技术在生物样本冷冻中的优势和应用案例   1. 提高存活率和保存效果   
    发表于 12-26 13:30

    表面贴装技术(SMT)的发展和新技术进展

    表面贴装技术(SMT)的发展和新技术进展 SMT的起源可以追溯到20世纪60年代,经过多年发展已经达到了完全成熟的阶段。不仅成为了当今组装技术的主流,而且还在不断向更深层次发展。总体而
    的头像 发表于 11-01 11:00 665次阅读

    CPU性能基准介绍及其在国内市场的应用

    基准是衡量最流行的消费设备中CPU性能的重要工具,尤其是在包括数字电视(DTV)和机顶盒(STB)在内的家庭领域。 然而,基准正在以快速的速度发展,从独立的测量转向考虑真实世界的用例,以获得更准确
    发表于 08-28 07:02

    人工智能nlp是什么方向

    的方向之一。NLP关于将人类语言转化为计算机语言的过程,使计算机能够理解和生成人类语言。 NLP 技术有多种应用,从智能语音助手到文本分析和机器翻译。随着人们对这种
    的头像 发表于 08-22 16:45 1281次阅读

    keras制作mnist数据的流程

    第5讲讲解了keras制作mnist数据的流程,进一步的,有时候我们需要构建自己的数据。 以flower分类为例,见参考3(这里直接用别人的数据
    发表于 08-18 06:38

    如何利用keras打包制作mnist数据

    keras提供了内置的7个数据,直接调用用keras.datasets.xxx.load_data()函数即可下载并返回numpy格式数据,比较方便。但是有些时候我们希望加入自己的训练
    发表于 08-18 06:12

    003. 任务003: NLP定义以及歧义性 #硬声创作季

    nlp
    充八万
    发布于 :2023年07月05日 14:39:10

    基准数据集(CORR2CAUSE)如何测试大语言模型(LLM)的纯因果推理能力

      因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣,但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM
    的头像 发表于 06-20 15:39 1284次阅读
    <b class='flag-5'>基准</b><b class='flag-5'>数据</b>集(CORR2CAUSE)如何测试大语言模型(LLM)的纯因果推理能力

    【直播预告】今晚7点,来HarmonyOS极客松直播间与技术专家聊聊新技术

    HarmonyOS极客松直播间与技术专家聊聊新技术
    发表于 06-20 11:08

    2023汽车电子创新技术研讨会圆满落幕:探讨汽车电子的最新进展、应用趋势与挑战

    、凌鸥创芯(晶丰明源)、顺络电子、芯科集成 、华邦电子、茂睿芯、芯派科技、芯海科技、东方中科等多家国内外知名企业的专家和领导共同参与,探讨汽车电子创新技术的最新进展、应用趋势和挑战。会议干货满满,现场精彩纷呈!!!     会议的开始,电子发烧友网
    发表于 06-14 17:41 919次阅读
    2023汽车电子创<b class='flag-5'>新技术</b>研讨会圆满落幕:探讨汽车电子的最新<b class='flag-5'>进展</b>、应用趋势与挑战

    【6月8日|济南】是德科技新应用新技术研讨会

    01 会议简介 为了与山东地区的用户进行更好的交流,是德科技联合白泽检测(山东)有限公司精心准备了业内最新技术专题讲座,带来最新的行业技术趋势以及新产品和新应用等信息。 在活动现场,是德科技将携带
    的头像 发表于 06-01 14:35 265次阅读

    行业概览:人与机器语言交互的核心技术(2023)

    过去5年,随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达到181.3亿元,CA
    的头像 发表于 05-16 09:27 781次阅读
    行业<b class='flag-5'>概览</b>:人与机器语言交互的核心<b class='flag-5'>技术</b>(2023)