0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于NLP基准数据集的快速概览,以及最新技术的进展

DPVg_AI_era 来源:lq 2019-02-16 11:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文是一个自然语言处理资源索引,涵盖了目前NLP领域常用任务的最佳实验 结果和数据集资源,可以作为进一步从事NLP研究的基础。读者也可以自行在Github页面上添加新的结果,本文中大部分为英文NLP资源,还有少数汉语、印地语和越南语资源。

本文实际上是一个索引,旨在记录自然语言处理(NLP)领域的新进展,并概述最常见的NLP任务及其相应数据集的新技术。

这篇索引旨在涵盖主要的传统和核心NLP任务,如语义依赖性解析和词性标注等,以及最近不断取得新突破的任务,比如阅读理解和自然语言推理。本文主要目标是为感兴趣的读者提供关于NLP基准数据集的快速概览,以及最新技术的进展,这些数据集和新进展可以作为进一步NLP研究的基础。

因此,本文有意将这些NLP领域的新研究进展做一个简单汇总,便于研究人员集中查阅参考。

读者也可以通过浏览器访问nlpprogress.com或nlpsota.com来阅读本文。

简易使用指南

实验结果

本文首选在已发表的论文中的实验结果,但对少数影响力很大的预印本论文也可能入选。

数据集

本文中收录的数据集,除了利用该数据集的论文之外,还应经过至少一篇已发表的其他论文的评估。

代码

我们建议添加指向实现的链接(如果可用)。如果代码不存在,您可以向表中添加代码列(见下文)。在Code列,建议使用官方实现。如果有非官方实现,请使用链接(见下文)。如果没有可用的实现,可以将单元格留空。

向本索引中添加新结果

如果要添加新结果,只需单击文件右上角的小编辑按钮以执行相应任务(如下图所示)。

读者可以在Markdown中编辑文件。只需以相同的格式将一行添加到相应的表中即可。确保表格中数据排序正确(将最佳结果位于顶部)。完成更改后,单击页面顶部的“预览更改”选项卡,确保表格看起来还不错。如果一切看起来都OK,请转到页面底部确认更改。

此处需要为建议更改添加名称,可以选择添加说明文字,可以选择“创建新分支并启动拉取请求”,然后单击“提交更改”。

具体索引内容和研究领域如下,绝大部分为英语,有少量资源为汉语、印地语和越南语。

英语

自动语音识别

CCG超级标准

常识

选区解析

共同决议

依赖解析

对话

域适应

实体链接

语法纠错

信息提取

语言建模

词汇规范化

机器翻译

多任务学习

多模态

命名实体识别

自然语言推理

词性标注

问答

关系预测

关系提取

语义文本相似度

语义解析

语义角色标记

情绪分析

浅语法

简单化

状态检测

概要

分类学习

时间处理

文字分类

词义消歧

中文

实体链接

中文词汇分割

印地语

分块

词性标注

机器翻译

越南语

依赖解析

机器翻译

命名实体识别

词性标注

分词

最后以”中文-词汇分割”子类目为例,简单说明这个索引资源的呈现方式。

点击相应链接进入,首先是中文词汇分割这个任务的简要介绍。

下面列出了不同作者建立的基于不同搜索方式的单词分割模型,以及相应模型的发表时间。

接下来是评估指标,此类中为F1分数。下面以表格形式给出每种模型在不同数据集上获得的最佳F1分数。每个分数对应的研究论文链接和部分Github资源地址。

可以看到,表中中文词汇分割模型的最优F1分数均超过了96分,感兴趣的读者可以点击查看论文或Github资源。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26047
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14565
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23193

原文标题:盘点NLP最新进展:多语种40+任务最优结果任你查

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    软硬件协同技术分享 - 任务划分 + 自定义指令

    Level , ESL)得到催生,然而ESL设计依赖于复杂的高层次建模以及庞大的数据支持,且其工具链的发展仍不是十分完善。 在现阶段的开发氛围中,软硬件协同开发是一种能够缩短开发周期,并提升总体性能的高效
    发表于 10-28 08:03

    关于“实时基准对比测量”与AI再探讨

    qqxjyxjy清风:关于“实时基准对比测量”我还想多问一句。 AI: 已深度思考(用时 14 秒) AI: 好的,用户之前详细讨论了用实时基准对比测量来解决ADA8330增益不确定的问题,现在
    的头像 发表于 10-14 17:39 366次阅读

    创北方亮相2025 SID显示新技术研讨会

    2025年8月23、24日,第十届“SID显示新技术研讨会”在大连圆满举行,本次研讨会为更好地总结2025 SID显示周的最新技术,帮助显示行业从业者深入了解国际显示行业的最新成果、前沿技术和产业现状。
    的头像 发表于 08-30 11:47 1210次阅读

    请问AICube所需的目标检测数据标注可以使用什么工具?

    请问AICube所需的目标检测数据标注可以使用什么工具? 我使用labelimg进行标注,标注后的数据改好文件名后导入不进去。一直卡在数据
    发表于 08-11 08:07

    案例 | OPC 数据采集与可视化集成,实现设备到ERP的一体化联动

    案例概览在数字化制造的浪潮中,越来越多企业选择以数据为核心优化生产流程。北欧一家领先的塑料制造商,在新设备上线与系统集成过程中,借助宏CogentDataHub软件,成功部署了OPC实时数据
    的头像 发表于 08-08 18:15 280次阅读
    宏<b class='flag-5'>集</b>案例 | OPC <b class='flag-5'>数据</b>采集与可视化集成,实现设备到ERP的一体化联动

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于DeepSeek-R1的技术剖析 第五章 从宏观角度分析
    发表于 07-21 00:04

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04

    2025年嵌入式开发趋势:新技术如何影响你的工作?

    嵌入式开发的世界正在快速变化,新技术的崛起正悄然改变硬件设计、软件架构以及开发方式。无论你是刚入门的新手,还是经验丰富的工程师,理解这些趋势不仅能帮助你应对技术变革,还能在职业发展中占
    的头像 发表于 03-14 17:36 2834次阅读
    2025年嵌入式开发趋势:<b class='flag-5'>新技术</b>如何影响你的工作?

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 03-10 08:20

    士模微电子获得国家高新技术企业认定

    近日,《北京市2024年认定的第一批高新技术企业名单》正式公布,士模微电子荣获高新技术企业资格并取得证书。创新是企业发展的原动力。高新技术企业资格认定是国家为鼓励重点高新技术领域内,持
    的头像 发表于 02-24 10:20 1019次阅读
    士模微电子获得国家高<b class='flag-5'>新技术</b>企业认定

    SMT加工中的故障排除:宁波中电创的系统化实践

    和诊断至关重要。公司通过建立完善的故障记录系统,确保技术人员能够快速获取关键信息。 接下来,通过视觉检查初步查找明显的物理异常,例如焊料桥接、短路、开路、元件错位或缺失等。宁波中电创在生产线上广泛应用
    发表于 02-14 12:48

    如何根据数据转换器的位数来选择合适的电压基准芯片?

    Drift 以及噪声三个参数中计算1LSB的误差,好像根本不能满足16BIT数据采集系统,请问如何从数据手册的以上三个参数来估算误差,请使用详细的计算说明,谢谢。也可以说明一下如何根据数据
    发表于 01-14 06:55

    2024 OpenHarmony年度技术分享会来啦,预约直播有好礼~

    联合开源鸿蒙技术专家、老师、开发者为大家带来OpenHarmony的最新技术进展、开发心得以及应用实践,共同推动OpenHarmony生态的繁荣与发展! 直播时间: 2024/12/2
    发表于 12-25 09:10

    如何设计ADC和DAC的基准源,以及基准源如何影响ADC与DAC那些性能?

    如何设计ADC和DAC的基准源,以及基准源如何影响ADC与DAC那些性能?有没有相关的资料参考?
    发表于 12-17 06:27

    国星光电三项产品获评“2024年广东省名优高新技术产品”

    近日,广东省高新技术企业协会发布《关于公布2024年广东省名优高新技术产品名单的通知》,国星光电自主研发的“高清显示用背光产品”“智能家电用显示模块”以及“高端片式智能穿戴器件”三项产
    的头像 发表于 12-10 15:44 1198次阅读