侵权投诉

NLP中文自然语言处理数据集、平台和工具整理

深度学习自然语言处理 2020-11-05 09:29 次阅读

资源整理了文本分类、实体识别&词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、中文完形填空等大量数据集,中文数据集平台和NLP工具等。

本文内容整理自:https://github.com/InsaneLife/ChineseNLPCorpus

文本分类

新闻分类

今日头条中文新闻(短文本)分类数据集:https://github.com/fateleak/toutiao-text-classfication-dataset

数据规模:共38万条,分布于15个分类中。

采集时间:2018年05月。

以0.70.150.15做分割。

清华新闻分类语料:

根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。

数据量:74万篇新闻文档(2.19GB)

小数据实验可以筛选类别:体育,财经,房产,家居,教育,科技,时尚,时政,游戏,娱乐

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn实验:https://github.com/gaussic/text-classification-cnn-rnn

中科大新闻分类语料库:http://www.nlpir.org/?action-viewnews-itemid-145

情感/观点/评论倾向性分析

实体识别&词性标注

微博实体识别

https://github.com/hltcoe/golden-horse

boson数据

包含6种实体类型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日报数据集

人名、地名、组织名三种实体类型

1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcApassword:1fa3

MSRA微软亚洲研究院数据集

5万多条中文命名实体识别标注数据(包括地点、机构、人物)

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHANBakeoff2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。

MSR:http://sighan.cs.uchicago.edu/bakeoff2005/

PKU:http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手机搜索排序

OPPO手机搜索排序query-title语义匹配数据集。

链接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw提取码:7p3n

网页搜索结果评价(SogouE)

用户查询及相关URL列表

https://www.sogou.com/labs/resource/e.php

推荐系统

百科数据

维基百科

维基百科会定时将语料库打包发布:

数据处理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬,爬取得链接:https://pan.baidu.com/share/init?surl=i3wvfil提取码neqs。

指代消歧

CoNLL2012:http://conll.cemantix.org/2012/data.html

预训练:(词向量or模型)

BERT

开源代码:https://github.com/google-research/bert

模型下载:BERT-Base,Chinese:ChineseSimplifiedandTraditional,12-layer,768-hidden,12-heads,110Mparameters

ELMO

开源代码:https://github.com/allenai/bilm-tf

预训练的模型:https://allennlp.org/elmo

腾讯词向量

腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。

下载地址:https://ai.tencent.com/ailab/nlp/embedding.html

上百种预训练中文词向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空数据集

https://github.com/ymcui/Chinese-RC-Dataset

中华古诗词数据库

最全中华古诗词数据集,唐宋两朝近一万四千古诗人,接近5.5万首唐诗加26万宋诗.两宋时期1564位词人,21050首词。

https://github.com/chinese-poetry/chinese-poetry

保险行业语料库

https://github.com/Samurais/insuranceqa-corpus-zh

汉语拆字字典

英文可以做charembedding,中文不妨可以试试拆字

https://github.com/kfcd/chaizi

中文数据集平台

搜狗实验室

搜狗实验室提供了一些高质量的中文文本数据集,时间比较早,多为2012年以前的数据。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然语言处理与信息检索共享平台

http://www.nlpir.org/?action-category-catid-28

中文语料小数据

包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

https://github.com/crownpku/Small-Chinese-Corpus

维基百科数据集

https://dumps.wikimedia.org/

NLP工具

THULAC:https://github.com/thunlp/THULAC:包括中文分词、词性标注功能。

HanLP:https://github.com/hankcs/HanLP

哈工大LTP:https://github.com/HIT-SCIR/ltp

NLPIR:https://github.com/NLPIR-team/NLPIR

jieba分词:https://github.com/yanyiwu/cppjieba

责任编辑:xj

原文标题:最全中文自然语言处理数据集、平台和工具整理

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

原文标题:最全中文自然语言处理数据集、平台和工具整理

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

企业应该如何选择合适的备份解决方案?

为运营的业务选择合适的备份解决方案,企业需要考虑多种因素。在选择备份解决方案之前,IT主管必须了解自....
的头像 存储D1net 发表于 03-02 11:58 141次 阅读
企业应该如何选择合适的备份解决方案?

华为5G标准必要专利市场份额超过15.39%

近日,国际知名专利数据公司IPLytics发布了《Who is leading the 5G pat....
的头像 lhl545545 发表于 03-02 11:54 10次 阅读
华为5G标准必要专利市场份额超过15.39%

如何解决数据结构设计最大频率栈问题?

读完本文,可以去力扣解决如下题目: 895.最大频率栈(Hard)   我个人很喜欢设计特殊数据结构....
的头像 算法与数据结构 发表于 03-02 11:02 83次 阅读
如何解决数据结构设计最大频率栈问题?

如何处理服务存在内存泄漏问题?

上周像往常一样例行检查线上机器性能,突然发现一个服务的内存使用率是这样的: 很显然该服务存在内存泄漏....
的头像 玩转单片机 发表于 03-02 10:23 41次 阅读
如何处理服务存在内存泄漏问题?

原材料涨价潮下,家电行业将受到什么影响?

对于家电行业来说,元春(元旦春节)期间一直是传统促销周期,但今年的情况却有些特殊,刚刚进入新的一年,....
的头像 我快闭嘴 发表于 03-01 17:52 1559次 阅读
原材料涨价潮下,家电行业将受到什么影响?

iPhone 12系列需求减弱:今年iPhone出货量将达到2.3亿部

据AppleInsider的一份新报告显示,苹果iPhone 12系列的需求已经开始减弱,该报告引用....
的头像 lhl545545 发表于 03-01 16:38 389次 阅读
iPhone 12系列需求减弱:今年iPhone出货量将达到2.3亿部

2020年我国芯片相关企业注册量同比增长195%

这几个月来,网络上充满了“芯片短缺”的言论,导致无数手机、汽车等行业相继传出将要减产的消息,让大家无....
的头像 lhl545545 发表于 03-01 16:04 194次 阅读
2020年我国芯片相关企业注册量同比增长195%

保护备份数据免受勒索病毒攻击的方法

勒索软件正成为对数据的头号威胁,这使得确保不良分子在执行勒索软件攻击时不会将您的备份数据和您的主要数....
的头像 如意 发表于 03-01 15:49 628次 阅读
保护备份数据免受勒索病毒攻击的方法

今年拒不接受整治的APP将坚决下架

随着智能手机飞速发展,各种丰富多样的APP也随之而来,通过手机APP买菜、学习、娱乐等,为我们的生活....
的头像 如意 发表于 03-01 15:27 328次 阅读
今年拒不接受整治的APP将坚决下架

2021年1月线下彩电市场线下零售量同比下降

家电对于每个现代家庭来说都是必需品,庞大的需求带动着国内家电市场增长,但近期也有部分家电品类销量有所....
的头像 lhl545545 发表于 03-01 15:03 207次 阅读
2021年1月线下彩电市场线下零售量同比下降

2020年全年移动互联网用户接入流量同比增长35.7%

随着智能手机价格下探,以及移动互联网的普及,我国手机网民越来越多。据新华社报道,国家统计局28日发布....
的头像 lhl545545 发表于 03-01 13:55 175次 阅读
2020年全年移动互联网用户接入流量同比增长35.7%

OPPO即将正式发布OPPO Find X3系列

3月1日消息,OPPO宣布将于3月11日举行新品发布会,正式发布OPPO Find X3系列。
的头像 lhl545545 发表于 03-01 11:27 180次 阅读
OPPO即将正式发布OPPO Find X3系列

华为发布数据存储OneStorage解决方案

在2021 MWC 上海期间,华为面向运营商发布数据存储OneStorage解决方案,助力运营商构建....
的头像 华为 发表于 02-26 17:21 573次 阅读
华为发布数据存储OneStorage解决方案

2021年十个值得关注的数据分析趋势

从AI到小数据和图形技术,数据和分析领导者应考虑充分利用这些趋势。
的头像 如意 发表于 02-26 15:38 195次 阅读
2021年十个值得关注的数据分析趋势

TikTok将花9200万美元和解数据隐私索赔

据路透社报道称,Tiktok母公司字节跳动同意以9200万美元和解一项集体诉讼,以解决一些美国Tik....
的头像 如意 发表于 02-26 11:35 238次 阅读
TikTok将花9200万美元和解数据隐私索赔

电信运营商Verizon赢得超过6成频谱资源

2月25日消息,据国外媒体报道,美国联邦通信委员会(FCC)公布了适用于5G网络建设的3.7-3.9....
的头像 lhl545545 发表于 02-25 15:16 219次 阅读
电信运营商Verizon赢得超过6成频谱资源

土壤水分检测仪有什么作用,它有什么特点

TZS-2X-G土壤水分检测仪又称便携式土壤水分测定仪,是由托普云农研发供应的,该仪器专门用于土壤水....
发表于 02-25 14:38 40次 阅读
土壤水分检测仪有什么作用,它有什么特点

数据指出:三星电子连续 15 年蝉联全球电视市场之首

2 月 25 日消息,据国外媒体报道,市场调查公司 Omdia 最新数据指出,三星电子连续 15 年....
的头像 工程师邓生 发表于 02-25 14:05 329次 阅读
数据指出:三星电子连续 15 年蝉联全球电视市场之首

松下研发RFID混合技术方案以捕获数据

松下公司业务总监Jim Dempsey表示,为了满足2021年对仓库、商店和其他场所数据采集自动化的....
发表于 02-24 16:47 765次 阅读
松下研发RFID混合技术方案以捕获数据

兰大成功研发世界上首个新冠预测系统

这是世界上第一个全球预测系统,可以对全世界190多个国家的新冠肺炎疫情进行预测。据国内媒体报道,兰州....
的头像 如意 发表于 02-24 15:50 280次 阅读
兰大成功研发世界上首个新冠预测系统

浅谈智能电网基础设施的关键部分

物联网是任何公司可持续发展模型不可或缺的组成部分,可帮助企业节省资源并节省资金。这里有七个示例可供考....
发表于 02-24 15:14 672次 阅读
浅谈智能电网基础设施的关键部分

支付宝公开针对隐私数据泄露的相关专利

据天眼查资料显示,支付宝(杭州)信息技术有限公司今天公开了关于“ 针对隐私数据泄漏的风险评估方法及装....
的头像 如意 发表于 02-24 15:01 663次 阅读
支付宝公开针对隐私数据泄露的相关专利

第12代酷睿Alder Lake主要特征揭晓

Intel将在3月中旬正式发售第11代酷睿处理器桌面版,也就是代号为Rocket Lake-S的产品....
的头像 lhl545545 发表于 02-24 10:17 205次 阅读
第12代酷睿Alder Lake主要特征揭晓

天问一号探测器进入火星停泊轨道

2月24日消息,据媒体报道,首次火星探测任务天问一号探测器于2021年2月24日6时29分成功实施第....
发表于 02-24 10:09 994次 阅读
天问一号探测器进入火星停泊轨道

独家!比特币日内跌幅突破1万美元

比特币今日上演“跳楼”,日内跌幅突破1万美元。
的头像 lhl545545 发表于 02-24 09:43 167次 阅读
独家!比特币日内跌幅突破1万美元

预测称2021年中国市场将售出190万辆电动汽车

随着人们环境保护意识越来越强,大家都想着如何能在生活中提高对环境的保护程度。在汽车领域,近乎零排放的....
的头像 lhl545545 发表于 02-23 16:15 394次 阅读
预测称2021年中国市场将售出190万辆电动汽车

关于电容式探头在水塔水位控制中的应用

无论是在工业生产中还是在日常生活中液位控制普遍存在,而电容式探头就可以通用于这两种应用当中。 电容式....
发表于 02-23 09:54 29次 阅读
关于电容式探头在水塔水位控制中的应用

余承东宣布华为Mate X2首批升级鸿蒙OS

华为新一代折叠旗舰Mate X2发布,将于2月25日正式开售,256GB版本售价17999元,512....
的头像 lhl545545 发表于 02-23 09:48 248次 阅读
余承东宣布华为Mate X2首批升级鸿蒙OS

智慧城市各细分市场5G使用率偏低

全球科技市场咨询公司ABIResearch的一份报告显示,尽管最近进行了投资,但未来五年,智慧城市各....
发表于 02-22 17:18 921次 阅读
智慧城市各细分市场5G使用率偏低

小米关联公司入股半导体芯片开发公司长晶科技

消息:据天眼查数据显示,2月18日,江苏长晶科技有限公司投资人新增小米关联公司湖北小米长江产业基金合....
的头像 lhl545545 发表于 02-22 17:03 629次 阅读
小米关联公司入股半导体芯片开发公司长晶科技

特斯拉电动汽车在美国汽车市场份额不断提升

2月22日消息,据国外媒体报道,电力驱动是近几年汽车领域的一大热点,也是未来的发展趋势之一,无论是传....
的头像 lhl545545 发表于 02-22 15:42 360次 阅读
特斯拉电动汽车在美国汽车市场份额不断提升

MRAM依靠优秀的特性和出色的性能,有着强大的竞争力

一般来说,存储结构设计的核心是确保磁性隧道结所表征的数据可以快速读出,并且能够根据需要快速进行改变,....
发表于 02-22 15:25 99次 阅读
MRAM依靠优秀的特性和出色的性能,有着强大的竞争力

山东淄博全面推进减证便民创建无证明城市

去年,一则“男子用7个月证明我爸是我爸未果”的报道曾引发热议。不少人在生活中都遇到过奇葩证明,并因此....
的头像 如意 发表于 02-22 11:34 1330次 阅读
山东淄博全面推进减证便民创建无证明城市

小米电视荣获2020出货量中国第一

2月22日,小米电视官博发文称2020年小米电视出货量居中国第一,并连续2年稳居中国第一。据悉,小米....
的头像 lhl545545 发表于 02-22 11:29 311次 阅读
小米电视荣获2020出货量中国第一

苹果为对抗Epic要求Valve公开Steam机密数据?

由于苹果税,Epic此前与苹果之间闹起的纠纷沸沸扬扬,甚至导致iOS平台用户无法玩到最新的《堡垒之夜....
的头像 lhl545545 发表于 02-22 11:26 179次 阅读
苹果为对抗Epic要求Valve公开Steam机密数据?

华为Mate X2全球发布会如约而至

华为Mate X2发布会将于2月22日20:00正式开启,预计官方将全程直播发布会内容。如果你对折叠....
的头像 lhl545545 发表于 02-22 10:44 1415次 阅读
华为Mate X2全球发布会如约而至

新机realme GT外形、发布时间正式揭晓

realme GT将于3月4日正式发布,由知名演员杨幂代言。
的头像 lhl545545 发表于 02-22 10:31 559次 阅读
新机realme GT外形、发布时间正式揭晓

人工智能在处理和分析数据方面的作用

如今,人工智能(AI)在捕获,处理和分析数据方面起着举足轻重的作用!合并数据元素和管理数据中心也变得....
发表于 02-22 10:03 699次 阅读
人工智能在处理和分析数据方面的作用

2021年春节假期移动互联网流量超357.3万TB

今年春节很据悉有1亿“原年人“选择了就地过年,春节拜年、娱乐方式及消费模式继续向线上转移,移动互联网....
的头像 lhl545545 发表于 02-22 09:29 329次 阅读
2021年春节假期移动互联网流量超357.3万TB

FLIR TG165红外成像点温仪的特点及应用范围

FLIR TG165红外成像点温仪缩小了单点红外测温仪与功能强大的热像仪之间的差距。这款热像仪配备F....
发表于 02-22 09:25 270次 阅读
FLIR TG165红外成像点温仪的特点及应用范围

内容视频化已经成为明显趋势,5G终端不足倍增了4G网络压力

从2020年年中开始,网络上有关4G网络越来越慢的讨论非常多。虽然有网友将此归结为运营商为发展5G用....
发表于 02-22 09:05 224次 阅读
内容视频化已经成为明显趋势,5G终端不足倍增了4G网络压力

总线的原理/特征/分类/技术指标你知道吗?

的简单介绍 总线的原理 总线的特征 总线的分类 总线的技术指标 传输数据可靠性 ...
发表于 02-22 07:32 0次 阅读
总线的原理/特征/分类/技术指标你知道吗?

贵州首条国际互联网数据专用通道通过竣工验收 240Gbps 带宽

2 月 20 日消息 根据工信微报的消息,贵州首条国际互联网数据专用通道通过竣工验收,通道合计开通 ....
的头像 工程师邓生 发表于 02-20 17:49 821次 阅读
贵州首条国际互联网数据专用通道通过竣工验收 240Gbps 带宽

中国累计火力发电量突破4万亿千瓦时,同比下降1.5%

据国家统计局数据显示,2019年全年中国发电量达到了71422.1亿千瓦时,累计增长3.5%。截止至....
的头像 牵手一起梦 发表于 02-19 16:34 298次 阅读
中国累计火力发电量突破4万亿千瓦时,同比下降1.5%

中国机床出口量累计将近1750万台,累计增长3.1%

据国家统计局统计数据显示,2019年全年中国金属切削机床产量达到了41.6万台,累计下降18.8%。....
的头像 牵手一起梦 发表于 02-19 16:32 237次 阅读
中国机床出口量累计将近1750万台,累计增长3.1%

中国空调出口量累计达到4364万台,产量同比增长5.5%

据国家统计局数据显示,2019年全年中国空调产量达到了21866.2万台,累计增长6.5%。截止至2....
的头像 牵手一起梦 发表于 02-19 15:45 143次 阅读
中国空调出口量累计达到4364万台,产量同比增长5.5%

2020年11月中国液化天然气产量同比增长20.6%

据国家统计局数据显示,2019年全年中国液化天然气产量达到了1165万吨,累计增长15.6%。截止至....
的头像 牵手一起梦 发表于 02-19 15:38 304次 阅读
2020年11月中国液化天然气产量同比增长20.6%

2020年中国游戏市场规模或将突破三千亿元

近年来,我国移动网民用户规模的持续扩大,移动游戏产品选择丰富度不断提升,我国移动游戏行业快速发展,已....
的头像 牵手一起梦 发表于 02-19 15:00 402次 阅读
2020年中国游戏市场规模或将突破三千亿元

央视曝日本汽车零部件巨头数据造假长达20年

继电装燃油泵熄火门、高田缺陷气囊召回门后,日本零部件厂商再曝产品数据造假。
的头像 如意 发表于 02-19 11:56 308次 阅读
央视曝日本汽车零部件巨头数据造假长达20年

NVDIMM-P非易失内存标准正式公布

我们知道,传统的DDR DIMM内存是易失性的,也就是必须维持通电才能保持数据,一旦断电就都没了。
的头像 如意 发表于 02-19 10:18 140次 阅读
NVDIMM-P非易失内存标准正式公布

NVDIMM-P非易失内存标准公布:断电不丢数据、兼容DDR4

我们知道,传统的DDR DIMM内存是易失性的,也就是必须维持通电才能保持数据,一旦断电就都没了。 ....
的头像 工程师邓生 发表于 02-19 10:04 171次 阅读
NVDIMM-P非易失内存标准公布:断电不丢数据、兼容DDR4

总线/数据/地址/指令的基本概念

随着技术的迅速发展,计算机已深入地渗透到我们的生活中,许多电子爱好者开始学习知识,但单片机的内容比较抽象,相对电子爱好者...
发表于 02-05 07:48 0次 阅读
总线/数据/地址/指令的基本概念

【年度精选】2020年度top10榜单——嵌入式操作系统论坛问答

本榜单汇总了2020年回复数最多的提问帖,看看是否也是你在学习路上经常遇到的难题,每个帖子都有推荐理由,希望这个榜单能给每位...
发表于 02-03 18:34 1313次 阅读
【年度精选】2020年度top10榜单——嵌入式操作系统论坛问答

PYNQ框架下如何快速完成3D数据重建

  3D视觉数据与我们的生活已经密不可分,在无人机测绘、实时摄影测量、AR/VR等领域有许多应用。视频的实时处理需要大量的...
发表于 01-07 17:25 101次 阅读
PYNQ框架下如何快速完成3D数据重建

如何同时保存日期,时间与数据到数组?

背景: 硬件ADC,串口通信,发送特定字符串后进行应答 思路:使用循环+延时方式定时采集数据,字符串转成数值,保存到数组,...
发表于 12-26 15:20 1714次 阅读
如何同时保存日期,时间与数据到数组?

配置数据Flash大小与APROM共享

可配置数据Flash大小、地址和APROM之间的关系是什么? ...
发表于 12-15 06:38 101次 阅读
配置数据Flash大小与APROM共享

单片机可以一秒钟处理 25KB 的数据吗?

    大家好,小弟是刚入单片机这个行业。(之前一直是基于 Linux ARM 开发).     目前我们一个产品是...
发表于 11-15 10:52 507次 阅读
单片机可以一秒钟处理 25KB 的数据吗?

求Djangomodels存储json格式的数据?

Djangomodels存储json格式的数据
发表于 11-06 06:25 303次 阅读
求Djangomodels存储json格式的数据?

如何建立AVRPS/2硬件中断控制程序?

建立操作PC键盘的示例程序(硬件中断读取PS/2接收到的数据) ...
发表于 11-05 06:40 101次 阅读
如何建立AVRPS/2硬件中断控制程序?

iiC I2C单个位单个位发送数据原理

2C发送时,一个字节8位,需一位一位的发送,那么一个字节8位,如何单个单个发送呢单片机中c语言“右移>>和左移...
发表于 10-17 09:26 202次 阅读
iiC  I2C单个位单个位发送数据原理