0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP中文自然语言处理数据集、平台和工具整理

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-11-05 09:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

资源整理了文本分类、实体识别&词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、中文完形填空等大量数据集,中文数据集平台和NLP工具等。

本文内容整理自:https://github.com/InsaneLife/ChineseNLPCorpus

文本分类

新闻分类

今日头条中文新闻(短文本)分类数据集:https://github.com/fateleak/toutiao-text-classfication-dataset

数据规模:共38万条,分布于15个分类中。

采集时间:2018年05月。

以0.7 0.15 0.15做分割 。

清华新闻分类语料:

根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。

数据量:74万篇新闻文档(2.19 GB)

小数据实验可以筛选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn实验:https://github.com/gaussic/text-classification-cnn-rnn

中科大新闻分类语料库:http://www.nlpir.org/?action-viewnews-itemid-145

情感/观点/评论 倾向性分析

实体识别&词性标注

微博实体识别

https://github.com/hltcoe/golden-horse

boson数据

包含6种实体类型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日报数据集

人名、地名、组织名三种实体类型

1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3

MSRA微软亚洲研究院数据集

5 万多条中文命名实体识别标注数据(包括地点、机构、人物)

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU :http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手机搜索排序

OPPO手机搜索排序query-title语义匹配数据集。

链接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码:7p3n

网页搜索结果评价(SogouE)

用户查询及相关URL列表

https://www.sogou.com/labs/resource/e.php

推荐系统

百科数据

维基百科

维基百科会定时将语料库打包发布:

数据处理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬,爬取得链接:https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs 。

指代消歧

CoNLL 2012 :http://conll.cemantix.org/2012/data.html

预训练:(词向量or模型)

BERT

开源代码:https://github.com/google-research/bert

模型下载:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

开源代码:https://github.com/allenai/bilm-tf

预训练的模型:https://allennlp.org/elmo

腾讯词向量

腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。

下载地址:https://ai.tencent.com/ailab/nlp/embedding.html

上百种预训练中文词向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空数据集

https://github.com/ymcui/Chinese-RC-Dataset

中华古诗词数据库

最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

https://github.com/chinese-poetry/chinese-poetry

保险行业语料库

https://github.com/Samurais/insuranceqa-corpus-zh

汉语拆字字典

英文可以做char embedding,中文不妨可以试试拆字

https://github.com/kfcd/chaizi

中文数据集平台

搜狗实验室

搜狗实验室提供了一些高质量的中文文本数据集,时间比较早,多为2012年以前的数据。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然语言处理与信息检索共享平台

http://www.nlpir.org/?action-category-catid-28

中文语料小数据

包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

https://github.com/crownpku/Small-Chinese-Corpus

维基百科数据集

https://dumps.wikimedia.org/

NLP工具

THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。

HanLP:https://github.com/hankcs/HanLP

哈工大LTP:https://github.com/HIT-SCIR/ltp

NLPIR:https://github.com/NLPIR-team/NLPIR

jieba分词:https://github.com/yanyiwu/cppjieba

责任编辑:xj

原文标题:最全中文自然语言处理数据集、平台和工具整理

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93968
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13917
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23190

原文标题:最全中文自然语言处理数据集、平台和工具整理

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(
    的头像 发表于 11-10 17:30 513次阅读
    云知声论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会EMNLP 2025

    HarmonyOSAI编程自然语言代码生成

    安装CodeGenie后,在下方对话框内,输入代码需求描述,将根据描述智能生成代码,生成内容可一键复制或一键插入至编辑区当前光标位置。 提问示例 使用ArkTs语言写一段代码,在页面中间部分
    发表于 09-05 16:58

    小白学大模型:国外主流大模型汇总

    数据科学AttentionIsAllYouNeed(2017)https://arxiv.org/abs/1706.03762由GoogleBrain的团队撰写,它彻底改变了自然语言处理NL
    的头像 发表于 08-27 14:06 665次阅读
    小白学大模型:国外主流大模型汇总

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    引言:为什么需要 “自然语言控板”? 痛点引入 :嵌入式开发中,开发者常需通过 SSH 等工具登录开发板,手动输入复杂的 Linux 命令(如ls -l、gpio readall、ifconfig等
    发表于 08-23 13:10

    云训练平台数据过大无法下载数据至本地怎么解决?

    起因是现在平台限制了图片数量,想要本地训练下载数据时发现只会跳出网络异常的错误,请问这有什么解决办法?
    发表于 07-22 06:03

    各大厂商与新兴企业推出的 EDA Copilot 工具

    当前EDA(电子设计自动化)领域正经历AI驱动的智能化转型,各大厂商与新兴企业推出的EDA Copilot工具通过自然语言交互、自动化设计优化等技术,显著提升芯片设计效率。以下是基于最新行业
    的头像 发表于 06-06 09:34 1760次阅读

    云知声四篇论文入选自然语言处理顶会ACL 2025

    近日,第63届国际计算语言学年会ACL 2025(Annual Meeting of the Association for Computational Linguistics,简称ACL)论文接收
    的头像 发表于 05-26 14:15 1042次阅读
    云知声四篇论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会ACL 2025

    自然语言提示原型在英特尔Vision大会上首次亮相

    在英特尔Vision大会上,Network Optix首次展示了自然语言提示原型,该方案将重新定义视频管理,为各行各业由AI驱动的洞察和效率提速。
    的头像 发表于 04-09 09:30 788次阅读

    《AI Agent 应用与项目实战》----- 学习如何开发视频应用

    学习、自然语言处理NLP)、计算机视觉(CV)等先进技术提供的强大的数据处理和分析能力。 在视频应用开发中,AI Agent可以用于视频内容分析、推荐、编辑等。 下面跟随作者的指导,
    发表于 03-05 19:52

    中服云工业物联网平台引入DeepSeek,全方位提升智能化能力

    工智能技术 DeepSeek,全力开启智能化升级的全新征程。 DeepSeek 以其卓越的自然语言处理能力和深度学习算法,在人工智能领域备受关注。它能够理解并生成自然语言,通过对海量数据
    的头像 发表于 03-04 14:19 499次阅读

    AI商业应用平台的特点

    AI商业应用平台集成了自然语言处理、机器学习、深度学习等前沿的人工智能技术。以下,是对AI商业应用平台特点的整理,由AI部落小编
    的头像 发表于 02-22 09:58 874次阅读

    #新年新气象,大家新年快乐!#AIGC入门及鸿蒙入门

    Generated Content,即人工智能生成内容。它利用人工智能技术自动生成或辅助生成文本、图像、音频、视频等内容。 AIGC的核心技术包括自然语言处理NLP)、计算机视觉、生成对抗网络(GAN)等
    发表于 01-13 10:46

    AIGC入门及鸿蒙入门

    Generated Content,即人工智能生成内容。它利用人工智能技术自动生成或辅助生成文本、图像、音频、视频等内容。 AIGC的核心技术包括自然语言处理NLP)、计算机视觉、生成对抗网络(GAN)等
    发表于 01-13 10:32

    云原生LLMOps平台作用

    云原生LLMOps平台是一种基于云计算基础设施和开发工具,专门用于构建、部署和管理大型语言模型(LLM)全生命周期的平台。以下,是对云原生LLMOps
    的头像 发表于 01-06 10:21 708次阅读

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    01. 工具介绍 aicode.llmworld.net 问丫·码语翻译侠 是一款由LLMWorld新推出的代码翻译工具,支持各种语言之间的翻译,包括计算机语言
    的头像 发表于 12-09 11:11 1602次阅读
    LLMWorld上线代码翻译新<b class='flag-5'>工具</b>——问丫·码语翻译侠,快来体验!