0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

整理了一波关于医疗NLP的数据集

深度学习自然语言处理 来源:python遇见NLP 作者:python遇见NLP 2020-10-10 10:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在Github上搜索整理了一波关于医疗NLP的数据集:

1

中文评测数据集

1. Yidu-S4K:医渡云结构化4K数据集

2.瑞金医院糖尿病数据集

3.Yidu-N7K:医渡云标准化7K数据集

4.中文医学问答数据集

5.平安医疗科技疾病问答迁移学习比赛

6.天池新冠肺炎问句匹配比赛

7.中文医患问答对话数据

8.中文医学问答数据

9.CHIP2020各项评测已开放

10.医学数据挖掘与算法评测大赛

中文医学知识图谱

CMeKG

英文数据集

PubMedQA: A Dataset for Biomedical Research Question Answering

中文医疗领域语料

医学教材 培训考试

哈工大《大词林》开放75万核心实体词及相关概念、关系列表(包含中药/医院/生物 类别)

医学embedding

开源英文医学embedding

链接:https://github.com/lrs1353281004/Chinese_medical_NLP

2

医疗行业专业词汇语料

说明 数量 文件
口腔科病历词汇 11,170 stomatology.txt
国际疾病分类ICD全库 54,304 ICD.csv
疾病诊断编码库ICD-10 12109 ICD-code-10.csv
医院固定资产词汇 471 properties.txt
药品名称词汇 37,308 medicine.txt
电子病历常见词汇 1985 emr.txt

链接:https://github.com/xtea/chinese_medical_words

3

中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/etc

术语集/语料库

medical-news中文医学新闻爬虫

medical-books中文LaTex开源医学书籍

THUOCL清华大学thunlp组医学词汇

ICD-10-CNICD-10中文对应

OMAHA七巧板医学术语集样例数据

中文糖尿病标注数据集包含实体标注和关系标注

词向量/预训练模型

ChineseEHRBert 中文电子病历预训练Bert;用Bert测试命名实体识别,问答模型,关系提取任务

分词

PKUSEGPKUSEG分词工具,模型支持选择医学

知识图谱 / 关系提取

cMeKGChinese Medical Knowledge Graph

瑞金医院人工智能辅助构建知识图谱大赛糖尿病相关的学术论文以及糖尿病临床指南的实体标注和抽取实体关系任务

OMAHA知识图谱(药品适应症)开放医疗与健康联盟(Open Medical and Healthcare Alliance,OMAHA)构建的药品与药品适应证的知识图谱数据

医疗知识图谱数据医疗知识图谱数据(ownthink)

病人事件图谱数据集病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。

中文症状库这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。

中医医案知识图谱从医案中抽取临床知识构建知识图谱,帮助用户了解中医特色疗法,以及疾病(如“慢性胃炎”)的临床表现、相关疗法、相关养生保健方法等

herbnet 面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药, 中药化学成分,药理作用,中药实验,化学实验方法在内的中药本体。进而,基于本体实现了一系列数据库的集成,从而构建了一个中药知识图谱。

CHIP2020中文医学文本实体关系抽取

命名实体识别

CCKS2017面向中文电子病历的医疗实体识别及属性抽取数据集

CCKS2018面向中文电子病历的医疗实体识别及属性抽取数据集

CCKS2019数据下载面向中文电子病历的医疗实体识别及属性抽取数据集

CHIP2020中文医学文本命名实体识别

CHIP2020中药说明书实体识别

QA

CCIR2019CCIR 2019 基于电子病历的数据查询类问答

cMedQA中文医学QA数据集

cMedQA2中文医学QA数据集

CMID中文医学QA意图理解数据集

KGQA基于医药知识图谱的智能问答系统

chatbot-base-on-Knowledge-Graph使用深度学习方法解析问题 知识图谱存储 查询知识点 基于医疗垂直领域的对话系统

中文医疗对话数据集Chinese medical dialogue data 中文医疗对话数据集

webMedQAwebMedQA

MedDialogThe MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.

CHIP2020中医文献问题生成

术语标准化

CHIP2019临床术语标准化任务:医渡云标准化7K数据集

CHIP2020临床术语标准化任务

相似句对判断

“公益AI之星”挑战赛-新冠疫情相似句对判定大赛比赛整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对,要求选手通过自然语言处理技术识别相似的患者问题。

其他

CHIP2018针对中文的真实患者健康咨询语料,进行问句意图匹配

CHIP2019平安医疗科技疾病问答迁移学习比赛

链接:https://github.com/GanjinZero/awesome_Chinese_medical_NLP

4

Data_数据中有6个文件夹分别是:

94596个问答对220606个问答对183751个问答对75553个问答对101602个问答对115991个问答对 总计 792099个问答对

每个文件夹下有一个csv文件,其中的数据格式为:

department title ask answer
心血管科 高血压患者能吃党参吗? 我有高血压这两天女婿来的时候给我拿了些党参泡水喝,您好高血压可以吃党参吗? 高血压病人可以口服党参的。党参有降血脂,降血压的作用,可以彻底消除血液中的垃圾,从而对冠心病以及心血管疾病的患者都有一定的稳定预防工作作用,因此平时口服党参能远离三高的危害。另外党参除了益气养血,降低中枢神经作用,调整消化系统功能,健脾补肺的功能。感谢您的进行咨询,期望我的解释对你有所帮助。
消化科 哪家医院能治胃反流 烧心,打隔,咳嗽低烧,以有4年多 建议你用奥美拉唑同时,加用吗丁啉或莫沙必利或援生力维,另外还可以加用达喜片

链接:https://github.com/Toyhom/Chinese-medical-dialogue-data

5

This dataset is used for Chinese medical QA intent understanding task.

Dataset format:

All the data is stored in a JSON file. There are 5 fields in the file. An example as follows:

{ "originalText": "间质性肺炎的症状?", "entities": [{"label_type": "疾病和诊断", "start_pos": 0, "end_pos": 5}], "seg_result": ["间质性肺炎", "的", "症状", "?"], "label_4class": ["病症"], "label_36class": ["临床表现"] }

链接:https://github.com/liutongyang/CMID

6

This is the dataset for Chinese community medical question answering. The dataset is in version 1.0 and is available for non-commercial research. We will update and expand the database from time to time. In order to protect the privacy, the data is anonymized and no personal information is included.

链接:https://github.com/zhangsheng93/cMedQA

7

COVID19 Language Resources: Datasets

链接:https://github.com/lwgkzl/Covid19-NLP

8

Datasets

BioCreative V chemical-disease relation (CDR) corpus (in short, BC5CDR corpus) (13, 14, 16, 34): It consists of 1,500 PubMed articles with 4,409 annotated chemicals, 5,818 diseases, and 3,116 chemical-disease interactions. The relation task data is publicly available through BioCreative V athttps://biocreative.bioinformatics.udel.edu/resources/corpora/biocreative-v-cdr-corpus/.

Traditional Chinese medicine (TCM) literature corpus (in short, TCM corpus) (32): The abstracts of all 106,150 papers published in the 114 most popular Chinese TCM journals between 2011 to 2016 are collected. 3024 herbs, 4957 formulae, 1126 syndromes, and 1650 diseases are found. 5 types of relations are annotated. The entire dataset is available online athttp://arnetminer.org/TCMRelExtr.

The 2012 informatics for integrating biology and the bedside (i2b2) project temporal relations challenge corpus (in short, i2b2 temporal corpus) (29, 30): It contains 310 de-identified discharge summaries of more than 178,000 tokens, with annotations of clinically significant events, temporal expressions and temporal relations in clinical narratives. On average, each discharge summary in the corpus contains 86.6 events, 12.4 temporal expressions, and 176 raw temporal relations. In this corpus, 8 kinds of temporal relations between events and temporal expressions are defined: BEFORE, AFTER, SIMULTANEOUS, OVERLAP, BEGUN_BY, ENDED_BY, DURING, BEFORE_OVERLAP. The entire annotations are available athttp://i2b2.org/NLP/DataSets.

链接:https://github.com/chentao1999/MedicalRelationExtraction

责任编辑:lq
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 医疗
    +关注

    关注

    8

    文章

    1957

    浏览量

    61145
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26036
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23185

原文标题:医疗NLP相关数据集整理

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    晶科能源Tiger Neo 3.0的问题解答(6)

    关于飞虎3(Tiger Neo3.0)组件,在上周刚刚举行的晶科能源飞虎3量产下线暨全球订购会上,我们看到网友在直播间和官网上都提了些的问题,小编给大家收集整理了一波。这些问题和答案
    的头像 发表于 12-02 18:03 1468次阅读

    干货放送!宏物流运输冲击记录仪直播精选问答集锦,你想知道的都在这

    收到了众多提问,展现了大家对宏物流运输冲击振动监测方案的兴趣和对行业未来的深切关注。为此,我们整理了这些问题并邀请技术工程师解答,梳理出直播Q&A精选版(建议收
    的头像 发表于 09-02 17:03 578次阅读
    干货放送!宏<b class='flag-5'>集</b>物流运输冲击记录仪直播精选问答集锦,你想知道的都在这

    晶科能源Tiger Neo 3.0的问题解答(2)

    关于Tiger Neo 3.0,朋友们关心、询问的话题很多,昨天集中回答了大家提的的10个热点问题,有网友后台留言说自己的问题被选中,今天我们整理了第二。这些问题和答案同步更新至官网。未来,我们将针对大家关心的问题,继续不定期
    的头像 发表于 08-20 14:09 422次阅读

    AIcube1.4目标检测模型导入yolotxt格式数据直显示数据正在解析,为什么?

    AIcube1.4目标检测模型导入yolotxt格式数据直显示数据正在解析 数据有问题,把数据
    发表于 08-13 07:16

    AI Cube如何导入数据

    我从在线平台标注完并且下载了数据,也按照ai cube的要求修改了文件夹名称,但是导入提示 不知道是什么原因,我该怎么办? 以下是我修改后的文件夹目录
    发表于 08-11 08:12

    请问AICube所需的目标检测数据标注可以使用什么工具?

    请问AICube所需的目标检测数据标注可以使用什么工具? 我使用labelimg进行标注,标注后的数据改好文件名后导入不进去。直卡在
    发表于 08-11 08:07

    云训练平台数据过大无法下载数据至本地怎么解决?

    起因是现在平台限制了图片数量,想要本地训练下载数据时发现只会跳出网络异常的错误,请问这有什么解决办法?
    发表于 07-22 06:03

    澳鹏发布MediGo医疗大模型数据开发平台 破解医疗AI数据瓶颈

    上海 2025年6月23日 /美通社/ -- 全球领先的AI数据服务提供商澳鹏Appen(中国)今日正式发布MediGo医疗大模型数据开发平台,这创新性平台旨在解决
    的头像 发表于 06-24 07:26 276次阅读
    澳鹏发布MediGo<b class='flag-5'>医疗</b>大模型<b class='flag-5'>数据</b>开发平台 破解<b class='flag-5'>医疗</b>AI<b class='flag-5'>数据</b>瓶颈

    使用AICube导入数据点创建后提示数据不合法怎么处理?

    重现步骤 data目录下 labels.txt只有英文 **错误日志** 但是使用示例的数据可以完成训练并部署
    发表于 06-24 06:07

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 03-10 08:20

    JCMsuite应用:四分之一波

    是光手性的本征态。因此,近场光手性密度与圆偏振密切相关。在几何光学中,四分之一波板将线偏振转换为圆偏振是众所周知的。它们是由双折射材料制成的,例如各向异性材料。片的厚度是寻常(x-)偏振和非寻常(z-
    发表于 02-21 08:49

    电话配线架怎么整理好看

    要使电话配线架整理得既美观又实用,可以遵循以下步骤和建议: 、前期准备 了解配线架结构: 熟悉电话配线架的类型、结构和功能,确保整理过程中不会对设备造成损害。 断开电源与通信: 在整理
    的头像 发表于 02-19 11:34 924次阅读