0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

近五年来中文电子病历的命名实体识别研究进展

深度学习自然语言处理 来源:python遇见NLP 2020-08-27 17:56 次阅读

阅读综述性论文是一种能够快速了解某一领域的方法,接下来通过今年的一篇综述性论文来了解一下近五年来中文电子病历的命名实体识别研究进展。

基本的,我们应该先来了解一下两个概念:电子病历和命名实体识别。

电子病历(Electronic Medical Record,EMR)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的数字化信息, 并能实现存储、管理、传输和重现的医疗记录。电子病历中的文本内容是医务人员按照《病历书写基本规范》和《电子病历基本规范(试行)》中相关书写规定,围绕患者医疗需求与服务活动而记录的描述性文本内容。

命名实体识别(Named Entity Recognition,NER)是指识别自由文本中具有特定意义的实体,如人名、地名、专有名词等。与通用领域的命名实体不同,电子病历中的命名实体通常有疾病、症状、治疗等实体。

有了上述两个概念的了解后,接下来我们就可以来了解中文电子病历命名实体识别的任务,它包括:

①电子病历数据的获取与匿名化处理;

②明确命名实体种类,进行语料标注;

③构建模型进行实体识别;

④结果评价及优化。

以电子病历中现病史章节为例,中文电子病历命名实体识别研究任务流程如图1所示:

从上述四个任务出发,我们继续进行探讨。

1

电子病历数据集的获取

中文电子病历数据的获取途径通常包括:

①与医院建立合作关系,如曲春燕等通过与某医科大学附属医院建立合作关系获取到该院35个大科室、87个小科室的992份电子病历。同时,相关医务人员也全程参与数据标注,为数据集的质量提供了保障。

②开放获取的学术评测语料,如CCKS2020学术评测任务三开放了用于命名实体识别评测任务的已标注匿名化电子病历1500份和未标注的电子病历1000份,在电子病历语料资源匮乏的现状下,全国知识图谱与语义计算大 会无疑为行业发展作出了巨大贡献。 ③网络发布的电子病历资源。 当前,大多数研究采用第1种方式获取电子病历的研究数据,并邀请医务人员参与语料数据的标注工作;而第2、3种获取方式具有很大的不确定性,并且电子病历的数据标注工作过程控制和质量控制均存在不确定性。

2

数据标注的相关工作

曲春燕等参照i2b2 2010的标注规范制定了中文电子病历的标注规范,进而在两名临床医生的全程参与下,对病历文本分为前后共计4轮标注,并进行了一致性检验。杨锦锋等在曲春燕等人的工作基础上,对相同的病历文本资源,进行了命名实体和实体关系的标注语料构建工作。He等在曲春燕、杨锦锋等人的工作基础上,新增了电子病历文本的分词、词性标注、断言、关系抽取等自然语言处理常见任务的语料标注工作,并对标注结果进行了一致性检验。 上述学者的延续性标注工作,对今后研究的语料标注工作具有一定的指导意义。然而,与临床医生长期从事语料建设和维护的难以实现。一方面,临床医生用于语料标注的时间有限;另一方面,邀请临床医生标注语料成本更高。因此,医学数据标注团队建设和专业人员培养的可行性值得探讨。

3

主要的命名实体识别算法模型

中文命名实体识别的主要研究算法为条件随机场(CRF)和双向长短期记忆网络模型条件随机场(Bi-LSTM-CRF)。 Liu等设计不同特征模板和上下文窗口进行条件随机场的学习训练,进行模型实体识别效率的比对分析,以寻找最佳的电子病历特征模板和上下文窗口。Liu等在i2b2 2010,2012和2014语料上实验对比了Bi-LSTM-CRF与传统的CRF实体识别算法的性能,结果表明Bi-LSTM-CRF性能较好。CCKS 2017学术评测任务二:面向电子病历的命名实体识别,共收录了7篇论文,研究内容和测评结果等见表1。总体上看,7篇论文均有对Bi-LSTM-CRF(或Bi-LSTM)算法模型的实现;均采用“字粒度”模型使用word2vec工具将输入文本特征向量化表示。Zhang等利用CCKS 2017开放的电子病历语料,分别采用CRFs和Bi-LSTM-CRF两种统计机器学习算法从电子病历数据集中识别疾病、身体部位和治疗等信息,并对两种方法进行了对比分析,发现后者性能较好。Qiu等为提高循环神经网络模型的训练速度,提出了残差卷积神经网络条件随机场模型(RD-CNN-CRF)在CCKS 2017开放测试语料上获得了较Bi-LSTM-CRF更高的训练速度和F1值。CCKS 2018学术评测任务一:面向中文电子病历的命名实体识别,共收录论文2篇,分别是Yang等将词嵌套、词性、偏旁部首、拼音、词典和规则特征作为条件随机场(CRFs)的学习特征,实验F1值为89.26%;Luo等基于多特征(如标点符号、分词和词典等特征)融合,整合CNN-CRF, Bi-LSTM-CRF, Bi-LSTM-CNN-CRF, Bi-LSTM+CNN-CRF和Lattice LSTM五种神经网络模型,实验F1值最高达到了88.63%(表1)。

4

结果评价及优化

随着中文电子病历命名实体识别的研究逐步深入以及相关算法框架的逐渐成熟,基于中文电子病历的命名实体识别算法构成了临床电子病历系统、专病科研数据提取、临床辅助决策系统的重要组成部分。 电子病历命名实体识别结果评价指标说明如下图:

袁冬生为解决出院小结文档中普遍存在的信息不准确、无效信息、信息缺失等问题,设计开发了一套基于命名实体识别的出院小结错误检测系统。李山为提高住院病历录入的交互性和可操作性,降低书写的繁杂度,减轻医生负荷,提高工作效率,使用条件随机场算法,进行电子病历命名实体识别,提取病历中重要的诊疗信息,并将其应用在住院病历录入辅助中,以优化和改善病历录入方式。Su等则基于中文电子病历命名实体标注规范构建了一个可用于识别心血管疾病危险因素的语料库。

展望

.....

针对电子病历的语义特征的量化分析与研究,对于提升算法特征工程质量有积极意义;近两年来,针对电子病历语料标注的成本问题,很多研究聚焦于半监督和无监督的算法来实现基于少量标注语料或完全基于非标注原始语料进行实体识别,是一个重要的研究方向。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电子病历
    +关注

    关注

    1

    文章

    61

    浏览量

    20045
  • 数字化
    +关注

    关注

    8

    文章

    7713

    浏览量

    60888
  • 识别
    +关注

    关注

    3

    文章

    170

    浏览量

    31861

原文标题:【NER综述】近五年中文电子病历命名实体识别研究进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    用于先进电生理记录的有源微纳协同生物电子器件研究进展综述

    开发精确灵敏的电生理记录平台对心脏病学和神经科学领域的研究至关重要。近年来,有源微纳生物电子器件取得了重大进展,从而促进了电生理学的研究
    的头像 发表于 04-16 10:55 168次阅读
    用于先进电生理记录的有源微纳协同生物<b class='flag-5'>电子</b>器件<b class='flag-5'>研究进展</b>综述

    综述:高性能锑化物中红外半导体激光器研究进展

    据麦姆斯咨询报道,近期,由中国科学院半导体研究所和中国科学院大学组成的科研团队受邀在《激光技术》期刊上发表了以“高性能锑化物中红外半导体激光器研究进展”为主题的文章。该文章第一作者为曹钧天,通讯作者为杨成奥和牛智川研究员。
    的头像 发表于 04-13 12:08 870次阅读
    综述:高性能锑化物中红外半导体激光器<b class='flag-5'>研究进展</b>

    2023年度中国半导体十大研究进展出炉,一项传感器技术入榜(附全名单)

    来源:《半导体学报》   2月5日,《半导体学报》发布2023年度“中国半导体十大研究进展”名单,其中,一项传感技术入选。   由中国科学院上海技术物理研究所红外科学与技术重点实验室胡伟达、苗金水
    的头像 发表于 02-20 08:37 61次阅读
    2023年度中国半导体十大<b class='flag-5'>研究进展</b>出炉,一项传感器技术入榜(附全名单)

    综述:基于二维材料的气体传感器研究进展

    )、MXenes等。由于二维材料具有纳米尺寸的层状结构、优异的半导体性能、大比表面积,因此,在气体传感器领域具有其它材料不可比拟的优势。 据麦姆斯咨询报道,针对二维气敏材料及其复合材料在气体传感器领域的研究进展,杭州电子科技大学和西安微
    的头像 发表于 11-23 09:13 301次阅读

    基于二维材料的气体传感器研究进展

    、优异的半导体性能、大比表面积,因此,在气体传感器领域具有其它材料不可比拟的优势。 据麦姆斯咨询报道,针对二维气敏材料及其复合材料在气体传感器领域的研究进展,杭州电子科技大学和西安微电子技术研究所的
    的头像 发表于 11-10 09:11 326次阅读
    基于二维材料的气体传感器<b class='flag-5'>研究进展</b>

    先进激光雷达探测技术研究进展

    电子发烧友网站提供《先进激光雷达探测技术研究进展.pdf》资料免费下载
    发表于 10-31 11:10 0次下载
    先进激光雷达探测技术<b class='flag-5'>研究进展</b>

    偏振三维成像技术的原理和研究进展

    目标表面镜面反射光与漫反射光间的相互干扰,造成高精度偏振三维成像实现困难。该综述介绍了偏振三维成像物理机理、目标表面出射光偏振特性,以及偏振三维成像研究进展。最后总结了目前偏振三维成像面临的问题和未来的发展方向。
    的头像 发表于 10-26 09:50 404次阅读
    偏振三维成像技术的原理和<b class='flag-5'>研究进展</b>

    先进封装中硅通孔(TSV)铜互连电镀研究进展

    先进封装中硅通孔(TSV)铜互连电镀研究进展
    的头像 发表于 09-06 11:16 591次阅读
    先进封装中硅通孔(TSV)铜互连电镀<b class='flag-5'>研究进展</b>

    面部表情识别技术的最新研究进展

    面部表情识别技术是人工智能领域的研究热点之一,对于揭示情感状态和心理状况具有重要意义。本文将介绍面部表情识别技术的最新研究进展,包括深度学习、多模态融合、微表情
    的头像 发表于 08-21 17:58 676次阅读

    量子计算关键技术研究进展

    量子计算具备可能超越经典计算的潜在能力,近年来在技术研究、应用探索及产业生态培育等方面取得诸多进展,整体发展进入快车道,已成为全球多国科研布局与投资热点。重点梳理分析量子计算关键技术研究进展
    的头像 发表于 08-08 11:32 927次阅读
    量子计算关键技术<b class='flag-5'>研究进展</b>

    超结IGBT的结构特点及研究进展

    超结IGBT的结构特点及研究进展
    发表于 08-08 10:11 0次下载

    命名实体识别技术(2)#计算思维与人工智能

    人工智能
    未来加油dz
    发布于 :2023年07月31日 20:35:43

    Java电子病历编辑器源码,B/S电子病历编辑器源码

    B/S电子病历编辑器源码:电子病历编辑器,简称EMRE(EMR Editor),是电子病历系统的
    的头像 发表于 06-01 16:25 704次阅读
    Java<b class='flag-5'>电子</b><b class='flag-5'>病历</b>编辑器源码,B/S<b class='flag-5'>电子</b><b class='flag-5'>病历</b>编辑器源码

    高速可见光通信的前沿研究进展

    对可见光通信的前沿研究进行了综述,阐述了其研究背景和基础系统架构,围绕材料器件、高速系统、异构网络、水下可见光通信和机器学习等个前沿研究方向展开了对可见光通信
    发表于 05-17 15:14

    基于AT89C51单片机用DS1302与12864LCD设计中文电子日历

    基于AT89C51单片机用DS1302与12864LCD设计的可调式中文电子日历Proteus仿真及程序
    发表于 05-04 15:34 5次下载