0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

近五年来中文电子病历的命名实体识别研究进展

深度学习自然语言处理 来源:python遇见NLP 2020-08-27 17:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

阅读综述性论文是一种能够快速了解某一领域的方法,接下来通过今年的一篇综述性论文来了解一下近五年来中文电子病历的命名实体识别研究进展。

基本的,我们应该先来了解一下两个概念:电子病历和命名实体识别。

电子病历(Electronic Medical Record,EMR)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的数字化信息, 并能实现存储、管理、传输和重现的医疗记录。电子病历中的文本内容是医务人员按照《病历书写基本规范》和《电子病历基本规范(试行)》中相关书写规定,围绕患者医疗需求与服务活动而记录的描述性文本内容。

命名实体识别(Named Entity Recognition,NER)是指识别自由文本中具有特定意义的实体,如人名、地名、专有名词等。与通用领域的命名实体不同,电子病历中的命名实体通常有疾病、症状、治疗等实体。

有了上述两个概念的了解后,接下来我们就可以来了解中文电子病历命名实体识别的任务,它包括:

①电子病历数据的获取与匿名化处理;

②明确命名实体种类,进行语料标注;

③构建模型进行实体识别;

④结果评价及优化。

以电子病历中现病史章节为例,中文电子病历命名实体识别研究任务流程如图1所示:

从上述四个任务出发,我们继续进行探讨。

1

电子病历数据集的获取

中文电子病历数据的获取途径通常包括:

①与医院建立合作关系,如曲春燕等通过与某医科大学附属医院建立合作关系获取到该院35个大科室、87个小科室的992份电子病历。同时,相关医务人员也全程参与数据标注,为数据集的质量提供了保障。

②开放获取的学术评测语料,如CCKS2020学术评测任务三开放了用于命名实体识别评测任务的已标注匿名化电子病历1500份和未标注的电子病历1000份,在电子病历语料资源匮乏的现状下,全国知识图谱与语义计算大 会无疑为行业发展作出了巨大贡献。 ③网络发布的电子病历资源。 当前,大多数研究采用第1种方式获取电子病历的研究数据,并邀请医务人员参与语料数据的标注工作;而第2、3种获取方式具有很大的不确定性,并且电子病历的数据标注工作过程控制和质量控制均存在不确定性。

2

数据标注的相关工作

曲春燕等参照i2b2 2010的标注规范制定了中文电子病历的标注规范,进而在两名临床医生的全程参与下,对病历文本分为前后共计4轮标注,并进行了一致性检验。杨锦锋等在曲春燕等人的工作基础上,对相同的病历文本资源,进行了命名实体和实体关系的标注语料构建工作。He等在曲春燕、杨锦锋等人的工作基础上,新增了电子病历文本的分词、词性标注、断言、关系抽取等自然语言处理常见任务的语料标注工作,并对标注结果进行了一致性检验。 上述学者的延续性标注工作,对今后研究的语料标注工作具有一定的指导意义。然而,与临床医生长期从事语料建设和维护的难以实现。一方面,临床医生用于语料标注的时间有限;另一方面,邀请临床医生标注语料成本更高。因此,医学数据标注团队建设和专业人员培养的可行性值得探讨。

3

主要的命名实体识别算法模型

中文命名实体识别的主要研究算法为条件随机场(CRF)和双向长短期记忆网络模型条件随机场(Bi-LSTM-CRF)。 Liu等设计不同特征模板和上下文窗口进行条件随机场的学习训练,进行模型实体识别效率的比对分析,以寻找最佳的电子病历特征模板和上下文窗口。Liu等在i2b2 2010,2012和2014语料上实验对比了Bi-LSTM-CRF与传统的CRF实体识别算法的性能,结果表明Bi-LSTM-CRF性能较好。CCKS 2017学术评测任务二:面向电子病历的命名实体识别,共收录了7篇论文,研究内容和测评结果等见表1。总体上看,7篇论文均有对Bi-LSTM-CRF(或Bi-LSTM)算法模型的实现;均采用“字粒度”模型使用word2vec工具将输入文本特征向量化表示。Zhang等利用CCKS 2017开放的电子病历语料,分别采用CRFs和Bi-LSTM-CRF两种统计机器学习算法从电子病历数据集中识别疾病、身体部位和治疗等信息,并对两种方法进行了对比分析,发现后者性能较好。Qiu等为提高循环神经网络模型的训练速度,提出了残差卷积神经网络条件随机场模型(RD-CNN-CRF)在CCKS 2017开放测试语料上获得了较Bi-LSTM-CRF更高的训练速度和F1值。CCKS 2018学术评测任务一:面向中文电子病历的命名实体识别,共收录论文2篇,分别是Yang等将词嵌套、词性、偏旁部首、拼音、词典和规则特征作为条件随机场(CRFs)的学习特征,实验F1值为89.26%;Luo等基于多特征(如标点符号、分词和词典等特征)融合,整合CNN-CRF, Bi-LSTM-CRF, Bi-LSTM-CNN-CRF, Bi-LSTM+CNN-CRF和Lattice LSTM五种神经网络模型,实验F1值最高达到了88.63%(表1)。

4

结果评价及优化

随着中文电子病历命名实体识别的研究逐步深入以及相关算法框架的逐渐成熟,基于中文电子病历的命名实体识别算法构成了临床电子病历系统、专病科研数据提取、临床辅助决策系统的重要组成部分。 电子病历命名实体识别结果评价指标说明如下图:

袁冬生为解决出院小结文档中普遍存在的信息不准确、无效信息、信息缺失等问题,设计开发了一套基于命名实体识别的出院小结错误检测系统。李山为提高住院病历录入的交互性和可操作性,降低书写的繁杂度,减轻医生负荷,提高工作效率,使用条件随机场算法,进行电子病历命名实体识别,提取病历中重要的诊疗信息,并将其应用在住院病历录入辅助中,以优化和改善病历录入方式。Su等则基于中文电子病历命名实体标注规范构建了一个可用于识别心血管疾病危险因素的语料库。

展望

.....

针对电子病历的语义特征的量化分析与研究,对于提升算法特征工程质量有积极意义;近两年来,针对电子病历语料标注的成本问题,很多研究聚焦于半监督和无监督的算法来实现基于少量标注语料或完全基于非标注原始语料进行实体识别,是一个重要的研究方向。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电子病历
    +关注

    关注

    1

    文章

    61

    浏览量

    20527
  • 数字化
    +关注

    关注

    8

    文章

    10310

    浏览量

    66538
  • 识别
    +关注

    关注

    3

    文章

    175

    浏览量

    32510

原文标题:【NER综述】近五年中文电子病历命名实体识别研究进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    多光谱图像颜色特征用于茶叶分类的研究进展

    多光谱成像技术结合颜色特征分析为茶叶分类提供了高效、非破坏性的解决方案。本文系统综述了该技术的原理、方法、应用案例及挑战,探讨了其在茶叶品质分级、品种识别和产地溯源中的研究进展,并展望了未来发展方向
    的头像 发表于 10-17 17:09 400次阅读
    多光谱图像颜色特征用于茶叶分类的<b class='flag-5'>研究进展</b>

    高光谱成像在作物长势监测和产量预估的研究进展

    参数的非接触式、高精度监测。近年来,随着遥感技术和人工智能算法的发展,高光谱成像系统 (SKY机载高光谱相机+中达瑞和 云平台) 已成为作物长势监测和产量预估的重要工具。本文系统梳理该技术的原理、应用进展,为相关研究提供参考。
    的头像 发表于 10-16 16:31 375次阅读
    高光谱成像在作物长势监测和产量预估的<b class='flag-5'>研究进展</b>

    高光谱成像在作物病虫害监测的研究进展

    特性会发生显著变化,例如: 叶绿素含量下降 :导致可见光波段(400-700 nm)反射率异常 细胞结构破坏 :引起红外波段(700-1300 nm)散射特征改变 水分与糖分异常 :影响短波红外波段(1300-2500 nm)吸收峰分布 研究进展与关键技术突破 (一)光
    的头像 发表于 10-16 15:53 319次阅读
    高光谱成像在作物病虫害监测的<b class='flag-5'>研究进展</b>

    语音识别---大家怎么看呢?

    语音识别是一门交叉学科。二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10内,语音
    发表于 08-09 10:54

    微双重驱动的新型直线电机研究

    摘罢:大行程、高精度,同时易于小型化的移动机构是先进制造业等领域要解决的关键问题之一,综述了现有宏/微双重驱动机构和直线超声电机的研究进展和存在问题,提出了一种宏微双重驱动新型直线压电电机,使其既能
    发表于 06-24 14:17

    氧化镓射频器件研究进展

    ,首先介绍了 Ga2O3在射频器件领域的优势和面临的挑战,然后综述了近年来 Ga2O3射频器件在体掺杂沟道、AlGaO/Ga2O3调制 掺杂异质结以及与高导热衬底异质集成方面取得的进展,并对研究结果进行了讨论,最后展望了未来 G
    的头像 发表于 06-11 14:30 1944次阅读
    氧化镓射频器件<b class='flag-5'>研究进展</b>

    多光谱图像技术在苗期作物与杂草识别中的研究进展

    目前,田间杂草的识别方法主要有3种:人工识别法、遥感识别法和基于机器视觉的识别法,其中,人工识别法是世界上大多数国家和地区普遍沿用的方法,是
    的头像 发表于 06-10 18:13 277次阅读

    汽车焊接机器人的智能控制系统研究进展

    效率、保证焊接质量具有重要意义。近年来,随着人工智能、大数据、物联网等技术的发展,汽车焊接机器人的智能控制系统的研究取得了显著进展,为汽车制造业带来了新的变革。
    的头像 发表于 02-26 14:09 710次阅读

    香港科技大学陈敬课题组揭示GaN与SiC材料的最新研究进展

    基于宽禁带半导体氮化镓,碳化硅的最新研究进展研究成果覆盖功率器件技术和新型器件技术: 高速且具备优越开关速度控制能力的3D堆叠式GaN/SiC cascode 功率器件 多年来,商业SiC
    的头像 发表于 02-19 11:23 1234次阅读
    香港科技大学陈敬课题组揭示GaN与SiC材料的最新<b class='flag-5'>研究进展</b>

    二极管泵浦高能激光的研究进展(1)

    质量这一总目标发展迅速。详细综述了国内外高平均功率块状固体激光、高功率可见光波段激光、高峰值功率激光、高功率光纤激光、碱金属蒸气激光等二极管泵浦高能激光的研究进展,并对其发展趋势进行了展望。
    的头像 发表于 02-18 15:46 867次阅读
    二极管泵浦高能激光的<b class='flag-5'>研究进展</b>(1)

    电磁屏蔽高分子材料的最新研究动态与进展

                              电磁屏蔽高分子材料 研究进展   高分子物理 目前,国家对太空环境的研究高度重视。其中木星探测面临极端辐射环境,传统屏蔽材料难以满足要求,需研发
    的头像 发表于 02-18 14:13 1472次阅读
    电磁屏蔽高分子材料的最新<b class='flag-5'>研究</b>动态与<b class='flag-5'>进展</b>

    石墨烯铅蓄电池研究进展、优势、挑战及未来方向

    石墨烯铅蓄电池是将石墨烯材料与传统铅酸电池技术相结合的研究方向,旨在提升铅酸电池的性能(如能量密度、循环寿命、快充能力等)。以下是该领域的研究进展、优势、挑战及未来方向: 一、石墨烯在铅蓄电池
    的头像 发表于 02-13 09:36 2716次阅读

    中山大学:在柔性触觉传感电子皮肤研究进展

    研究内容】     中山大学衣芳教授团队在" 科学通报"期刊上发表了题为“ 柔性触觉传感电子皮肤研究进展”的最新论文。本文主要综述了近年来柔性触觉传感
    的头像 发表于 02-12 17:03 1665次阅读
    中山大学:在柔性触觉传感<b class='flag-5'>电子</b>皮肤<b class='flag-5'>研究进展</b>

    iPhone 17设计图曝光,或迎年来最大变革

    近期,社交平台X上流传的一组疑似iPhone 17的工业设计图,瞬间引发了广泛关注和热烈讨论。这组设计图不仅吸引了众多科技爱好者的目光,更揭示了苹果可能正在酝酿一场年来最具颠覆性的设计调整
    的头像 发表于 02-10 09:30 1340次阅读

    定向石墨烯复合防腐涂层的研究进展

      近年来,由于石墨烯(Gr)制备技术的不断发展[1-2],石墨烯的生产成本逐渐降低,这使其在有机防腐涂层领域的应用成为了可能。研究人员在石墨烯复合防腐涂层的制备技术、修饰方法等方面开 展了大量
    的头像 发表于 12-17 17:31 1944次阅读
    定向石墨烯复合防腐涂层的<b class='flag-5'>研究进展</b>