0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

近五年来中文电子病历的命名实体识别研究进展

深度学习自然语言处理 来源:python遇见NLP 2020-08-27 17:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

阅读综述性论文是一种能够快速了解某一领域的方法,接下来通过今年的一篇综述性论文来了解一下近五年来中文电子病历的命名实体识别研究进展。

基本的,我们应该先来了解一下两个概念:电子病历和命名实体识别。

电子病历(Electronic Medical Record,EMR)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的数字化信息, 并能实现存储、管理、传输和重现的医疗记录。电子病历中的文本内容是医务人员按照《病历书写基本规范》和《电子病历基本规范(试行)》中相关书写规定,围绕患者医疗需求与服务活动而记录的描述性文本内容。

命名实体识别(Named Entity Recognition,NER)是指识别自由文本中具有特定意义的实体,如人名、地名、专有名词等。与通用领域的命名实体不同,电子病历中的命名实体通常有疾病、症状、治疗等实体。

有了上述两个概念的了解后,接下来我们就可以来了解中文电子病历命名实体识别的任务,它包括:

①电子病历数据的获取与匿名化处理;

②明确命名实体种类,进行语料标注;

③构建模型进行实体识别;

④结果评价及优化。

以电子病历中现病史章节为例,中文电子病历命名实体识别研究任务流程如图1所示:

从上述四个任务出发,我们继续进行探讨。

1

电子病历数据集的获取

中文电子病历数据的获取途径通常包括:

①与医院建立合作关系,如曲春燕等通过与某医科大学附属医院建立合作关系获取到该院35个大科室、87个小科室的992份电子病历。同时,相关医务人员也全程参与数据标注,为数据集的质量提供了保障。

②开放获取的学术评测语料,如CCKS2020学术评测任务三开放了用于命名实体识别评测任务的已标注匿名化电子病历1500份和未标注的电子病历1000份,在电子病历语料资源匮乏的现状下,全国知识图谱与语义计算大 会无疑为行业发展作出了巨大贡献。 ③网络发布的电子病历资源。 当前,大多数研究采用第1种方式获取电子病历的研究数据,并邀请医务人员参与语料数据的标注工作;而第2、3种获取方式具有很大的不确定性,并且电子病历的数据标注工作过程控制和质量控制均存在不确定性。

2

数据标注的相关工作

曲春燕等参照i2b2 2010的标注规范制定了中文电子病历的标注规范,进而在两名临床医生的全程参与下,对病历文本分为前后共计4轮标注,并进行了一致性检验。杨锦锋等在曲春燕等人的工作基础上,对相同的病历文本资源,进行了命名实体和实体关系的标注语料构建工作。He等在曲春燕、杨锦锋等人的工作基础上,新增了电子病历文本的分词、词性标注、断言、关系抽取等自然语言处理常见任务的语料标注工作,并对标注结果进行了一致性检验。 上述学者的延续性标注工作,对今后研究的语料标注工作具有一定的指导意义。然而,与临床医生长期从事语料建设和维护的难以实现。一方面,临床医生用于语料标注的时间有限;另一方面,邀请临床医生标注语料成本更高。因此,医学数据标注团队建设和专业人员培养的可行性值得探讨。

3

主要的命名实体识别算法模型

中文命名实体识别的主要研究算法为条件随机场(CRF)和双向长短期记忆网络模型条件随机场(Bi-LSTM-CRF)。 Liu等设计不同特征模板和上下文窗口进行条件随机场的学习训练,进行模型实体识别效率的比对分析,以寻找最佳的电子病历特征模板和上下文窗口。Liu等在i2b2 2010,2012和2014语料上实验对比了Bi-LSTM-CRF与传统的CRF实体识别算法的性能,结果表明Bi-LSTM-CRF性能较好。CCKS 2017学术评测任务二:面向电子病历的命名实体识别,共收录了7篇论文,研究内容和测评结果等见表1。总体上看,7篇论文均有对Bi-LSTM-CRF(或Bi-LSTM)算法模型的实现;均采用“字粒度”模型使用word2vec工具将输入文本特征向量化表示。Zhang等利用CCKS 2017开放的电子病历语料,分别采用CRFs和Bi-LSTM-CRF两种统计机器学习算法从电子病历数据集中识别疾病、身体部位和治疗等信息,并对两种方法进行了对比分析,发现后者性能较好。Qiu等为提高循环神经网络模型的训练速度,提出了残差卷积神经网络条件随机场模型(RD-CNN-CRF)在CCKS 2017开放测试语料上获得了较Bi-LSTM-CRF更高的训练速度和F1值。CCKS 2018学术评测任务一:面向中文电子病历的命名实体识别,共收录论文2篇,分别是Yang等将词嵌套、词性、偏旁部首、拼音、词典和规则特征作为条件随机场(CRFs)的学习特征,实验F1值为89.26%;Luo等基于多特征(如标点符号、分词和词典等特征)融合,整合CNN-CRF, Bi-LSTM-CRF, Bi-LSTM-CNN-CRF, Bi-LSTM+CNN-CRF和Lattice LSTM五种神经网络模型,实验F1值最高达到了88.63%(表1)。

4

结果评价及优化

随着中文电子病历命名实体识别的研究逐步深入以及相关算法框架的逐渐成熟,基于中文电子病历的命名实体识别算法构成了临床电子病历系统、专病科研数据提取、临床辅助决策系统的重要组成部分。 电子病历命名实体识别结果评价指标说明如下图:

袁冬生为解决出院小结文档中普遍存在的信息不准确、无效信息、信息缺失等问题,设计开发了一套基于命名实体识别的出院小结错误检测系统。李山为提高住院病历录入的交互性和可操作性,降低书写的繁杂度,减轻医生负荷,提高工作效率,使用条件随机场算法,进行电子病历命名实体识别,提取病历中重要的诊疗信息,并将其应用在住院病历录入辅助中,以优化和改善病历录入方式。Su等则基于中文电子病历命名实体标注规范构建了一个可用于识别心血管疾病危险因素的语料库。

展望

.....

针对电子病历的语义特征的量化分析与研究,对于提升算法特征工程质量有积极意义;近两年来,针对电子病历语料标注的成本问题,很多研究聚焦于半监督和无监督的算法来实现基于少量标注语料或完全基于非标注原始语料进行实体识别,是一个重要的研究方向。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电子病历
    +关注

    关注

    1

    文章

    61

    浏览量

    20590
  • 数字化
    +关注

    关注

    8

    文章

    10837

    浏览量

    67425
  • 识别
    +关注

    关注

    3

    文章

    175

    浏览量

    32647

原文标题:【NER综述】近五年中文电子病历命名实体识别研究进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    20年来最大突破!中国科研团队攻克芯片散热难题

    电子发烧友网报道(文/李弯弯)当今科技飞速发展,芯片作为电子设备核心部件,性能提升推动各领域进步,但散热问题长期制约其性能突破。随着人工智能大模型和高性能计算爆发式增长,芯片功耗和发热密度指数级上升
    的头像 发表于 01-16 08:06 8402次阅读
    <b class='flag-5'>近</b>20<b class='flag-5'>年来</b>最大突破!中国科研团队攻克芯片散热难题

    上海高等研究院在阿秒X射线研究方面取得重要进展

    时间分辨率。近年来,自由电子激光技术持续发展,将X射线脉冲长度从飞秒量级推进至阿秒量级,拓展了超快X射线科学研究能力。 近日,中国科学院上海高等研究院联合德国
    的头像 发表于 03-27 08:06 108次阅读
    上海高等<b class='flag-5'>研究</b>院在阿秒X射线<b class='flag-5'>研究</b>方面取得重要<b class='flag-5'>进展</b>

    金航标电子便扎根在深圳市华强北,在华强北理论研究专家华强北文化研究者宋仕强先生带领下...

    早在2007,金航标电子便扎根在深圳市华强北,在华强北理论研究专家华强北文化研究者宋仕强先生带领下,20
    发表于 03-14 11:24

    东南大学团队多能X射线智能成像研究获重要进展

    图.(A)多能X射线成像及智能物质识别系统的工作原理图;(B)该系统对鸡爪的成像与生物组织识别结果。 近日,东南大学多维探测与智能识别团队在多能X射线成像与物质智能识别方向
    的头像 发表于 02-05 09:14 153次阅读
    东南大学团队多能X射线智能成像<b class='flag-5'>研究</b>获重要<b class='flag-5'>进展</b>

    应用多光谱数字图像区分苗期作物与杂草的研究进展

    在现代农业中,苗期作物与杂草的精准识别是实现精准农业和可持续发展的关键环节。传统的人工识别方法效率低、成本高且易受主观因素影响,而多光谱数字图像技术通过捕捉作物与杂草在不同波段下的光谱特征,结合图像
    的头像 发表于 10-21 15:25 478次阅读

    多光谱图像颜色特征用于茶叶分类的研究进展

    多光谱成像技术结合颜色特征分析为茶叶分类提供了高效、非破坏性的解决方案。本文系统综述了该技术的原理、方法、应用案例及挑战,探讨了其在茶叶品质分级、品种识别和产地溯源中的研究进展,并展望了未来发展方向
    的头像 发表于 10-17 17:09 766次阅读
    多光谱图像颜色特征用于茶叶分类的<b class='flag-5'>研究进展</b>

    高光谱成像在作物长势监测和产量预估的研究进展

    参数的非接触式、高精度监测。近年来,随着遥感技术和人工智能算法的发展,高光谱成像系统 (SKY机载高光谱相机+中达瑞和 云平台) 已成为作物长势监测和产量预估的重要工具。本文系统梳理该技术的原理、应用进展,为相关研究提供参考。
    的头像 发表于 10-16 16:31 662次阅读
    高光谱成像在作物长势监测和产量预估的<b class='flag-5'>研究进展</b>

    高光谱成像在作物病虫害监测的研究进展

    特性会发生显著变化,例如: 叶绿素含量下降 :导致可见光波段(400-700 nm)反射率异常 细胞结构破坏 :引起红外波段(700-1300 nm)散射特征改变 水分与糖分异常 :影响短波红外波段(1300-2500 nm)吸收峰分布 研究进展与关键技术突破 (一)光
    的头像 发表于 10-16 15:53 685次阅读
    高光谱成像在作物病虫害监测的<b class='flag-5'>研究进展</b>

    上市丨破局成长 智造未来

    20259月21日,思瑞浦迎来科创板上市年来,公司始终秉持“创新驱动、价值创造”的初心,持续加大研发投入,稳步推进平台化建设与全
    的头像 发表于 09-20 12:01 1442次阅读
    上市<b class='flag-5'>五</b>周<b class='flag-5'>年</b>丨破局成长 智造未来

    中微半导产品选型手册2025V2.0版

    产品的升级与创新。 2025V2.0版中文电子版产品选型手册已正式上线,您可访问中微半导官网www.MCU.com.cn【支持】——【下载中心】——【选型手册】栏目,或者点击下方二维码在线阅读或下载手册
    发表于 09-04 13:35

    语音识别---大家怎么看呢?

    语音识别是一门交叉学科。二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10内,语音
    发表于 08-09 10:54

    微双重驱动的新型直线电机研究

    摘罢:大行程、高精度,同时易于小型化的移动机构是先进制造业等领域要解决的关键问题之一,综述了现有宏/微双重驱动机构和直线超声电机的研究进展和存在问题,提出了一种宏微双重驱动新型直线压电电机,使其既能
    发表于 06-24 14:17

    氧化镓射频器件研究进展

    ,首先介绍了 Ga2O3在射频器件领域的优势和面临的挑战,然后综述了近年来 Ga2O3射频器件在体掺杂沟道、AlGaO/Ga2O3调制 掺杂异质结以及与高导热衬底异质集成方面取得的进展,并对研究结果进行了讨论,最后展望了未来 G
    的头像 发表于 06-11 14:30 2757次阅读
    氧化镓射频器件<b class='flag-5'>研究进展</b>

    多光谱图像技术在苗期作物与杂草识别中的研究进展

    目前,田间杂草的识别方法主要有3种:人工识别法、遥感识别法和基于机器视觉的识别法,其中,人工识别法是世界上大多数国家和地区普遍沿用的方法,是
    的头像 发表于 06-10 18:13 554次阅读

    NVMe协议研究扫盲

    的不断完善,越来越多的系统和应用采用NVMe存储接口的SSD,这种技术将成为未来存储领域的主流。 NVMe研究进展 目前,一些国内外学者将NVMe SSD应用于嵌入式存储设备。例如Opsero公司的Jeff
    发表于 06-02 23:28