0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

斯坦福携手MIT发布巨大量级X光胸片数据集

电子工程师 来源:cc 2019-01-28 17:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,吴恩达发推公布了斯坦福发布的两个大型的医疗数据集公开:CheXpert和MIMIC-CXR。其中,CheXpert内含224316X光胸部图片,MIMIC-CXR内含371,920张带标签的图片。两个数据集的数据量级和标注精准度都非常高,可以说是造福了一大批相关从业者了。

数据集下载方式

先给出数据集介绍的地址和下载方式。

https://stanfordmlgroup.github.io/competitions/chexpert/

因为是医学数据集,斯坦福采取了相对谨慎的态度。根据说明,用户需要遵守下载规则,填写资料然后通过电子邮件给出的链接进行下载。为了保持数据集的完整性以及有效性,严禁进行“滥用”分享。

数据集概况

CheXpert数据集里面有224316张胸部X光图片,共涉及65,240名患者。数据集的时间跨度为2002年10月到2017年7月,都是患者在斯坦福医院进行胸部X光检查之后的留存。除此之外,数据集还附有相关的放射学报告。

如何为CheXpert数据集打标签

每份报告都对14项观察进行标记,标记可能是阳性,阴性或不确定性。

14项观察是根据报告中的流行程度和临床相关性确定的,并在适用的情况下符合Fleischner Society推荐的术语表。

此外,还开发了一种基于规则的自动贴标机,用于从放射学报告中提取观察结果,用作图像的结构化标签。贴标机工作分为三个不同的阶段:提及提取,提及分类和提及聚合。

自动贴标机github地址:

https://github.com/stanfordmlgroup/chexpert-labeler

在提及提取阶段,贴标机从放射学报告的“印象”部分的观察列表中提取提及,这一部分总结了放射研究中的关键发现。在提及分类,则是用每一个提及来分类,把观察到的归类为阴性的,不确定的或阳性的。在提到聚合阶段,使用每次提及观察的分类,就会得到14个观察的最终标签。

基准模型

基准模型采用以单视角胸片作为输入,并输出14次观测中每一次的概率。当多个视图可用的时候,模型给出最大概率。

利用不确定性标签

数据集中的训练数据集的标签分别为0、1或u。其中,0表示负,1表示正,u表示不确定。在模型训练中,使用了不确定性标签的不同方法。

U-Ignore:在训练期间忽略了不确定的标签。

U-Zeroes:将不确定标签的所有实例映射到0。

U-Ones:将不确定标签的所有实例映射到1。

U-SelfTrained:首先使用U-Ignore方法训练模型进行收敛,然后使用该模型进行预测,利用模型输出的概率预测重新标记每个不确定性标签。

U-MultiClass:将不确定性标签视为自己的类别。

专注于评估5项观察,进行“竞争任务”,根据临床经验和患病率分为:(a)肺不张,(b)心脏扩大,(c)肺实变,(d)水肿(e)胸腔积液。通过比较了不同不确定性方法在200个研究的验证集上的表现,其中三个放射科医师的注释作为基础事实。基准模型根据验证集上每个竞赛任务的最佳表现方法选择的:U- Ones用于肺不张和水肿,U-MultiClass用于心脏扩大和胸腔积液,U-SelfTrained用于肺实变。

测试集如何设计

CheXpert中的测试集由来自500“未知”患者的500张X光胸片组成。八名权威认证的放射科医师分别对测试集中的每张图片进行了注释。他们将每张图片标记为:现存(present)、不确定(uncertain likely)、不可能(uncertain unlikely)和缺失(absent)。

然后将标签二值化,将现存和不确定病例视为阳性,而缺失和不可能病例视为阴性。根据5位专家的投票确定图片标签,然后用剩下的三位专家检验五位专家的表现。

基准模型在测试集上表现如何

该模型在胸腔积液(0.97)上达到最佳AUC,在肺不张(0.85)上达到最差。所有其他观测的AUC至少为0.9。在心脏扩大,水肿和胸腔积液上,该模型比所有3位放射科医师获得更高的表现,但却不是他们的多数投票。在肺实变方面,模型性能超过3位放射科医师中的2位,而在Atelectasis上,所有3位放射科医师的表现均优于模型。

与麻省理工学院的联合发布MIMIC-CXR数据集

此外还有和MIMIC-CXR共同发布包含371,920张胸部X射线图片的大型数据集。该数据集的时间跨度为2011年~2016年。这些数据与Beth Israel Deaconess医疗中心的227,943个影像学研究相关。每个成像研究可能包含一个或多个图像,但一般是两个图像:正面视图和侧视图。

相关论文下载地址:https://arxiv.org/pdf/1901.07042.pdf

图像提供有14个标签,这些标签来自放射学报告的自然语言处理工具。CheXpert数据集和MIMIC-CXR共享一个共同的贴标机,CheXpert贴标机,用于从放射学报告中获取相同的标签集。

最后展望

阻碍胸部X光片解释模型发展之一是,缺乏具有强放射学家注释的地面真实性和专家评分的数据集。研究人员可以根据这些数据对其模型进行比较。希望CheXpert将填平这一沟谷,以便在临床重要任务中随时跟踪模型的进展。

此外,吴恩达团队本次开发并开源了CheXpert贴标机,这是一种基于规则的自动贴标机,用于从自由文本放射学报告中提取观察结果,用作图像的结构化标签。我们希望这可以帮助其他机构轻松地从报告中提取结构化标签,并发布其他大型数据库,以便对医学成像模型进行跨机构测试。

最后,斯坦福也作出展望,希望该数据集能够帮助开发和验证胸部X光片解释模型,以改善全球医疗服务的获取和交付。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • MIT
    MIT
    +关注

    关注

    3

    文章

    255

    浏览量

    25055
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26305

原文标题:斯坦福联合MIT,发布两类巨大量级X光胸片数据集

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    斯坦福SR830锁相放大器参考频率设置方法详解

    斯坦福研究系统(Stanford Research Systems)生产的SR830数字双相锁相放大器,以其高精度、高稳定性和强大的信号处理能力,广泛应用于物理、材料科学、化学及精密测量等领域。其
    的头像 发表于 04-27 15:35 188次阅读
    <b class='flag-5'>斯坦福</b>SR830锁相放大器参考频率设置方法详解

    如何校准斯坦福锁相放大器的增益

    锁相放大器(Lock-in Amplifier)是一种用于提取微弱信号、抑制噪声的高精度测量仪器,广泛应用于物理、化学、生物及材料科学等领域。斯坦福研究系统(Stanford Research
    的头像 发表于 04-08 15:48 166次阅读
    如何校准<b class='flag-5'>斯坦福</b>锁相放大器的增益

    斯坦福锁相放大器SR830参考频率设置方法详解

    斯坦福研究系统(Stanford Research Systems)生产的SR830锁相放大器是一款高性能、高精度的信号检测仪器,广泛应用于物理、化学、材料科学及精密测量等领域。其核心功能是通过
    的头像 发表于 03-30 17:02 488次阅读
    <b class='flag-5'>斯坦福</b>锁相放大器SR830参考频率设置方法详解

    云知声CEO黄伟博士做客斯坦福“与AI同行”系列讲座

    近日,斯坦福成长创新圈联合斯坦福上海校友会举办的斯坦福“与AI同行”系列讲座马年首场线上活动圆满落幕,云知声CEO黄伟博士作为特邀嘉宾,结合近30年AI领域深耕经验与云知声十余载创业实践,深度复盘了中国AI产业从1.0到2.0的
    的头像 发表于 03-13 15:46 552次阅读

    斯坦福锁相放大器相位的正确设置方法

    在精密物理测量与微弱信号检测领域,斯坦福锁相放大器因其高灵敏度与强抗噪能力被广泛应用。其中,相位的正确设置是确保测量精度的关键环节。若参考信号与被测信号之间存在相位差,将直接影响输出信号的幅值与相位
    的头像 发表于 03-10 16:37 787次阅读
    <b class='flag-5'>斯坦福</b>锁相放大器相位的正确设置方法

    斯坦福锁相放大器与塞恩锁相放大器的选型对比分析

    在精密测量与科研实验中,锁相放大器作为提取微弱信号的核心仪器,其性能直接决定实验数据的准确性与可靠性。斯坦福(Stanford Research Systems)与塞恩(Sine, 或指代国产高精度
    的头像 发表于 02-04 16:38 674次阅读
    <b class='flag-5'>斯坦福</b>锁相放大器与塞恩锁相放大器的选型对比分析

    IBM Granite登顶斯坦福大学2025年基础模型透明度指数报告

    IBM Granite 模型系列在斯坦福大学发布的 2025年“基础模型透明度指数”(Stanford Foundation Model Transparency Index)名列第一,并创下该指数的历史最高分。
    的头像 发表于 12-24 11:20 950次阅读
    IBM Granite登顶<b class='flag-5'>斯坦福</b>大学2025年基础模型透明度指数报告

    斯坦福团队开发新型铁基电池材料推动储能技术发展

    这项关于铁基电池材料的发现最直接的应用前景在于锂离子电池领域。研究人员采用锂、铁、锑和氧合成的正极材料,在斯坦福大学与SLAC国家加速器实验室联合建立的电池中心进行的初步测试中表现出稳定的高电压特性
    的头像 发表于 11-13 14:41 631次阅读
    <b class='flag-5'>斯坦福</b>团队开发新型铁基电池材料推动储能技术发展

    斯坦福SR860数字锁相放大器

    | 实验室校验、维修 | 计量校准实验室 | 前沿科学研究实验室 | | 价格等级 | 万元级 | 数十万至百万级 | 十万美元级别 | 总结 斯坦福研究系统SR860是一款基于DSP技术的、高性能
    发表于 09-09 10:00

    回收出售租赁维修二手斯坦福SR620频率计

    回收出售租赁维修二手斯坦福SR620频率计 SR620时间间隔和频率计数器概述 SR620是一款高精度时间间隔和频率计数器,适用于实验室或ATE环境中的各类时间和频率测量需求。其核心优势在于单次
    发表于 08-25 14:22

    斯坦福(Stanford)锁相放大器故障修复

    斯坦福锁相放大器是由斯坦福研究系统公司(Stanford Research Systems, SRS)研发的一款测量工具,主要用于微弱信号的测量和提取。它结合了高灵敏度、高精度、高稳定性和多功能性于一体,是科研和工业领域的重要设备。
    的头像 发表于 07-30 10:58 1105次阅读
    <b class='flag-5'>斯坦福</b>(Stanford)锁相放大器故障修复

    斯坦福SR530锁相放大器技术手册

    斯坦福SR530锁相放大器是一款专为精密微弱信号检测设计的高性能仪器,核心功能是从强噪声背景中提取特定频率信号,广泛应用于物理、化学、生物医学及工程领域。
    的头像 发表于 07-11 18:02 1109次阅读
    <b class='flag-5'>斯坦福</b>SR530锁相放大器技术手册

    斯坦福SR445A科研级前置放大器安装、操作与维护指南

    斯坦福前置放大器SR445A是一款专为低噪声信号放大设计的高性能设备,覆盖直流至高频段,提供可变增益及灵活的滤波功能,适用于光电探测、生物电信号、精密测量等领域。
    的头像 发表于 06-20 16:52 1793次阅读
    <b class='flag-5'>斯坦福</b>SR445A科研级前置放大器安装、操作与维护指南

    斯坦福SR830锁相放大器低量程报错维修步骤详解

    近期某客户送修一台斯坦福SR830锁相放大器,报修故障为在低量程状态下一直报错 OVLD。对仪器进行初步检测,仪器缺旋钮盖;开机自检正常;GPIB正常;空载SENSITIVTY 在2mV以下报
    的头像 发表于 06-10 18:06 1158次阅读
    <b class='flag-5'>斯坦福</b>SR830锁相放大器低量程报错维修步骤详解

    斯坦福DG535脉冲发生器无法启动故障诊断与维修方案

    近期深圳某院校送修一台斯坦福DG535数字延时脉冲发生器,报修故障为开机之后面板卡住,操作没有反应。对仪器进行初步检测,仪器开机之后卡在启动界面,指示灯全亮,按键没有反应。
    的头像 发表于 05-28 16:02 803次阅读
    <b class='flag-5'>斯坦福</b>DG535脉冲发生器无法启动故障诊断与维修方案