0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据管理在弱监督学习中的重要作用

贸泽电子 来源:贸泽电子 作者:贸泽电子 2022-03-09 12:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

将医学影像交给人工智能(AI)来分析,可以比人类专家更快、更准确地检测和测量出异常情况,推动基于影像的医疗诊断更进一步发展。要借此来改善患者的治疗效果并确立针对性的治疗方法,就必须建立起在不同人群中具有普遍性的高质量AI模型。然而,要建立这样的AI模型,就离不开大量数据的支持,并且这些数据还需要经过精心标注,才能供机器来学习。

现在,我们可以通过深度学习(DL)的一个分支——弱监督学习来完成AI的训练。这项机器学习技术可以降低对数据标注的完整性和准确性要求,帮助医生更轻松地获得更加深入的信息。用于弱监督学习的数据只需进行更容易实现的粗略标注(例如只需标注整个影像,而不必标注影像中细分的关键区域) ,并且学习过程中可以充分利用预训练模型和常见的可解释性方法。本文中,我们将研究数据管理在弱监督学习中发挥的重要作用。

医学影像的标注并非易事

医疗行业中的影像标注存在着许多困难。首先,医学影像本身以及相关的检查结果数据往往存储在不同的系统中,导致数据标注工作困难重重,也就难以获得经过标注的数据。

例如,来自计算机断层扫描(CT)或磁共振成像(MRI)的影像数据可能存储在医院系统中,但相关的活检或肿瘤切除检查结果往往会存储在病理实验室中,而这些实验室可能位于医院之外的私人诊所或检测机构。这时,如果要核对某些数据和标注的话,虽然做法上可行,但获取并汇总数据的工作可能会花费大量时间,尤其是在涉及不止一家私人诊所或检测机构的情况下。

而且,要在影像中寻找并标记出疾病发生和进展的迹象(生物标志物),本身就是一件极其耗时并且复杂的事情,因为这些数据必须逐个像素地进行标注,最终的标记数量可达上千个。如果需要通过算法来分割影像或者定位到特定区域(如病变或手术边界)的话,这一问题尤为严重。这样的过程往往需要耗费大量成本,因为医学影像标注通常要借助专业知识才能进行,而且MRI和CT影像还需要做三维标注。这两项缺点加在一起,使医学影像的标注成为了一项成本不菲的工作,而且还难以通过外包来完成。

由于标注过程需要用到专业知识,标注的质量也会因标注人员对这些知识掌握程度的不同而发生变化,进而影响到深度学习模型的最终表现。对于数据标注而言,标注的准确性是一大问题。通常情况下,经验不足的放射科医生或住院医师会接受数据标注培训,但他们的标注准确度显然比不上有着数十年工作经验的临床医生。

此外,阅片人员所表现出的差异也会影响到标注的结果:一方面,不同的阅片人员对同一幅影像的解读会有细微差异;另一方面,同一个阅片人员如果在不同时间标注同一幅影像,最终结果也会有细微的区别。

最后,人工标注这件事本身也会限制最终结果。机器学习的一大优势在于模型可以发现人类无法察觉的规律,然而人工标注终究依赖于人工输入,模型最终输出的结果很容易因此而受到限制。

例如,AI如果只能复制人类对某些任务的想法,那么它就很可能无意中把某个人的偏见也复制过来。

此外,输入数据中某些看似无关区域的特征也可能具有预测性,但由于它们不在人为选定的关注区域内,因而会直接被抛弃。

例如,疾病的显著指征完全可能出现在关注区域周边的其他组织中,甚至可能会出现在附近的其他器官中。

运用弱监督学习来进行训练

在上述场景中,我们更希望AI可以接受更加笼统的标注(例如一幅影像中是否包含癌症组织或其他疾病指征),然后再由模型来找出其中最能说明问题的特征 。这正是弱监督学习的用武之地。

使用弱监督学习实现自动标注。人工智能发现了病理学家没有发现的预测性特征。

弱监督学习是深度学习的一个分支,旨在通过更少、更粗略的标注来生成性能良好的深度学习模型。这些标注大致可以分为三大类:不完整、不精确和不准确的标注。这里使用“大致”一词是因为单个数据集中可以结合使用多种标注方法,并且弱监督标注的目的就是根据需要来解决各种组合问题。

不完整的标注通常表现为数据集的一部分被标注,而其余部分未被标注。

不精确的标注则是直接标注出影像的整体结果,不对特定关注区域进行分割。

不准确的标注源于标注人员缺乏专业知识,以及某些疾病指征之间的模糊性或不确定性。

有趣的是,如果通过更粗略、更容易实现的标注就可以产生不错的结果,那么不精确的标注可能比不完整或不准确的标注更有用。不精确的标注不容易出错,因为它不需要达到像其他标注那样的详细程度,而且它也更容易获得:

例如只需从扫描报告中提取出有关癌症分期的信息,就可以表明该扫描影像包含癌症组织,而不必再通过人工的方式把癌变区域从三维影像中“抠”出来。这些标注自身虽然“不精确”,但却可以让数据集获得更多可用的标注,进而提升准确度。

尤为重要的是,通过这种标注方式,我们就不必再为了标出一切相关的细枝末节而花大价钱雇佣或培养高度专业的人员。这种方式最终可以提高标注的准确性,毕竟给出一个二选一的答案远比详细描绘出所有特征来得容易。

要在常见的医学影像应用(例如检测和定位关键区域)中利用这种不精确的标注,比较常见的做法是利用以下两步流程:

打造主干模型,例如训练一个深度学习模型来预测由不精确的标注所描述的类别。

在对特定扫描影像进行预测的模型中,使用像素属性方法(也称为显著性或可解释性方法)将模型决策的最相关区域突显出来。

两个输入图像(金鱼和熊) ,以及在弱监督学习期间用于执行分割的基于梯度的像素属性方法。

使用卷积神经网络作为主干

医疗领域经常需要用到影像数据,因而将卷积神经网络(CNN)用作弱监督学习主要的基础深度学习框架就是自然而然的选择。CNN的工作原理是通过学习来减少医学扫描影像中需要处理的像素量(通常是将三维图像降维表示),然后将这些像素对应到类别标注。

在弱监督学习中,我们还可以结合使用多种方法。您可以使用自己的数据集训练新的网络(如果该数据集足以提供其他类似数据源的优势),也可以使用预先训练好的网络来对新任务进行迁移学习。例如,ResNet50和VGG16就是利用源自日常生活的数百万张图片来训练的两种CNN架构。虽然它们并没有使用医学影像进行过训练,但它们仍然非常有用,因为在模型早期阶段的层中学习到的卷积过滤器往往涉及的是通用的特征,如线条、形状和纹理等,这对医学影像依然是有用的。

要使用这些模型之一来进行迁移学习,只需去掉后期阶段的类别预测层,然后用代表新的医学影像任务所需类别的层来重新初始化即可。虽然模型的最终目标是让输出结果能够突显出影像中的相关物体和值得关注的区域,但首先进行的第一步只需预测影像中是否存在这些值得关注的区域即可。

弱监督定位的AI可解释性

当深度学习主干完成训练,可以准确预测是否存在值得关注的类别后,下一步便是使用某种AI可解释性方法来分割关注区域。这些可解释性方法(也称为像素属性方法)旨在深入了解深度学习模型在做出某种预测时在图像中看到的内容,其输出是某种形式的图像(通常称为显著图),可以根据最终目标以多种不同的方法计算得出。

在这些方法中,基于梯度的显著图是最常用的方法之一,其核心包括输出预测以及对所有构成该输出的神经元进行检测。根据方法的不同,这种检测可以一直追溯到第一个输入层——标准梯度(Vanilla Gradient),也可以停留在某个较后期的层,如神经网络架构中的最后一个卷积层——GradCAM。其他的方法可以实现不同的目的,例如产生更平滑的关注区域、改善更简单的方法存在的局限性,或在所需特征周围进行更紧密的分割。

GradCAM是一种ML可解释性方法,可用于在弱监督学习中分割特征,它所获取的是关于最后一个卷积层的输出类的梯度。

结语

就在不久前,识别医学影像中的生物标志物依然还需要大量以复杂方式进行标注的影像数据。然而,弱监督学习等技术降低了对数据标注完整性、精确性和准确性的要求,从而能够轻松揭示出以往需要耗费大量时间、借助高度专业的知识才能发现的问题。

弱监督学习只需采用更容易实现的粗略标注(例如只标注整个影像,而不是标注影像中细分的关键区域)就可以运作。它可以重新利用预先训练好的CNN模型,然后使用常见的可解释性方法,根据预测的类别将值得关注的区域突显出来。在这些特性的支持下,便可以将使用医学影像数据训练的模型用于各种应用,无需进行大量像素级标注。这不仅节省了时间和成本,更有可能发现临床医生以前未曾了解的预测特征,从而提高诊断的准确性、改善患者的治疗效果。

Becks作者介绍

Becks是Imagia公司的机器学习技术负责人,该公司是一家位于蒙特利尔的初创公司,致力于帮助临床医生运用人工智能推动医学研究。在业余时间,她还与Whale Seeker合作,这是另一家运用人工智能对鲸鱼进行检测的初创公司,旨在让工业发展与这些温和的巨兽和谐共存。她从事深度学习和机器学习领域的工作,致力于研究新的深度学习方法并直接应用这些方法来解决现实世界的问题、构建渠道和平台来训练和部署人工智能模型,以及为初创公司的人工智能和数据战略提供咨询服务。

关于贸泽电子

贸泽电子(Mouser Electronics)是一家全球授权半导体电子元器件授权分销商,服务全球广大电子设计群体。贸泽电子原厂授权分销近1,200家知名品牌,可订购数百万种在线产品,为客户提供一站式采购平台,欢迎关注我们,获取第一手的设计与产业资讯信息!

原文标题:医学影像数据训练太难?那是因为你还不知道这个利器~

文章出处:【微信公众号:贸泽电子】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41103

    浏览量

    302585
  • 测量
    +关注

    关注

    10

    文章

    5722

    浏览量

    116973
  • 影像
    +关注

    关注

    0

    文章

    150

    浏览量

    15029

原文标题:医学影像数据训练太难?那是因为你还不知道这个利器~

文章出处:【微信号:贸泽电子,微信公众号:贸泽电子】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉你,而是把环境、动作和结果连起来,让机器自己探索哪个行为长期看起来更有利
    的头像 发表于 01-31 09:34 831次阅读
    强化<b class='flag-5'>学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    中国重汽获得国家数据管理能力成熟度四级认证

    近日,由国家工业和信息化部指导,中国电子信息行业联合会发布了《关于公布获得数据管理能力成熟度等级证书单位的通知》,中国重汽获得国家数据管理能力成熟度“量化管理级”(4级)认证,标志着中国重汽的
    的头像 发表于 01-13 16:30 909次阅读

    AI HOME智能体:当存储遇上智能体,开启数据管理新纪元​

    AI HOME智能体的出现,标志着数据管理进入智能化时代。它将NAS的存储能力与AI的智能分析能力完美结合,为用户提供更高效、便捷、智能的数据管理体验。 未来,随着AI技术的不断发展,AI HOME智能体将会在更多领域发挥其价值,为人们的生活和工作带来更多便利。
    的头像 发表于 12-17 17:02 1369次阅读
    AI HOME智能体:当存储遇上智能体,开启<b class='flag-5'>数据管理</b>新纪元​

    车长客通过国家数据管理能力成熟度最高等级认证

    近日,中国中车集团旗下车长客股份公司正式通过国家《数据管理能力成熟度评估模型》(DCMM)最高等级——优化级(五级)认证,成为轨道交通行业首家获此殊荣的企业,标志着车在数据管理能力
    的头像 发表于 11-24 16:22 720次阅读

    自动点焊机现代制造业重要作用

    自动点焊机是一种广泛应用于工业制造领域的设备,主要用于金属零件的连接。它通过电流在接触点产生高温,使金属局部熔化并冷却后形成焊点,从而实现高效、快速的焊接。这种设备现代生产线中发挥着重要作用,尤其适用于汽车制造、电子装配、家电生产等行业。
    的头像 发表于 09-19 18:11 991次阅读

    怎样进行数据管理平台的压力测试?

    电能质量在线监测装置的数据管理平台(以下简称 “平台”), 压力测试的核心目标是验证平台高负载(如海量数据接入、高并发查询、峰值业务流
    的头像 发表于 09-19 13:57 684次阅读
    怎样进行<b class='flag-5'>数据管理</b>平台的压力测试?

    电能质量在线监测装置的数据管理需要哪些技术支持?

    电能质量在线监测装置的数据管理是一个覆盖 “ 采集 - 传输 - 存储 - 处理 - 分析 - 应用 - 安全 ” 全流程的系统工程,需多种技术协同支撑,以确保数据的完整性、准确性、时效性和安全性
    的头像 发表于 09-18 11:45 672次阅读

    工业数据管理平台的重要性体现在哪

    工业数据管理平台作为工业数字化转型的核心基础设施,其重要性体现在对工业数据全生命周期的整合、分析与赋能上。它不仅是数据汇聚的“枢纽”,更是驱动工业智能化、优化决策、提升竞争力的关键引擎
    的头像 发表于 09-02 14:39 686次阅读

    云翎智能巡检执法记录仪铁路巡检的安全监控与数据管理应用

    云翎智能执法记录仪铁路巡检的应用,通过安全监控的智能化与数据管理的精细化,深度契合铁路运维“安全、高效、合规”的核心需求,为铁路线路、设备、环境的全周期管理提供了技术支撑。以下从安
    的头像 发表于 08-25 23:09 860次阅读
    云翎智能巡检执法记录仪<b class='flag-5'>在</b>铁路巡检<b class='flag-5'>中</b>的安全监控与<b class='flag-5'>数据管理</b>应用

    无线通信系统射频电路的重要作用

    射频电路是处理高频信号的电路,无线通信系统中发挥着至关重要作用。它们负责接收、发射和处理射频信号,确保无线通信设备能够正常运行。射频电路涉及到多个电路元件和技术,其设计和调试需要高精度、高稳定性和抗干扰能力。
    的头像 发表于 06-20 16:13 1518次阅读
    无线通信系统<b class='flag-5'>中</b>射频电路的<b class='flag-5'>重要作用</b>

    电源滤波器医疗设备重要作用

    电源滤波器现代医疗设备起着至关重要作用,通过抑制电源线电磁干扰和射频干扰,保证设备性能稳定,保障医疗安全。其核心结构包括共模电感、差
    的头像 发表于 06-13 14:34 808次阅读
    电源滤波器<b class='flag-5'>在</b>医疗设备<b class='flag-5'>中</b>的<b class='flag-5'>重要作用</b>

    氧化层制备芯片制造重要作用

    本文简单介绍了氧化层制备芯片制造重要作用
    的头像 发表于 05-27 09:58 1875次阅读
    氧化层制备<b class='flag-5'>在</b>芯片制造<b class='flag-5'>中</b>的<b class='flag-5'>重要作用</b>

    使用MATLAB进行无监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据隐藏的模式和关系,
    的头像 发表于 05-16 14:48 1599次阅读
    使用MATLAB进行无<b class='flag-5'>监督学习</b>

    时钟同步通信系统中有哪些重要作用

    时钟同步是指在一个系统,各个时钟能够准确地显示相同的时间。现代科技发展,时钟同步是非常重要的,特别是计算机网络和通信系统
    的头像 发表于 04-29 13:44 1218次阅读
    时钟同步<b class='flag-5'>在</b>通信系统中有哪些<b class='flag-5'>重要作用</b>?

    网线机器人领域如何发挥重要作用

    机器人制造领域正经历前所未有的变革,网络产品作为连接机器人内部系统与外部环境的关键纽带,机器视觉、数据采集和远程控制等环节发挥着决定性作用。本文将从这网线角度,来看看他们机器人领域
    的头像 发表于 04-27 13:33 1032次阅读