0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型transformer模型实现3D医学图像分析最新基准

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-08-15 15:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

计算机视觉和模式识别会议( CVPR )上, NVIDIA 研究人员发表了 35 多篇论文。这包括对 移动窗口 UNEt TRansformers ( Swin-UNETR )的研究,这是第一个基于变压器的预训练框架,专为 3D 医学图像分析中的自我监督任务而设计。这项研究是创建用于数据注释的预训练、大规模和自监督三维模型的第一步。

作为一种基于 transformer 的计算机视觉方法, Swin UNETR 采用了 MONAI ,这是一种开源的 PyTorch 框架,用于深入学习医疗成像,包括放射学和病理学。使用这种预训练方案, Swin UNETR 为各种医学图像分割任务设定了新的最先进的基准,并一致证明了其有效性,即使只有少量的标记数据。

Swin UNETR 模型培训

Swin UNETR 模型在 NVIDIA DGX-1 集群 使用八个 GPUAdamW 优化算法。对 5050 张来自健康和不健康受试者不同身体部位的公开 CT 图像进行预训练,以保持数据集的平衡。

对于 3D Swin transformer 编码器的自我监督预训练,研究人员使用了各种借口任务。随机裁剪的标记使用不同的变换(如旋转和剪切)进行增强。这些标记用于掩蔽体修复、旋转和对比学习,用于编码器学习训练数据的上下文表示,而不会增加数据注释的负担。

pYYBAGL571-AKsH1AALchbVmfMI713.png

图 1 :。预培训框架概述。输入的 CT 图像被随机裁剪成子体积,并通过随机内部剪切和旋转进行增强,然后作为输入馈送到 Swin-UNETR 编码器

Swin UNETR 背后的技术

Swin Transformers 采用分层视觉 transformer ( ViT )进行非重叠窗口的局部自我注意计算。这打开了为大型公司创建医疗专用 ImageNet 的机会,消除了创建医疗 AI 模型需要大量高质量注释数据集的瓶颈。

与 CNN 体系结构相比, ViT 在从未标记数据(数据集越大,预训练主干越强)进行全局和局部表示的自监督学习方面表现出非凡的能力。用户可以在下游任务(例如,分割、分类和检测)中使用极少量的标记数据微调预训练模型。

这种体系结构在本地窗口中计算自我注意,与 ViT 相比表现出更好的性能。此外, Swin Transformers 的层次性使其非常适合需要多尺度建模的任务。

继领先的 UNETR 模型成功使用直接使用 3D 补丁嵌入的基于 ViT 的编码器之后, Swin UNETR 使用了具有金字塔结构的 3D Swin transformer 编码器。

在 Swin UNETR 的编码器中,由于计算简单的全局自我注意对于高分辨率特征地图是不可行的,因此在本地窗口中计算自我注意。为了增加局部窗口以外的感受野,使用窗口移位来计算不同窗口的区域相互作用。

Swin UNETR 的编码器通过跳过连接以五种不同的分辨率连接到剩余的类似 UNet 的解码器。它可以为密集的预测任务(如医学图像分割)捕获多尺度特征表示。

Swin UNETR 模型性能

在对 CT 中的 13 个腹部器官和 医学分段十项全能( MSD ) 数据集中的分割任务使用 超越颅穹窿( BTCV )分割挑战 进行微调后,该模型在公共排行榜上达到了最先进的精度。

BTCV

在 BTCV 中, SwinUnetr 的平均骰子数为 0.918 ,优于其他排名靠前的模型。

pYYBAGL572iAYS0KAAFJcNkiNbo915.png

图 2 :。 BTCV 挑战多器官分割排行榜骰子结果

对于较小的器官,如脾静脉和门静脉( 3.6% )、胰腺( 1.6% )和肾上腺( 3.8% ),与之前的最先进方法相比,有了改进小器官数据标签分割对于放射科医生来说是一项极其困难的任务。

通讯簿标签

在 MSD 中, Swin UNETR 在脑肿瘤、肺、胰腺和结肠方面取得了最先进的表现。心脏、肝脏、海马、前列腺、肝血管和脾脏的结果具有可比性。总的来说, Swin UNETR 在所有 10 项任务中的平均骰子率为 78.68% ,是最好的,并在 MSD 排行榜上排名第一。

pYYBAGL573OASYJ5AAUqdCVicy0245.png

图 4 :。使用 MSD 数据集进行肝血管分割任务的定性输出。你可以看到, Swin UNETR 比 SOTA DiNTS 跑赢了 3% 。这一变化很重要,因为它会导致更准确的分段输出

与DiNTS(一种用于医学图像分割的强大AutoML方法)相比,Swin UNETR使用更少的训练时间,显示出更好的分割性能。例如,肝血管分割任务的定性分割输出证明了Swin UNETR能够更好地建模长期空间依赖性。

pYYBAGL574GAYNO0AAIuPO-qS8I870.png

图 5 :。 Swin UNETR 模型体系结构由一个 Swin transformer 编码器组成,该编码器使用 3D 补丁,并通过不同分辨率的跳过连接连接到基于 CNN 的解码器

结论

Swin UNETR 体系结构在使用变压器的医疗成像方面提供了急需的突破。鉴于医学成像需要快速构建准确的模型, Swin UNETR 体系结构使数据科学家能够对大量未标记数据进行预训练。这减少了放射科医生、病理学家和其他临床团队进行专家注释的成本和时间。这里我们展示了用于器官检测和自动体积测量的 SOTA 分割性能。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4022

    浏览量

    143730
  • 计算机
    +关注

    关注

    19

    文章

    7851

    浏览量

    93597
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    《多模态大模型 前沿算法与实战应用 第一季》精品课程简介

    将不同模态特征拼接,适用于模态间关联紧密的场景。例如在视频分类中,将RGB帧、光流、音频特征拼接后输入3D CNN。 晚期融合 :各模态独立处理后融合输出,适用于模态间独立性较强的场景。例如在情感分析
    发表于 05-01 17:46

    倍加福基于双目视觉技术的SmartRunner 3D传感器介绍

    当我们迈入自动化的“三维时代”,SmartRunner Explorer 3D不仅能生成清晰的2D图像,还可输出高精度的3D点云数据。
    的头像 发表于 04-08 10:39 438次阅读
    倍加福基于双目视觉技术的SmartRunner <b class='flag-5'>3D</b>传感器介绍

    如何快速查找工业部件的 3D CAD 模型

    如何找到经过认证的工业零件 3D CAD 模型,而无需猜测。 如果您是工程师、设计师或规划师,您可能已经花费了无数的时间来寻找 CAD 文件,但这些文件要么与真实零件不符,要么无法加载到您
    发表于 03-04 16:22

    常见3D打印材料介绍及应用场景分析

    3D打印材料种类丰富,不同材料性能差异明显。本文介绍PLA、ABS、PETG等常见3D打印材料的特点与应用场景,帮助读者了解3D打印用什么材料更合适,为选材提供基础参考。
    的头像 发表于 12-29 14:52 1081次阅读
    常见<b class='flag-5'>3D</b>打印材料介绍及应用场景<b class='flag-5'>分析</b>

    京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体验

    随着京东 11.11 大促的火热进行,京东直播再度升级技术布局,以 “立影 3D 技术”“JoyAI大模型”等创新技术,打破传统直播边界,为用户带来更具沉浸感、趣味性的购物体验,引领直播电商技术创新
    的头像 发表于 10-27 14:58 761次阅读

    技术资讯 I 图文详解 Allegro X PCB Designer 中的 3D 模型映射

    本文要点面对市面上的一切要将PCB板放进一个盒子里的产品的设计都离不开3D模型映射这个功能,3D协同设计保证了产品的超薄化、高集成度的生命线;3D
    的头像 发表于 10-17 16:16 2160次阅读
    技术资讯 I 图文详解 Allegro X PCB Designer 中的 <b class='flag-5'>3D</b> <b class='flag-5'>模型</b>映射

    玩转 KiCad 3D模型的使用

    “  本文将带您学习如何将 3D 模型与封装关联、文件嵌入,讲解 3D 查看器中的光线追踪,以及如何使用 CLI 生成 PCBA 的 3D 模型
    的头像 发表于 09-16 19:21 1.2w次阅读
    玩转 KiCad <b class='flag-5'>3D</b><b class='flag-5'>模型</b>的使用

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类的视觉能力,从而推动创新应用。3D 视觉解决方案大致分为立体视觉、结构光和飞行时间 (TOF) 技术
    发表于 09-05 07:24

    索尼与VAST达成3D业务合作

    近日,索尼空间现实显示屏与VAST旗下的3D模型Tripo AI正式宣布达成业务合作:双方将围绕裸眼3D显示技术、AI驱动的3D内容生成与交互创新展开深度协同,致力于通过索尼空间现实
    的头像 发表于 08-28 17:32 1843次阅读

    3D激光轮廓仪可实现在线3D测量和检测

    Z-Trak™ Express 1K5 系列专为实现经济高效的在线3D测量和检测而设计,具有高速检测能力和实时处理性能。
    的头像 发表于 08-08 17:17 1213次阅读
    <b class='flag-5'>3D</b>激光轮廓仪可<b class='flag-5'>实现</b>在线<b class='flag-5'>3D</b>测量和检测

    EtherCAT科普系列(17):EtherCAT技术在多自由度 3D 打印领域应用

    3D打印技术即三维快速成型打印技术,是一种新型增材制造方式。区别于传统的“减材制造技术”,3D打印通过数字化模型离散目标实体模型,再通过材料
    的头像 发表于 07-28 11:53 2601次阅读
    EtherCAT科普系列(17):EtherCAT技术在多自由度 <b class='flag-5'>3D</b> 打印领域应用

    TechWiz LCD 3D应用:FFS仿真

    建模任务 堆栈结构 建模过程 2.1使用TechWiz Layout绘制各层掩模版平面图 2.2创建堆栈结构,并生成3D结构 2.3 使用TechWiz LCD 3D进行各项参数计算 3. 结果
    的头像 发表于 07-14 14:08 1009次阅读
    TechWiz LCD <b class='flag-5'>3D</b>应用:FFS仿真

    文件嵌入详解(一):在PCB封装库中嵌入3D模型

    “  从 KiCad 9 开始,就可以在封装中嵌入 STEP 3D 模型,而不只是简单的关联。这样在复制封装、3D库或路径发生变化时就不用再次重新关联了。  ”   文件嵌入 从 KiCad 9
    的头像 发表于 07-08 11:16 3174次阅读
    文件嵌入详解(一):在PCB封装库中嵌入<b class='flag-5'>3D</b><b class='flag-5'>模型</b>

    UFI滤清器液压系统公司(UFI Filter Hydraulics)3D零部件产品数据库

    多格式的高质量3D模型产品选型。 UFI Filters液压产品的3D目录现在包含10000多个模型,并且还在不断扩充。它为工业和移动应用提供了各种滤清器,包括
    发表于 05-28 14:10

    3D AD库文件

    3D库文件
    发表于 05-28 13:57 6次下载