0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA DGX A100的DNA测序技术研究

星星科技指导员 来源:NVIDIA 作者:Harry Clifford 2022-04-06 14:18 次阅读

快速且经济高效的全基因组测序和分析可以迅速为患有罕见或未诊断疾病的危重患者提供答案。最近在加速临床测序方面取得的进展,例如创造世界纪录 用于快速诊断的DNA测序技术 ,使我们离在临床环境中进行全基因组基因诊断又近了一步。

斯坦福大学医学院( Stanford University School of Medicine )、NVIDIA ( NVIDIA )、谷歌( Google )、 UCSC 和牛津纳米孔技术( Oxford Nanopore Technologies , ONT )领导的一个团队最近使用这项技术来识别与疾病相关的基因变异,这些变异在短短 7 小时 18 分钟内就得到了诊断,结果于 2022 年 1 月发表在 新英格兰医学杂志 上。

这一创纪录的端到端基因组工作流程依赖于创新技术和高性能计算。它利用长阅读纳米孔测序技术更好地分析结构变体。这是在 48 个流动池中实现的,优化的方法使孔占有率达到 82% ,在短短几个小时内快速生成 202 千兆碱基。对输出的分析分布在一个谷歌云计算环境中,包括 16 个 4xV100 GPU 实例(总计 64 GPU 个)的基调用和对齐,以及 14 个 4xP100 GPU 实例(总计 56 GPU 个)的变体调用。

自一月 NEJM 发表以来,NVIDIA Clara 团队一直在优化 DGX-A100 的全基因组工作流程,使临床医生和研究者能够在八 A100 GPU 上部署与世界记录方法相同的分析,而在 4H10M 中部署 60X 全基因组(图 1 ;在 HG00 参考样品上标明)。

poYBAGJNMMWAX9TFAAVnUS9s298330.png

poYBAGJNMMWAX9TFAAVnUS9s298330.png

图 1 。 NVIDIA DGX-A100 上优化的纳米孔测序工作流程

这不仅可以在本地运行的单服务器( 8-GPU )框架中实现快速分析,还可以将每个样本的成本降低三分之二,从 568 美元降至 183 美元。

基本呼叫和对齐

碱基调用是将原始仪器信号分类为基因组碱基 A 、 C 、 G 和 T 的过程。这是确保所有下游分析任务准确性的计算关键步骤。这也是一个重要的数据缩减步骤,将生成的数据缩减约 10 倍。

以每碱基 340 字节为单位,一个单一的 60 倍覆盖率的整个基因组在原始信号中很容易达到数万亿字节,而在处理时则为数百千兆字节。因此,计算速度有利于与测序输出速度相匹敌,这是非常重要的,通过 48 个流动单元的 128000 个孔,以每秒约 450 个碱基的速度进行。

ONT 的 PromethION P48 测序仪在 72 小时的运行中可以产生多达 10 个 Terabase ,相当于 96 个人类基因组(覆盖率为 30 倍)。

这项工作所需的快速分类任务已经受益于深度学习创新和 GPU 加速。用于此目的的核心数据处理工具包 Guppy 使用递归神经网络( RNN )进行基址调用,可以选择更小(更快)或更大(更高精度)的递归层大小的三种不同架构。

BaseCall 中的主要计算瓶颈是 RNN 内核,它得益于 GPU 与 ONT 序列器的集成,例如桌面网格 Mk1 ,其中包括一个 V100 GPU 和手持 MinION Mk1C ,其中包括一个 Jetson 边缘平台。

比对是将合成的碱基 DNA 片段(现在是 As 、 Cs 、 Gs 和 Ts 的字符串形式)提取出来,并确定这些片段起源的基因组位置,通过大规模并行测序过程组装完整基因组的过程。这基本上是从许多 100-100000 bp 长的读取中重建全长基因组。就创造世界纪录的样本而言,总共有 1300 万次阅读。

在最初的世界记录分析中, basecalling 和 alignment 分别在 Guppy 和 Minimap2 的不同实例上运行。通过将其迁移到单服务器 DGX-A100 解决方案,并使用 Guppy 的集成 minimap2 aligner ,您可以立即节省 I / O 时间,并从 A100 用于 RNN 推断的张量核心中获益。通过在 DGX 上分别平衡八个 A100 GPU 和 256 CPU 线程的基址调用和对齐,这两个进程可以完全重叠,以便与基址调用同时对齐读取,不会对总运行时间造成影响(《 1 分钟)。

这使 DGX-A100 上的 basecalling 和校准步骤的运行时间变为 2h 46m ,这也可以与测序本身重叠。这与 60 倍样本的预期测序时间相似。

变异呼叫

变体调用是工作流的一部分,旨在识别新组装个体基因组中与参考基因组不同的所有点。这包括扫描基因组的全部宽度,以寻找不同类型的变异。例如,这可能包括小的单碱基对变体,一直到覆盖数千个碱基对的大结构变体。世界纪录管道使用胡椒粉作为小变体,使用嗅探作为结构变体。

PEPPER Margin DeepVariant 方法旨在优化小变异,以实现纳米孔测序产生的长读。

PEPPER 通过 RNN 识别候选变体, RNN 由两个双向、选通、循环单元层和一个线性转换层组成。

Margin 然后使用隐马尔可夫模型方法进行一个称为单倍型的过程,确定哪些变体是从母系或父系染色体一起遗传的。它将此信息传递给 Google DeepVariant ,以最大限度地提高杂合子变体调用的准确性。

DeepVariant 通过一个深度卷积神经网络对最终变体进行分类,该网络建立在 Inception v2 体系结构之上,专门适用于 DNA 读取堆积输入图像。

总的来说, PEPPER Margin DeepVariant 允许更快的 PEPPER 神经网络扫描整个基因组寻找候选基因,然后使用更大的 DeepVariant 神经网络对这些候选基因进行高精度的变异调用。为了加速这条管道,世界纪录工作流使用了 Parabricks DeepVariant ,这是一种 GPU 加速的实现,比 CPU 上的开源版本快 20 倍以上(图 2 )。

Clara 团队通过修改 PEPPER Margin 以集成方式运行,按染色体分割数据,并在 GPU 上同时运行程序,进一步加快了速度。 PEPPER 还针对批量大小、工作人员数量和呼叫者数量等管道参数进行了优化,并对 PyTorch 进行了升级,以支持 NVIDIA 安培体系结构加速 RNN 推理瓶颈。

对于结构变量调用, Snifgles 升级为最近发布的 Snifgles 2 ,其效率要高得多,仅在 CPU 上的加速度为 38 倍。

所有这些改进使 DGX-A100 的多变量调用阶段的运行时间达到 1h 24m 。

pYYBAGJNMMaADA9FAAAqFqdzUaE757.png

pYYBAGJNMMaADA9FAAAqFqdzUaE757.png

图 2 。 Parabricks DeepVariant 支持在 ONT 数据上快速运行

视频 1 。危重病人超快速 DNA 测序技术的优化

使用 NVIDIA DGX-A100 为实时测序供电

通过优化 DGX A100 的世界记录 DNA 测序技术,NVIDIA Clara 团队为实时测序提供了动力,简化了单个服务器上的复杂工作流,并且在达到最先进性能的同时,将分析成本降低了 50% 以上。

关于作者

Harry Clifford:作为NVIDIA 基因组学的高级产品架构师, Harry 致力于工程和产品开发之间的接口,利用NVIDIA 在人工智能、高性能计算( HPC )和数据分析堆栈方面的专业知识,以加速高精度解决方案解决基因组学工作流问题。他的背景是生物信息学和功能基因组学,包括来自牛津大学的博士学位、生物制药行业和剑桥大学的博士后经验以及生物技术领域的创业经验。哈里在与人共同创立精准肿瘤公司 CCG 后,被列入福布斯“ 30 岁以下”榜单。 ai (被 Dante Labs 收购),一家由 Y Combinator 和默克加速器支持的初创公司,通过深度学习和高级分析软件提供决策支持。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98749
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101719
收藏 人收藏

    评论

    相关推荐

    高通量测序技术及原理介绍

    高通量测序技术是生物学领域中一种重要的分析工具,它可以快速、准确地测定DNA序列或RNA序列。高通量测序技术的出现,极大地促进了基因组学、转
    的头像 发表于 02-03 14:46 2191次阅读

    英伟达v100A100的差距有哪些?

    英伟达v100A100的差距有哪些? 在当今人工智能和深度学习技术日益发展的时代,高性能计算机显卡已成为支持这些技术发展的关键。英伟达是高性能计算机显卡领域的领导者之一,其v
    的头像 发表于 08-22 16:46 1.5w次阅读

    英伟达a100和h100哪个强?英伟达A100和H100的区别

    英伟达a100和h100哪个强? 就A100和H100这两个产品来说,它们虽然都是英伟达公司的高性能计算产品,但是面向的市场和应用场景不同,所以不能简单地说哪个更强。
    的头像 发表于 08-09 17:31 3.6w次阅读

    英伟达h800和a100的区别

    英伟达h800和a100的区别 NVIDIA H800和A100NVIDIA的两种不同类型的GPU,具有不同的架构和特点。以下是它们之间的区别: 1. 架构:H800使用
    的头像 发表于 08-08 16:05 1.4w次阅读
    英伟达h800和<b class='flag-5'>a100</b>的区别

    英伟达h800和a100参数对比

    英伟达h800和a100参数对比 NVIDIA H800和A100是两款高端的GPU产品,下面是它们的参数对比: 1.架构: H800采用的是Volta架构,而A100则是
    的头像 发表于 08-08 15:53 2.5w次阅读
    英伟达h800和<b class='flag-5'>a100</b>参数对比

    英伟达a100有国产替代吗?

    和昇腾920芯片均具有AI处理能力。另外,国内企业紫光展锐、寒武纪等也在不断推出性能与英伟达A100相近的AI芯片。虽然目前这些芯片还无法完全替代英伟达A100,但随着技术的不断进步和发展,未来会有越来越多的国产芯片可以拥有与
    的头像 发表于 08-08 15:37 3691次阅读

    英伟达A100的算力是多少?

    英伟达A100的算力是多少? 英伟达A100的算力为19.5 TFLOPS(浮点运算每秒19.5万亿次)。 V100 用 300W 功率提供了 7.8TFLOPS 的推断算力,有 210 亿个晶体管
    的头像 发表于 08-08 15:28 2.4w次阅读

    英伟达A100的优势分析

    HBM2显存。 英伟达A100是一款高性能的GPU,其主要优势如下: 1. 支持高效的AI计算:A100采用了新一代的Tensor Core技术,能够在AI计算方面提供卓越的性能,为AI模型的训练和推理
    的头像 发表于 08-08 15:25 2660次阅读

    英伟达A100的简介

    ,内存容量高达40GB。同时,英伟达A100也支持第二代NVIDIA NVLink和PCIe 4.0,具备更高的数据传输带宽和更快的计算速度。该产
    的头像 发表于 08-08 15:17 7613次阅读

    英伟达A100和A40的对比

    TFLOPS的FP32浮点性能和156 TFLOPS的深度学习性能。 英伟达A100和A40是英伟达公司推出的两个数据中心加速器。它们都是基于英伟达的Ampere架构设计的最新GPU,支持全新的NVIDIA
    的头像 发表于 08-08 15:08 1.3w次阅读

    英伟达A100和V100参数对比

    宽带。英伟达A100还配备了英伟达的第三代NVLink互连技术和第二代NVSwitch交换机,可以实现高带宽、低延迟的GPU-GPU通信,提升集群中的计算效率
    的头像 发表于 08-08 11:54 9316次阅读
    英伟达<b class='flag-5'>A100</b>和V<b class='flag-5'>100</b>参数对比

    英伟达A100和H100的区别

    英伟达A100和H100的区别 英伟达A100和H100是两种不同的产品。A100是英伟达在2020年推出的一款基于Ampere架构的数据中
    的头像 发表于 08-07 18:06 2.4w次阅读

    英伟达a100显卡算力介绍

    的HBM2E内存,拥有40GB高速内存,传输带宽达到1.6TB/s,可大大提高显卡的运算速度和效率。 A100显卡还支持Tensor Cores加速器、INT8和INT4混合精度计算等技术,可最大
    的头像 发表于 08-07 17:59 5853次阅读

    英伟达a100和a800的区别

    英伟达a100和a800的区别 英伟达A100和A800是两种不同的产品, 主要区别如下: 1. 架构不同:A100使用Ampere架构,A800使用Volta架构。 2. 计算能力不同:A1
    的头像 发表于 08-07 17:57 3.2w次阅读

    英伟达a100和h100哪个强?

    架构。 英伟达A100是一款基于最新的NVIDIA Ampere架构设计的数据中心GPU,拥有更多的CUDA核心、更高的时钟频率和更大的存储
    的头像 发表于 08-07 17:32 1.1w次阅读