0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用NVIDIA Clara Parabricks v4.0大众化和加速基因组测序分析

星星科技指导员 来源:NVIDIA 作者:Harry 2022-10-11 14:18 次阅读

计算生物学领域依赖于快速、准确和易于使用的生物信息学工具。随着下一代测序( NGS )的速度越来越快、成本越来越低,数据洪流正在出现,人们对可访问、高通量、行业标准分析的需求日益增长。

2022 年 GTC ,我们宣布发布 NVIDIA Clara Parabricks v4.0 ,这对基因组研究人员和生物信息学家部署和扩展基因组测序分析管道的方式带来了重大改进。

Clara Parabricks 软件现在对 NGC 研究人员免费提供 作为单独的工具或统一的容器。需要企业级支持的客户可以通过 NVIDIA AI Enterprise 获得许可版本。

Clara Parabricks 现在很容易集成到通用工作流语言中,例如工作流描述语言( WDL )和 NextFlow ,用于将 GPU 加速工具和第三方工具交织在一起,以及在本地和云中进行可扩展部署。还支持 Broad Institute 的 Cromwell 工作流管理系统。

CPU Parabricks 现在可以部署在 Broad Institute 的 Terra SaaS platform 上,使 25000 多名 Terra 科学家可以使用它。与 Clara 环境中的 24 小时相比,使用 Clara Parabricks 可以将基因组分析缩短到一小时多一点,同时将整个基因组测序分析的成本降低 50% 。

Clara Parabricks 继续专注于 GPU 加速、行业标准和基于深度学习的工具,并包括最新的 DeepVariant v1.4 生殖线调用者。 Clara Parabricks 的重点是开发与定序器无关的工具和深度学习方法。

Clara Parabricks 现在可以通过更多的云提供商和合作伙伴使用,包括 Amazon Web Services 、 Google cloud Platform 、 Terra 、 DNAnexus 、 Lifebit 、 Agilent Technologies 、英国生物银行研究分析平台( RAP )、 Oracle cloud Infrastructure 、 Naver cloud 、阿里云和百度 AI cloud 。

研发的免许可使用

Clara Parabricks v4.0 现在可完全免费用于研发。这意味着比以往任何时候都更少的技术障碍,包括删除以前版本的基因组分析软件中存在的安装脚本和企业许可服务器。

这也意味着大大简化了部署,能够在任何 NVIDIA 认证的系统上快速轻松地拉取和运行 Clara Parabricks Docker 容器,在本地或云中使用最为方便。

需要企业级技术和工程支持以支持其生产工作流的商业用户,或者需要与 NVIDIA 专家合作开发新功能、应用程序和性能优化的商业用户现在可以订阅 NVIDIA AI Enterprise Support 。 NVIDIA AI Enterprise v3.0 即将发布, Parabricks v4.0 将提供此支持。

NVIDIA AI Enterprise Support 订阅提供全栈支持(从容器级别,到完全本地和云部署)、访问 NVIDIA Parabricks 专家、安全通知、 IT 或数据科学等领域的企业培训,以及对 TensorFlow 、 PyTorch 、 NVIDIA TensorRT 和 NVIDIA RAPIDS 的深度学习支持。了解有关 NVIDIA AI Enterprise Support Services and Training 的更多信息。

Parabricks-Options-Table.png

图 1.免费访问 Clara Parabricks 中的所有工具,包括管道和工作流

在 WDL 和 NextFlow 工作流中部署

现在,您可以直接从 NGC collection containers 中提取 Clara Parabricks ,而无需授权服务器,这意味着它可以轻松地作为多种系统和平台上可扩展和灵活的生物信息学工作流的一部分运行。

这包括流行的生物信息学工作流管理器 WDL 和 NextFlow ,可在新的 Clara-Parabricks-Workflows GitHub repo 上获得,供生物信息学社区通用。您可以找到以下 WDL 和 NextFlow 工作流或模块:

BWA-MEM 与 Clara Parabricks FQ2BAM 对齐和处理

运行加速 HaplotypeCaller 和 DeepVariant 的生殖线调用工作流,可选择应用 GATK 最佳实践

BAM2FQ2BAM 工作流程,用于提取读取并重新对准新的参考基因组(例如 T2T 完成的人类基因组)

使用加速 Mutect2 的体细胞工作流,具有可选的法线面板

为 VCF 中的体变量调用生成新法线面板的工作流

用于构建参考索引的工作流(对于前面列出的几个工作流和任务来说是必需的)

此外,与国家癌症研究所的研究人员合作开发的三组数据中的从头突变调用工作流将于今年晚些时候提供。

这些工作流带来了令人印象深刻的灵活性,使用户能够将 Clara Parabricks 的 GPU 加速工具与第三方工具交织在一起。他们可以为每个任务指定单独的计算资源,然后在本地集群(例如,在 SLURM 上)或云平台上大规模部署。有关示例配置和推荐的 GPU 实例,请参阅 Clara-Parabricks-Workflows GitHub repo 。

pYYBAGNFCsuAbNr5AAFPTkOYvBk183.png

图 2.直接从 Clara Parabricks Docker 容器中拉出并指定 gpuType and gpuCount compute requirements

在本地或云中运行

Clara Parabricks 非常适合云部署。它可以在多种云平台上运行,包括 Amazon Web Services 、 Google Cloud Services 、 DNAnexus 、 Lifebit 、百度人工云、 Naver cloud 、 Oracle cloud Infrastructure 、阿里云、 Terra 等。

Clara Parabricks v4.0 WDL 工作流现已集成到 Broad Institute 的 Terra 平台中,供 25000 多名科学家进行加速基因组分析。 Terra 的可扩展平台运行在 Google Cloud 之上,后者拥有 NVIDIA 车队 GPU 。在 CPU 环境中,对 30 倍全基因组进行 FASTQ 到 VCF 分析需要 24 小时,而在 Terra 环境中, Clara Parabricks 只需要一个多小时。此外,成本降低了 50% 以上,从 5 美元降至 2 美元(图 3 )。

在 Terra 平台中,研究人员可以比在本地环境中更容易地访问大量数据。他们只需按一下按钮就可以访问 Terra Community Workbench Parabricks 工作区,而不是手动管理和配置硬件。从 Clara 上的 Clara Parabricks 页面开始。

pYYBAGNFCtKAF-iwAAF9fN5sfD0526.png

图 3.在 Terra 中运行的 FASTQ 到 VCF

当使用 Clara Parabricks 和 NVIDIA GPU 时, 30 倍全基因组(包括 BWA-MEM 、 MarkDuplicates 、 BQSR 和 HaplotypeCaller )的种系分析的运行时间和计算成本(可抢占定价)大大减少。

Clara Parabricks v4.0 工具和功能

Clara Parabricks v4.0 是一个比以前版本更专注的基因组分析工具集,具有快速校准、金标准处理和高精度变体调用。它提供了自由无缝地交织 GPU 和 CPU 任务的灵活性,并优先考虑基因组学工作流中最流行和瓶颈工具的 GPU 加速。 Clara Parabricks 还可以整合基因组学中的前沿深度学习方法。

poYBAGNFCtKAeOnMAADVYqAuVeI248.jpg

图 4. NVIDIA Clara Parabricks v4.0 工具集

单个 Clara Parabricks 工具现在也可以在 Clara Parabricks collection on NGC 中的单个容器中提供,或者作为一个统一的容器,将所有工具包含在一个容器中。对于单个容器,生物信息学家可以访问精益容器, Clara Parabricks 团队可以推动更频繁的敏捷工具发布,以访问最新版本。

这些版本中的第一个是针对 DeepVariant 1.4 版。这个最新版本的 DeepVarant 提高了多个基因组测序器的准确性。 Illumina 全基因组和全外显子组模型有一个额外的读 – 插入 – 大小特征,可减少 4-10% 的错误,并在 PacBio 测序运行中直接定相以获得更准确的变体调用。这意味着您现在可以使用诸如 DeepVariant WhatsHap DeepVariant 或 PEPPER Margin DeepVarient 之类的管道,直接在 DeepVaarint 中执行阶段变量调用 PacBio 数据的高精度过程。

DeepVariant v1.4 还与新兴基因组测序仪器的多个自定义 DeepVariant 模型兼容。与 NVIDIA Clara Parabricks 团队合作, GPU 加速了这些模型,以在测序仪器中提供快速、高精度的变量调用。 DeepVariant 1.4 版现已在 Clara Parabricks collection on NGC 中提供。

基因组学和精确医学的深度学习方法是 Clara Parabricks 的一大重点,并在 GTC 2022 NVIDIA and Broad Institute 关于基因组分析工具包( GATK )和 DNA 和 RNA 大型语言模型的进一步发展的公告中予以强调。

关于作者

作为NVIDIA 基因组学的高级产品架构师, Harry 致力于工程和产品开发之间的接口,利用NVIDIA 在人工智能、高性能计算( HPC )和数据分析堆栈方面的专业知识,以加速高精度解决方案解决基因组学工作流问题。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101719
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4417

    浏览量

    126705
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119910
收藏 人收藏

    评论

    相关推荐

    Xilinx FPGA在基因组测序中的优势

    PrecisionFDA平台是基因组信息学社区和共享数据平台,这是一个为研究人员准备的开源、基于云的工具,它将为下一代测序诊断提供依据,并且为所有开发者提供统一的、可共享的在线基因组信息数据库
    发表于 07-11 08:33 1772次阅读

    阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内

    ,每年我们会产生非常多的基因数据,明年我们计划对十万人进行基因组基因测序分析,我们将与阿里云计算平台一起在2018年
    发表于 03-19 10:50

    基因组数据CNV分析简介 精选资料分享

    除了利用aCGH和snp芯片来检测CNV之外,也可以通过NGS数据来分析CNV, 比如全基因组和全外显子测序。针对全基因组CNV的检测,还针对开发了一种称之为C...
    发表于 07-29 08:24

    基因组测序的优势 精选资料分享

    基因组测序的优势目前,随着高通量测序技术快速发展、测序成本的进一步降低以及组装方法的不断完善,全基因组
    发表于 07-29 08:31

    基因组CNV分析的策略是什么?

    基因组CNV分析的策略是什么?
    发表于 10-27 06:43

    基因组测序的优势是什么?

    基因组测序的优势是什么?
    发表于 10-27 06:27

    华大发布高精度基因组标准及解决方案 开启基因组测序“全高清”时代

    基因组测序“全高清”时代!
    的头像 发表于 06-19 15:10 3130次阅读

    NVIDIA的GPU加速将有望突破基因测序分析的瓶颈

    NVIDIA的深度学习和加速计算技术的帮助下,基因组学将有望成为主流。
    发表于 03-21 09:47 803次阅读

    NVIDIA Clara Parabricks助力基因组学和药物研究

    世界上最大的遗传学研究鉴定数据库使科学家能够访问NVIDIA Clara Parabricks,以加速推进基因组学和药物研发领域的发展。
    的头像 发表于 02-17 11:07 1212次阅读

    Clara Parabricks 3.7可加速基因组分析

    种工具, Clara Parabricks 为临床和研究工作流程中的基因面板、外显子组和基因组提供准确和加速
    的头像 发表于 04-06 15:43 1133次阅读
    <b class='flag-5'>Clara</b> <b class='flag-5'>Parabricks</b> 3.7可<b class='flag-5'>加速</b><b class='flag-5'>基因组</b>的<b class='flag-5'>分析</b>

    加速基因组分析扩展到RNA 、基因面板和注释

    NVIDIA Clara Parabricks v3 的发布。 6 去年夏天,在 全基因组和全外显子组测序
    的头像 发表于 04-10 17:19 1889次阅读
    将<b class='flag-5'>加速</b><b class='flag-5'>基因组分析</b>扩展到RNA 、<b class='flag-5'>基因</b>面板和注释

    使用NVIDIA Clara Parabricks 3.8加速基因组分析

      与基于CPU的环境相比,最先进的生物信息学工具的速度提高了60倍。全基因组工作流程的端到端分析只需22分钟,外显子组工作流程只需4分钟。大规模测序项目和其他全基因组研究能够在一台D
    的头像 发表于 06-21 15:23 1099次阅读
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Clara</b> <b class='flag-5'>Parabricks</b> 3.8<b class='flag-5'>加速</b><b class='flag-5'>基因组分析</b>

    百度智算峰会精彩回顾:GPU 加速药物研发与基因组学分析

    日,“2022 百度云智峰会·智算峰会”成功举办。 NVIDIA 资深解决方案架构师翟健 分享了以“ GPU 加速药物研发与基因组学分析 ”为题的演讲,介绍了 NVIDIA 如何利用
    的头像 发表于 12-29 00:00 619次阅读

    人工智能如何改变基因组学?

    AI 和加速计算正在为基因组测序流程开辟新的可能性。 全基因组测序领域的进步已经点燃了数字生物学的革命。 随着新一代高通量
    的头像 发表于 04-05 00:25 407次阅读

    GPU助力基因组测序分析

    等。随着近几年基因测序成本如图 1所示不断下降,在万元内即可完成人类的全基因组测序,GPU的技术发展也带来分析成本与时间的下降,于是用于检测
    的头像 发表于 08-01 10:32 1154次阅读
    GPU助力<b class='flag-5'>基因组</b>重<b class='flag-5'>测序</b><b class='flag-5'>分析</b>