0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度智算峰会精彩回顾:GPU 加速药物研发与基因组学分析

NVIDIA英伟达 来源:未知 2022-12-29 00:00 次阅读

生命科学是前沿科技创新的关键领域。AI云计算、大数据等互联网技术的发展,正在为基因测序、生物医药、AI 与大数据应用等方面注入新动能,加速生命科学领域相关企业的智能化升级。

12 月 27 日,“2022 百度云智峰会·智算峰会”成功举办。NVIDIA 资深解决方案架构师翟健分享了以“GPU 加速药物研发与基因组学分析”为题的演讲,介绍了 NVIDIA 如何利用 GPU 和加速软件推动 AI 驱动的药物研发与基因组学分析,包括 NVIDIA 与百度智能云在赋能药物研发、基因测序分析方面的合作。以下为内容概要。

1c5a96a0-86c8-11ed-bfe3-dac502259ad0.png

GPU 加速助力药物研发

CLARA 是 NVIDIA 在医疗方向的 SDK 平台,它借助于 NVIDIA 的基础软硬件平台,为医疗用户提供了医疗设备、制药、影像、基因以及智慧医院等五个方面的能力,从而为医疗的终端用户,针对具体的应用场景提供完备的加速能力。

而其中的 CLARA Discovery 是 CLARA 平台下面向药物研发场景的重要解决方案,它基于 NVIDIA 的 AI 和 HPC 能力来辅助加速药物研发的工作流程。目前该方案已经纳入到了百度智能云赋能药物研发的解决方案中。

1c68158c-86c8-11ed-bfe3-dac502259ad0.png

医疗领域的前期研发过程当中会涵盖如下几个过程:集靶点发现、化学分子生成、蛋白质性质结构预测、药物分子与蛋白质进行对接打分,构建自由能 FEP 等。

整个制药行业涉及到两个学科,结构生物学与计算化学。而这两个学科都涉及到传统的 HPC 与新兴的 AI 方法,而且 AI 的方法相较于 HPC 的方法会有比较明显的速度上的优势。

目前 AI 正在颠覆整个药物研发的过程,包括在靶点发现方面、虚拟筛选以及分子生成、结构预测,甚至在临床上应用的自然语言模型,都是 AI 加速的体现。

AI 中 Transformer 模型正在逐渐地应用在药物研发领域中。左边的四张小图来自于 MegaMolBART 与 Protrans 一系列突破性的论文,表明基于 Transformer 的预训练模型可以有效地加速分子生成和蛋白质的结构预测。

1c78ce22-86c8-11ed-bfe3-dac502259ad0.png

右上角展示的就是 Transformer 模型的 Encoder-Decoder 的架构形式,它们可以用在诸如右下方的几个典型领域,包括:小分子模型的生成、反应序列的预测、蛋白质结构预测、生物医学领域的 NLP 以及图像分析等。

NVIDIA 基于在大语言模型上的经验,推出了 BioNeMo 的解决方案,它是一款可以在云端进行训练和部署的服务框架,主要面向有大语言模型需求的药物研发人员。此外,它基于 NVIDIA 的 GPU 硬件也做了很好的优化工作,并且提供了多种预训练模型,支持云原生的服务,极大地加速了药物研发的工作流程。

1c83ecd0-86c8-11ed-bfe3-dac502259ad0.png

这一页展示的是 BioNeMo 的逻辑架构,最底层的是 NVIDIA 加速的计算平台。下面开始第二层是 NVIDIA 的大语言模型平台 NeMo Megatron,是 BioNeMo 的快速训练和部署的重要保证。

BioNeMo 提供了多种预训练的 Transformer 类的模型,分别针对化学分子生成、蛋白质结构序列预测、DNA 的 embedding 等几个方面。最终这些都服务于我们最上层中,药物研发领域里几个典型应用场景。

BioNeMo 的三个典型特点是:

一,它支持分子、蛋白质和核苷酸的 SMMILES 和 FASTA 的表征。

二,它含有多种预训练模型,像我们刚才提到的 MegaMolBART 等。

三,它可以在云端部署相应的、可视化界面的服务。

这里跟大家分享一个案例,Vyasa 是一个面向药物研发的 AI 解决方案提供商,他们在方案中整合了 BioNeMo 中的 MegaMolBART 模型,从而实现了终端用户在本地和云端都可以利用 GPU 对药物分子生成过程进行加速。也正因为如此,他们的用户 Memorial Solan Kettering 学院采购了 NVIDIA 的 DGX 服务器用于加速这一类型的工作负载。

除了在分子生成、蛋白质结构性质预测方面,NVIDIA 提供了很好的加速优化。在虚拟筛选和仿真的过程当中,NVIDIA 也协同了众多的开源社区、高校,加速了传统 HPC 领域当中的对接、分子动力学和量子化学里的常用软件。

1c8bfdf8-86c8-11ed-bfe3-dac502259ad0.png

这张图中展示的就是我们在三个领域当中常用的一些软件。这些软件 NVIDIA 都提供了相应的 GPU 加速版本,大家可以在 NVIDIA 的 NGC 平台(https://catalog.ngc.nvidia.com/ )进行下载

下面展示的是分子动力学软件 Gromacs 的 GPU 版本的性能评测。可以看到,在 NVIDIA 的 A100 和 V100 GPU 上,Gromacs 都同比 CPU 获得了极好的加速。

1c9c7e30-86c8-11ed-bfe3-dac502259ad0.png

类似的,这一页展示的是量子化学软件 VASP CPU-GPU 的性能对比。NVIDIA 的 V100 和 A100 GPU 同样都获得了极高的加速。

1ca55e1a-86c8-11ed-bfe3-dac502259ad0.png

GPU 加速突破基因测序分析瓶颈

接下来让我们介绍一下 NVIDIA GPU 在加速基因组学方面的方案。

在今年春季的 NVIDIA GTC 大会上,来自于斯坦福大学的团队介绍了他们如何基于 NVIDIA GPU 打破了基因测序的世界纪录。他们将人类的基因测序缩短到了 7 小时 18 分钟,完成了湿实验和在计算机上的数据分析等过程。

而在基因测序方面,一般包括如下三个环节:一,通过测序仪得到数据之后进行的一级分析过程,完成四分类任务;二,在计算机上完成一致性对比处理、变体识别等二级分析过程;三,最后的三级分析则是对大量的数据进行处理。而这三个过程目前都是可以用 GPU 实现加速的。分别可以通过 GPU 加速的 TensorFlow、PyTorch,以及 TensorRT 进行一级分析加速。通过 CLARA Parabricks 对二级分析进行加速。利用 RAPIDS、MONAI 等可以加速三级分析。

下面让我们来介绍一下二级分析的软件 CLARA Parabricks。CLARA Parabricks 是一款利用 GPU 加速高通量、高精度的 DNA 和 RNA 测序分析工具,主要用于人类基因组学分析、癌症基因筛查、RNA 测序分析等。目前其中含有 60 多个工具模块,包括基因数据的一致性比对、金标准处理和质量把控、高精度遍体识别等范畴类的多种常用工具。

这一页展示的是 CLARA Parabricks 目前支持的工具模块的部分内容,基本上涵盖了主流的基因测序二级分析中的大部分工具。

1cac6b88-86c8-11ed-bfe3-dac502259ad0.png

使用 CLARA Parabricks 可以实现对典型的应用的加速,它是针对金标准的种系、体细胞和 RNA 的加速工具。而且目前使用 Ampere 架构的 GPU 可以实现 80 倍的加速,精度方面也能够保证,且具有比较灵活的工作流程。

那么谈到这里就要说一下 CLARA Parabricks 的几大特点了。因为它是模块化的工具,所以可以通过各种倾向性的组合,可以灵活选择 CLARA Parabricks 当中的各种模块。

同时刚才提到它的工作流程灵活,是因为它对主流的基因组学分析中的 workflow 管理器都支持,包括 WDL,nextflow 等。此外,它还对 Google 的 DeepVariant 1.4 版本的变体识别工具也做了很好的支持。

接下来我们来看看 Parabricks 的 benchmark。可以看到,列举的几个模块在 GPU 上,同比 CPU 都具有非常好的加速效果。而且在 A100 上可以最高实现 80 倍的加速。这一页展示的就是分别在 2 张、4 张和 8 张 A100 上同比 CPU 实现加速的效果。

1cb770b4-86c8-11ed-bfe3-dac502259ad0.png

同时,在癌症的基因筛查中,端到端的流程也可以在 GPU 上实现比较明显的加速。

2022 年春季 GTC 大会上,NVIDIA 发布了 Hopper 架构的 GPU。该架构的 GPU 对于动态编程做了很好的加速,单就动态编程这一特性,Hopper 架构就比上一代的 Ampere 架构有了 7 倍的理论加速。而在基因组学分析中,动态编程技术是需要被频繁使用到的,也因此,Hopper 架构的 GPU 可以给基因测序带来重大的收益。

上文提到的,斯坦福大学创造的基因测序世界纪录就是借助 NVIDIA CLARA Parabricks 实现的。

这里再跟大家分享一个案例,就是英国的 BioBank 这家公司,他们要处理 50 万个外显子,这些在 CPU 上需要 1 个小时才能得到结果,而 GPU 将这个过程仅仅缩短到了 5 分钟,成本下降了 60%。

这里展示了 CLARA Parabricks 的资料参考页,感兴趣的听众可以登陆 CLARA Parabricks 的网页了解更多的内容。同时,CLARA Parabricks 已经可以在百度智能云上使用了,在云上的 GPU 最佳实践专栏中还提供了 CLARA Parabricks 的使用方式和详尽介绍,感兴趣的同学可以登陆https://cloud.baidu.com/doc/GPU/s/pl6vzliqu了解更多内容。


在加速三级分析这部分,同样可以使用 GPU 版本的大数据处理 SDK RAPIDS。RAPIDS 是一个端到端的 GPU 加速数据科学的 SDK。它包括数据处理的 SDK cuDF,用于传统机器学习的 SDK cuML,图计算 SDK cuGraph,以及一些可视化的库、众多延伸的库等。基本上 NVIDIA 非深度学习类的 GPU 加速库都在这里了。

单个细胞的三级分析依赖于众多的传统机器学习与大数据的方法,比如回归聚类等算法以及一些可视化的方法。右边展示的就是针对 scRNA 序列处理的聚类,回归与可视化端到端运行的时间。可以看到,使用 GPU 可以降低整体的运行时间。

1cc5c362-86c8-11ed-bfe3-dac502259ad0.png

最后让我们再次回顾一下这张图,NVIDIA GPU 在一级至三级分析上都有相应的解决方案。尤其在二级分析和三级分析上,NVIDIA 提供 CLARA Parabricks 和 RAPIDS 方案,可以带给用户更好的性能与性价比的提升。这也是斯坦福大学利用 GPU 打破基因测序世界纪录的根本原因。

上面提到的这些软件,大家可以登陆 NVIDIA NGC 平台(https://catalog.ngc.nvidia.com/ )下载相应的软件进行体验。


原文标题:百度智算峰会精彩回顾:GPU 加速药物研发与基因组学分析

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3329

    浏览量

    87773

原文标题:百度智算峰会精彩回顾:GPU 加速药物研发与基因组学分析

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA AI助力百余家公司加速药物研发创新

    药物研发领域,NVIDIA的AI技术正发挥着日益重要的作用。Cadence、Iambic Therapeutics等超过100家公司已采用NVIDIA的AI解决方案,推动计算机辅助药物研发
    的头像 发表于 03-27 10:31 157次阅读

    新品上市,公有云轻安防就选目凌云! #人工智能 #目 #目凌云 #百度智能云

    人工智能百度智能云
    jf_98614062
    发布于 :2024年02月19日 11:39:42

    利用GPU加速在Orange Pi 5上跑LLMs:人工智能爱好者High翻了!

    本期视频将会给人工智能爱好者们带来超级震撼!视频中,我们将深入了解利用GPU加速在OrangePi5上跑LLMs的精彩世界。最近知乎上的一篇文章《利用GPU
    的头像 发表于 01-22 15:29 538次阅读
    利用<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>在Orange Pi 5上跑LLMs:人工智能爱好者High翻了!

    精彩回顾| “NVIDIA AI 研发技术开放日” 演讲视频全集!

    技术开放日 上,共邀请了 10 位来自 NVIDIA 加速计算专家团队的讲师,深入互联网核心应用场景,聚焦五大技术热点,与大家分享了加速计算的优化经验。 演讲视频已正式上线 欢迎扫描下方二维码,观看精彩内容: 演讲一
    的头像 发表于 11-09 10:45 202次阅读
    <b class='flag-5'>精彩</b><b class='flag-5'>回顾</b>| “NVIDIA AI <b class='flag-5'>研发</b>技术开放日” 演讲视频全集!

    精彩回顾 | “NVIDIA AI 研发技术开放日” 演讲视频全集!

    技术开放日 上,共邀请了 10 位来自 NVIDIA 加速计算专家团队的讲师,深入互联网核心应用场景,聚焦五大技术热点,与大家分享了加速计算的优化经验。 演讲视频已正式上线 欢迎扫描下方二维码,观看精彩内容: 演讲一
    的头像 发表于 11-09 10:45 188次阅读
    <b class='flag-5'>精彩</b><b class='flag-5'>回顾</b> | “NVIDIA AI <b class='flag-5'>研发</b>技术开放日” 演讲视频全集!

    英码科技精彩亮相火爆的IOTE 2023,多面赋能AIoT产业发展!

    产品,包括覆盖多层次力的智能工作站(边缘计算盒子)、AI加速卡等;同时向大家展示自研的AI技术服务——“深元”0代码移植工具链和创新性的行业解决方案,赋能更多AIoT产业生态企业快速具备AI能力
    发表于 09-25 10:03

    PCR基因扩增实验室装修设计解决方案-生命科学

    的预防与控制: PCR实验室设计的核心问题是如何避免污染。在实际工作中,常见的有以下几种污染类型:扩增产物的污染;天然基因组DNA的污染;试剂的污染以及标本间的污染。由于一旦发生污染,实验就必须停止
    发表于 09-19 14:28

    鸿蒙升级3.0.0,百度导着航,系统中途会关闭我的定位

    然后百度显示没有定位了,就自动开启智能导航。系统决定我的定位开关设置在哪里,我记得以前开定位是手动开关的。升级后,下拉菜单打开定位,百度导航开着一会系统定位就被关闭了。害得我跑错了好多路。现在就是我的百度导航根本没法用
    发表于 09-03 23:34

    峰会回顾第7期 | 视窗绘制技术演进和新趋势

    本帖最后由 OpenHarmony开发者 于 2023-8-22 16:56 编辑 本文转载自 OpenHarmony TSC 官方《峰会回顾第7期 | 视窗绘制技术演进和新趋势》 演讲嘉宾
    发表于 08-22 16:33

    峰会回顾第25期 | 现代化编程现场的探索与实践

    百度代码智能化方向、云IDE平台、代码托管平台、代码静态分析平台、代码搜索服务和效率云平台等业务和团队。国家重点研发计划“基于编程现场大数据的软件智能开发方法和环境”技术骨干,在代码智能化、静态
    的头像 发表于 08-21 17:15 507次阅读
    <b class='flag-5'>峰会</b><b class='flag-5'>回顾</b>第25期 | 现代化编程现场的探索与实践

    GPU助力基因组重测序分析

    等。随着近几年基因测序成本如图 1所示不断下降,在万元内即可完成人类的全基因组测序,GPU的技术发展也带来分析成本与时间的下降,于是用于检测基因组
    的头像 发表于 08-01 10:32 1154次阅读
    <b class='flag-5'>GPU</b>助力<b class='flag-5'>基因组</b>重测序<b class='flag-5'>分析</b>

    基因组重测序的应用领域有哪些

    强异质性,即相同症状、相同病理改变却可能由完全不同的基因变化而造成,以至于同类型癌症患者对于相同药物的药效反应有很大的差别 。这些基因上的变化包含了单碱基突变(SNV)、小片段插入缺失(InDel)、结构与拷贝数变异(SV ol
    的头像 发表于 08-01 10:29 1578次阅读
    <b class='flag-5'>基因组</b>重测序的应用领域有哪些

    用于基因组学、转录组学和临床研究的综合NGS软件

    直观的项目设置和分析,与我们获得专利的组装算法相结合,使您能够以无与伦比的轻松和速度组装和对齐NGS数据,以便您可以专注于结果。不再需要在软件工具之间切换来组装序列、识别重要变异并确定差异表达基因。你需要的一切都在这里。
    的头像 发表于 07-03 16:27 864次阅读
    用于<b class='flag-5'>基因组学</b>、转录组学和临床研究的综合NGS软件

    精彩回顾|2023开放原子全球开源峰会开源商业化创新发展分论坛圆满举办

    原文标题:精彩回顾|2023开放原子全球开源峰会开源商业化创新发展分论坛圆满举办 文章出处:【微信公众号:软通动力】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 06-12 22:10 212次阅读

    利用水凝胶涂层实现硬质微球在液滴中的超泊松分布装载

    在液滴中高效率地封装单个功能化微球对基于液滴的高通量分析具有至关重要的作用,如单细胞基因组学和数字免疫分析
    的头像 发表于 06-09 10:57 843次阅读
    利用水凝胶涂层实现硬质微球在液滴中的超泊松分布装载