0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过RAPIDS加速单细胞DNA和RNA基因组分析

星星科技指导员 来源:NVIDIA 作者:Avantika Lal 2022-04-27 16:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人体由近 40 万亿个细胞组成,有许多不同类型。实验生物学的最新进展使探索单个细胞的遗传物质成为可能。随着单细胞基因组学这一新领域的诞生,科学家们现在可以探测人体内单个细胞的 DNA 和 RNA 。

单细胞基因组分析已经确定了人体内的新型细胞,发现了是什么使这些细胞彼此不同,以及不同类型的细胞如何对疾病或药物作出反应。单细胞基因组学也被证明是当前 COVID-19 大流行的关键,它可以识别易受感染的细胞并揭示感染患者免疫系统的变化。

pYYBAGJo-1qAVx_-AAEaQhZ8kUc974.png

图 1 。单细胞 RNA 测序实验的工作流程。分离单个细胞并测量每个细胞的基因活性。具有相似基因活性的细胞聚集在一起以识别群体中的各种类型的细胞。

随着最近的实验对数百万个细胞进行测序,单细胞数据的可用性和数据集的大小也在不断增加。这种分析通常是探索性的,并从互动中得到进一步的好处——在更精细的尺度上识别不同类型的细胞,比较细胞类型并可视化它们之间的关系。当前的工作流仍然非常缓慢,这使得它们对于研究所需的交互分析来说是不可能的。

RAPIDS :用 GPUs 加速数据科学

RAPIDS 是一套开源库,通过 GPU 加速的力量,可以加速端到端的数据科学工作流程。 RAPIDS 使得使用类似于 NumPy 、 pandas 和 scikit learn 的 Python api 对大型数据集执行交互式数据分析成为可能。

考虑执行单单元分析的典型工作流。这从一个矩阵开始,这个矩阵映射每个细胞中遇到的每个基因的数量。对数据进行预处理,滤除噪声,然后对数据进行归一化处理,得到每个细胞中每个人类基因的活性。在这一步中,机器学习也常用于纠正数据收集中的工件。接下来,在聚类和可视化之前执行维数缩减,以识别具有相似遗传活动的细胞簇。最后,你比较这些细胞群的遗传活动,以了解为什么不同类型的细胞表现和反应不同。

poYBAGJo-2CAauOPAACZpci4Dm0534.png

图 2 :显示单细胞 RNA 测序数据分析步骤的管道。从每个细胞的基因活性矩阵开始, RAPIDS 库可以用于进行数据处理、降维、聚类和可视化,并在不同的簇间发现不同活性的差异基因。

我们在 clara-parabricks/rapids-single-cell-examples GitHub repo 中发布了这个精确工作流的 GPU – 加速版本。 repo 包含一个示例 notebook ,它使用 RAPIDS 和 Scanpy 分析 70000 个人体肺细胞的数据集,以识别对 COVID-19 敏感的细胞。 Scanpy 是一个用于分析单细胞基因表达数据的工具包,提供了使用 RAPIDS 加速特定命令的选项。我们在回购中也有一个笔记本的 CPU 版本 以供比较。

例如,运行 UMAP 以使用 RAPIDS 可视化近 70000 个单元格需要以下命令:

sc.tl.umap(adata, min_dist=umap_min_dist, spread=umap_spread, method='rapids')

umap-visualization-625x298.png

图 3 。由 RAPIDS 创建的人肺样本中约 70000 个细胞的 UMAP 可视化。细胞被洛文聚类标记。

使用 RAPIDS 生成这个 UMAP 可视化需要 1 秒,而在 CPU 上则需要 80 秒。事实上, RAPIDS 可以加速整个单单元分析工作流程,甚至可以在大型数据集上进行交互式探索性数据分析。

在 11 分钟内分析一百万个细胞

我们将我们的 RAPIDS 分析工作流程应用于现有最大的单细胞数据集之一, 100 万个小鼠脑细胞通过 10 倍基因组学测序。有关详细信息,请参阅 1M_brain_gpu_analysis_uvm.ipynb Jupyter 笔记本。

有了如此大的数据量,对 CPU 的分析变得不切实际地慢了下来;我们的端到端工作流在 awsm5a CPU 实例上运行了 3 个多小时。这使得交互式分析几乎不可能。另一方面,我们在这个更大的数据集上观察到了更高的 GPU 加速,并且能够在一个 GPU 上分析整个数据集。在 AWS 上运行 RAPIDS 分析也比 CPU 版本便宜 3 倍!

用于交互式单细胞分析的 GPU 功能单元浏览器

如前所述, RAPIDS 的数据分析速度使研究人员能够实时交互式地分析数据。我们开发了一个在 Jupyter 笔记本 中运行的、支持 GPU 的交互式小区浏览器,使这一过程更加简单。在这个单元格浏览器中,您可以可视化数据集中的所有单元格,并通过点击方法对数据执行聚类分析。使用 RAPIDS ,这些步骤可以实时运行。

在这篇文章中,我将向您展示如何轻松地选择一组细胞,并执行 UMAP 和 Louvain 聚类来识别这种细胞类型中的子种群。

图 4 通过在交互式单元格浏览器中使用 RAPIDS 指向并单击实时重新聚类选定的单元格组。

结论

在这篇文章中,您看到了使用 RAPIDS 加速 GPUs 上的单细胞基因组分析是多么容易。使用 RAPIDS ,可以方便地实时交互地探索数据,对不同尺度的单元进行聚类,以及对具有不同参数的大型数据集进行重新分析。所有这些都有助于更快的科学发现。

除了涵盖的 API 之外, RAPIDS 还有一个大型的其他算法库,您会发现这些算法在您的工作中很有用。

关于作者

Avantika Lal 是 NVIDIA 基因组学团队的资深科学家。她开发了使用 GPUs 和深入学习来加速和改进人类基因组分析的工具。在 NVIDIA 之前,她是斯坦福大学遗传学和病理学系的博士后研究员。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222942
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    第十二届全国功能基因组学高峰论坛在京举办:聚焦人工智能与多组学融合发展

    时维金秋,群贤毕至。2025年第十二届全国功能基因组学高峰论坛(FGC-12)近日在北京圆满落幕。本届论坛汇聚了包括60余位国内顶尖学者在内的近500名科研院所、高等院校及行业代表,围绕“融汇组学・
    的头像 发表于 11-19 17:05 421次阅读
    第十二届全国功能<b class='flag-5'>基因组</b>学高峰论坛在京举办:聚焦人工智能与多组学融合发展

    一文了解Mojo编程语言

    ,利用硬件加速提升效率。 科学计算与数据处理 高效处理大规模数值分析基因组学数据等任务。 系统工具开发 开发操作系统级工具,结合 Python 的便捷性和 C 的性能优势。 嵌入式与实时应用 适用于
    发表于 11-07 05:59

    序祯达生物利用NVIDIA Parabricks技术加速多组学分析

    序祯达生物是中国领先的多组学和测序服务提供商之一,该公司利用 NVIDIA Parabricks 来加速多组学分析。借助 Parabricks,序祯达生物将全基因组测序的时间从 7 小时缩短至 31
    的头像 发表于 09-29 16:05 621次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+化学或生物方法实现AI

    了整个小鼠海马体,能检测脑细胞的电活动。 2、真菌计算 只能说创造是无价的无线的,真是活到老学到老 3、生物计算 DNA也能被用于计算。 DNA计算还在研究阶段,面临着许多困难,如:DNA
    发表于 09-15 17:29

    NVIDIA RAPIDS 25.06版本新增多项功能

    RAPIDS 是一套面向 Python 数据科学的 NVIDIA CUDA-X 库,最新发布的 25.06 版本引入了多项亮眼新功能,其中包括 Polars GPU 流执行引擎——这是一种面向图
    的头像 发表于 09-09 09:54 734次阅读

    中科曙光超智融合技术重塑生物医药研发新范式

    当前,海量生物数据的处理与分析能力已成为制约行业发展的关键瓶颈。近日,依托曙光超智融合技术建设的华东某全国产计算中心,与单细胞测序领域代表性企业墨卓生物达成战略合作。以强大算力为单细胞测序、蛋白质结构预测及海量临床样本
    的头像 发表于 08-11 11:12 961次阅读

    今日看点丨我国团队研制出系列牛用基因芯片;Littelfuse推出紧凑型PTS647轻触开关系列

    1、我国团队研制出系列牛用基因芯片 日前,国家乳液技术创新中心传来消息,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因
    发表于 07-22 11:26 1908次阅读
    今日看点丨我国团队研制出系列牛用<b class='flag-5'>基因</b>芯片;Littelfuse推出紧凑型PTS647轻触开关系列

    中科曙光构建全国产化基因组学高性能计算平台

    近日,中科曙光承建的国内某研究所基因组学高性能计算平台正式交付。这是国内生物信息学领域首个从底层硬件到上层软件实现完全自主可控,并深度融合高性能计算与人工智能算力的平台,成功填补了该领域国产高端算力的空白。
    的头像 发表于 06-26 17:36 833次阅读

    功率放大器在液滴微流控细胞分选中的应用

    摘要:通过对微液滴的大小和形状进行控制,可以实现对单个细胞的分选。本文综述了国内外在微液滴分选领域的最新研究进展,并介绍了不同类型的功率放大器及其在微流控细胞分选中的应用。基于功率放大器在微液滴分选
    的头像 发表于 04-03 10:08 590次阅读
    功率放大器在液滴微流控<b class='flag-5'>细胞</b>分选中的应用

    太赫兹细胞能量仪主控芯片方案单片机开发控制板布局规划

    被人体吸收,产生热效应,使深层部位温度升高,并使原子团状的水分子活化成小分子水,使其处于高能状态,加速人体需要的生物酶的合成,同时,活化蛋白质,加速供给人体所需要养份,从而增强机体的免疫力和生物细胞
    发表于 03-25 15:37

    Sapphire Rapids与OpenVINO™工具套件是否兼容?

    无法确定 Sapphire Rapids 与 OpenVINO™ 工具套件的兼容性
    发表于 03-05 06:55

    Evo 2 AI模型可通过NVIDIA BioNeMo平台使用

    Evo 2 是一个强大的新型 AI 模型,它基于亚马逊云科技(AWS)上的 NVIDIA DGX Cloud 构建而成,能够帮助用户深入了解不同物种的 DNARNA 和蛋白质。
    的头像 发表于 02-28 09:57 1243次阅读

    NVIDIA携手多家机构推动医疗健康产业变革

    合作的目标直指规模高达10万亿美元的医疗健康与生命科学产业。NVIDIA将凭借其强大的AI和加速计算技术,助力合作伙伴在药物发现、基因组研究等领域实现突破性进展。通过加速计算,科学家们
    的头像 发表于 01-14 14:28 1536次阅读

    NVIDIA 携手行业领先机构推动基因组学、药物发现及医疗健康行业发展

    ——NVIDIA 今日宣布新的合作伙伴关系,旨在通过加速药物发现、提升基因组研究,以及利用代理式和生成式 AI 开创先进医疗服务,推动规模达 10 万亿美元的医疗健康与生命科学产业的变革。   AI、
    发表于 01-14 13:39 548次阅读
    NVIDIA 携手行业领先机构推动<b class='flag-5'>基因组</b>学、药物发现及医疗健康行业发展

    NVIDIA助力FinCatch开发智能投资辅助系统

    本案例中通过 NVIDIA GPU 和 RAPIDS 加速平台,FinCatch 实现了投资研究流程的全面智能化,提升数据分析速度和准确性,帮助投资者快速获取可操作的投资洞察。
    的头像 发表于 01-07 09:23 784次阅读