0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用北鲲云在AWS上运行基因分析HPC任务

Cloudam云端 来源:Cloudam云端 作者:Cloudam云端 2022-11-16 13:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

背景

近三十年来,生命科学与计算科学飞速发展。生物信息学是一门生命科学与计算科学的前沿交叉学科。生物信息学产生和迅猛发展的主要推动力来自于新一代测序等高通量技术在生命科学领域越来越广泛的应用。 基因组学是这一趋势的一个主要例子,其中高通量下一代测序 (NGS) 设备被用于对 DNA、mRNA、调控区域、肠道微生物组等进行测序。计算工作流程也在快速开发和标准化,并且支持动态进行扩展。随着大量基因组数据的收集,处理时间通常在数十亿核心小时的数量级,处理成本也相应增加。因此,客户正在寻找运行时间最短、成本最低的优化工具和系统。通常清况下有2种方式可供选择。 第一种是建设本地计算集群。一方面建设本地大型计算集群成本昂贵,同时峰值负载的能力有限,项目的周期也相对较长,前期成本投入很大。第二种是构筑云上的HPC平台。利用云资源可以快速构建云上HPC平台,云上还提供了最新技术和资源的快速访问,包括最新加速卡或减少计算所需时间的最新一代处理器。通过选择合适的实例类型,可以缩短总体计算时间。

在这篇博文中,我们将展示如何利用北鲲云HPC平台在AWS运行运行基因分析HPC任务。

概述

本指南将向您展示如何通过北鲲云控制台启动基于Amazon EC2构建的slurm集群,该集群提供有一个登录节点,您可以在此节点上通过简单配置结合AWS S3存储快速投递多个基因分析任务。


前置条件

在开始使用北鲲云平台之前您需要做下面准备:

1.拥有访问指定S3 bucket权限的1对AWS AK/SK。

2.用于存放计算输入文件的S3 bucket。

3.用于存放计算结果文件的S3 bucket,也可以使用输入文件bucket的不同目录作为区分。

您可以通过AWS S3控制台来快速创建S3 bucket并上传输入文件,如果已有bucket可跳过此步骤。这是一个简单的过程,仅涉及四个步骤:

1. 登录AWS S3控制台。

2. 创建s3 bucket。

3. 设置bucket权限,推荐私有读写或者使用S3 bucket ACL策略进行更细粒度控制。

通过ACL限制只有指定的IAM角色ROLENAME可以访问指定bucket下的资源(可选步骤):

4. 上传输入文件。

任务整体流程

用户只需要准备好存放输入和输出文件的s3 bucket即可,无需关心集群内部调度细节,非常容易上手使用。


a37284315433503e4920ea87b8435416-30653


注册并登录北鲲云控制台

您可能需要先注册北鲲云账号,账号注册后联系客服可以获得200算力金。

pYYBAGN0YFqAEE-AAArzH0gZMDk529.png



创建Workspace

Workspace是北鲲云为您在AWS上创建的一片虚拟空间,对应了AWS的某个region,后续使用的AWS相关服务和资源都在这个region下进行配置。

您需要先将账号免费升级到企业版才能使用此功能,请联系我们!

您需要选择数据存放相同的地域创建Workspace,选择相同地域的好处是数据在AWS EC2上和S3之间上传下载可以使用内网进行访问,速度更快而且更加安全。

支持免费创建多个Workspace以支持不同的研发团队使用就近的AWS资源。

创建并登录集群登录节点

登录到北鲲云控制台后,首先要选择与您数据存放地域一致或相邻的Workspace, 后续使用的EC2集群及其他资源都在此地域下进行配置。

可通过webssh方式通过浏览器直接登录,也可以通过xShell等其他连接工具连接到集群登录节点内部。

集群登录节点内部已内置虚拟用户,可用于提交基因分析任务。


pYYBAGN0eFGALczKAAJ7EiUILBk618.png


配置AWS AK/SK

AWS CLI 将使用 aws configure 指定的敏感凭证信息存储在主目录中名为 credentials 的文件夹中名为 .aws 的本地文件中。

在集群登录节点内根据提示输入AK/SK进行快速配置。

```

aws configure

```

特别申明:北鲲云不会在未经用户授权的情况下访问用户的EC2,也不会获取用户的数据,用户在使用平台前需要签署电子版法律协议。


准备作业脚本

大部分计算所需要的软件在平台上已经预装好,IT人员不需要安装和配置软件运行环境,缺少您想要的软件请点击这里。

以常用的序列对比软件blast+为例:

使用vim编辑器编写您的作业计算脚本

```

vim job.sbatch

#!/bin/bash

#SBATCH --job-name=example //作业名称

#SBATCH --partition c-64-1 //硬件类型 64核64G

#SBATCH --ntasks=64 //任务数量


#从s3下载您的输入文件

aws s3 cp --quiet s3://genomics-cloudam/input.tar.gz /home/cloudam/

tar -zxvfinput.tar.gz


#加载软件blast+

module addBLAST+/2.2.31


#提交blast+计算任务 相关参数需要替换为实际参数值

blastx -i -o -num_threads


#将结果文件打包上传至s3

tar -zcvfresult.tar.gz /home/cloudam/result

aws s3 cp --quiet/home/cloudam/result.tar.gz s3://genomics-cloudam/

```


提交作业

```

sbatch job.sbatch

```

作业结束后,将会进行后置处理,结果将被写入到s3 bucket内,闲置的EC2服务器将被销毁并立即停止计费。

恭喜!您已使用北鲲云HPC平台在 AWS上成功运行基因分析任务。还有更多的功能等待您来探索。


北鲲云平台和AWS ParallelCluster的对比



AWS ParallelCluster CLOUDAM Platform
数据安全 数据在自己云账号下 不保留用户数据,数据落地都在用户自己云账号下,无需担心数据安全
成本 EC2, 网络,存储都需要收费 仅收取EC2按量使用费用
功能 仅提供基础计算能力,并且都是基于命令行操作 除了基础计算能力还提供了一系列可视化功能例如文件传输,镜像中心,数据集,团队协作,配额管理,操作审计,账单报表,安全管理,系统管理等功能,并提供完善的技术支持服务
易用性 IT人员需要手动配置和维护集群,需要单独安装软件和配置使用环境,仅支持命令行操作 配置简单,IT人员无需手动配置集群,无需安装计算软件,提供命令行提交,可视化作业提交和图形界面提交等多种作业提交方式


结论

在这篇博文中,我们演示了如何使用北鲲云平台在AWS来提交基因分析任务。快速访问北鲲云用户手册并亲自试用演示。有关北鲲云的更多信息,请查看主页和文档。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • HPC
    HPC
    +关注

    关注

    0

    文章

    342

    浏览量

    24823
  • AWS
    AWS
    +关注

    关注

    0

    文章

    443

    浏览量

    26300
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    科技AI视频分析技术助力校园食堂智慧监管

    余所学校的食堂率先引入科技与其合作伙伴专为校园场景打造的AI视频分析解决方案。在这场“数智化”升级浪潮中,传统的“人盯人”监管模式正逐步被“互联网+明厨亮灶”的智能监管体系所取代。
    的头像 发表于 12-03 11:08 339次阅读

    科技助力油田行业智能化安全管理

    随着国家对安全生产要求的不断加强,油田行业的安全管理亟待实现智能化和高效化。油田智能化升级的浪潮中,众多 AI 转型方案涌现,以“算力+算法+平台”一体的 AI 视频分析解决方案
    的头像 发表于 07-25 15:04 710次阅读

    工业组态智慧水利的应用

    工业组态智慧水利中发挥着重要作用,通过将组态软件的功能迁移到云端,实现了设备、数据、应用和服务的全面集成,为水利业务的精细化管理、智能化决策和泛化服务提供了有力支持。以下从应用
    的头像 发表于 06-20 16:11 384次阅读

    科技推出全新智慧化工AI视频分析解决方案

    科技提供功能完备的 AI 视频分析平台,平台支持多种流媒体服务平台接入,通过 AI 计算集群实现现场秒级预警、智能管控、实时取证,分析数据
    的头像 发表于 05-10 14:02 1380次阅读

    科技AI视频分析解决方案赋能汽车电子超级工厂

    科技为全球排名前十的汽车零部件制造集团提供“算力+算法+平台”一体化的 AI 视频分析解决方案。作为该集团全球最大汽车电子生产基地,集智能座舱、自动驾驶研发与高端制造于一体,年产能超 200
    的头像 发表于 04-11 10:11 682次阅读

    科技提供智慧高速AI视频分析解决方案

    科技响应国家及地方的高速公路信息化、智能化政策,提供“算力+算法+平台”一体化的智慧高速 AI 视频分析解决方案,满足交警部门和高速集团日常运营和管理需求,通过智能化的手段,提高工作效率。
    的头像 发表于 03-27 14:53 777次阅读

    AI视频分析技术助力钢铁行业数字化转型

    在内蒙古包头钢铁集团废钢车间内,当工程车辆驶入的瞬间,穹顶的智能喷淋系统即刻启动,细密水雾精准笼罩作业区域。而在控制中心大屏,每个作业环节的粉尘浓度、设备状态、水资源消耗等数据实时跳动——这是科技联合合作伙伴赋能包钢的数字
    的头像 发表于 03-10 09:40 718次阅读

    AWS Graviton4处理器运行大语言模型的性能评估

    亚马逊科技 (AWS) 新一代基于 Arm 架构的定制 CPU —— AWS Graviton4 处理器已于 2024 年 7 月正式上线。这款先进的处理器基于 64 位 Arm 指令集架构的 Arm Neoverse V2
    的头像 发表于 02-24 10:28 1231次阅读
    <b class='flag-5'>在</b><b class='flag-5'>AWS</b> Graviton4处理器<b class='flag-5'>上</b><b class='flag-5'>运行</b>大语言模型的性能评估

    九联科技与科技达成战略合作

    ,九联科技与深圳信息科技有限公司(以下简称“科技”)正式达成战略合作,双方携手推出端到端智能化解决方案,为行业客户提供精准、高效的数字化转型支持。
    的头像 发表于 02-12 15:46 804次阅读

    科技AI芯片CAISA 430成功适配DeepSeek R1模型

    科技全新一代的可重构数据流 AI 芯片 CAISA 430 成功适配 DeepSeek R1 蒸馏模型推理,这一创新举措为大模型应用的高效部署带来了全新的解决方案,标志着可重构数据流 AI 技术与大模型融合发展的又一重要里程碑,也展示了
    的头像 发表于 02-07 09:57 2346次阅读
    <b class='flag-5'>鲲</b><b class='flag-5'>云</b>科技AI芯片CAISA 430成功适配DeepSeek R1模型

    HPC计算的技术架构

    HPC计算结合了HPC的强大计算能力和计算的弹性、可扩展性,为用户提供了按需获取高性能计算资源的便利。下面,AI部落小编带您了解HPC
    的头像 发表于 02-05 14:51 689次阅读

    科技入选工信部2024年实体经济和数字经济深度融合典型案例

      近日,工业和信息化部公布了 2024 年实体经济和数字经济深度融合典型案例名单,科技凭借基于可重构数据流 AI 芯片的智慧城市管理系统成功入选。
    的头像 发表于 01-16 15:54 907次阅读

    Arm与AWS合作深化,AWS Graviton4展现显著进展

    Arm与亚马逊科技(AWS)的长期合作关系,一直致力于为计算领域带来性能更强劲、更高效和可持续的解决方案。双方通过专用芯片和计算技术的结合,不断推动计算的发展。
    的头像 发表于 12-18 14:17 845次阅读

    计算HPC软件关键技术

    计算HPC软件关键技术涉及系统架构、处理器技术、操作系统、计算加速、网络技术以及软件优化等多个方面。下面,AI部落小编带您探讨计算HPC软件的关键技术。
    的头像 发表于 12-18 11:23 790次阅读

    计算和HPC的关系

    尽管计算和HPC架构、应用场景和成本效益等方面存在显著差异,但计算和HPC之间并非孤立存在,而是相互补充、协同发展的关系。下面,AI部
    的头像 发表于 12-14 10:35 659次阅读