TCGA与ICGC数据集分析
大小:0.4 MB 人气: 2017-10-13 需要积分:1
TCGA(癌症基因组地图集)语料库囊括了从数以千计的癌症患者处收集来的原始和加工过的基因组,转录基因组,和表观基因组数据,现在在AWS S3上对 Cancer Genomics Cloud(CGC)的用户免费开放。 Cancer Genomics Cloud是一个试点云项目,由美国国家癌症研究所资助,在 Seven Bridges Genomics平台上运行。
ICGC(国际肿瘤基因组协作组)泛癌症数据集因PCAWG(全基因组泛癌症分析)研究产生,现在在AWS上也可用,使癌症研究者可以访问2400多组被持续分析的基因组,这些基因组对应于1100多位独特的ICGC捐赠者。这些数据也将在AWS S3上对那些符合ICGC数据共享策略,受到信任的研究者免费开放。
这两个数据集代表第一批受控访问的基因组数据,它们已在云中被重新传播到更加广泛的研究受众中。以前,研究人员在可以开始实验前需要下载和存储自己的数据副本。现在,有了为这一团体在AWS中托管的数据,研究人员可以马上开始他们的研究了。他们也可以访问该团体在AWS中托管和共享的更加广泛的工具集。这意味着一个低的多的访问障碍和更多的研究时间。
使这些数据和工具在云中可用,也可以实现更高水平的跨研究团体合作,因为他们将有一个共同的数据访问和共享的场所。最后,研究人员也将能够安全地将自己的数据和工具带入到AWS中,将它们与现存的公共数据结合,进行更强健的分析。无成本数据访问,更加广泛的可用数据集,和增强的协作能力将使研究人员能够聚焦于他们的科学研究而不是基础设施,允许他们在更短的时间内取得更多的成果,最终加快癌症研究领域的研究和探索步伐。
在AWS中访问TCGA和ICGC
TCGA和ICGC与之前发布的AWS公共数据集,如NIH(国立卫生研究院) 千人基因组计划,GIAB(瓶中基因组),和3000水稻基因组,之间的差异决定了需要限制那些为了使用这些数据已经经历了审查过程的研究者的访问权限。由于这个要求的限制,在AWS中访问TCGA和ICGC也将分别由第三方合作伙伴, Seven Bridges Genomics和 Ontario Institute for Cancer Research管理。这些合作伙伴有权代表源数据提供者重新分布数据。它们也将随时间的推移管理和更新数据,扩展用户团体,使他们可以分享基于云的工具和最优实践,以加快数据的使用,促进我们对癌症的了解。
你可以在 TCGA on AWS和 ICGC on AWS页面了解更多关于数据集的信息和访问细节。
使用数据所需的工具和资源
TCGA数据将会对CGC用户开放。研究人员可以在这里申请提早访问。一旦申请被接受,用户将能够通过CGC Web入口访问数据或使用CGC的API对数据进行程序性地访问。CGC已将一组数据分析管道与平台集成以便用户现在就可以使用最普通的工具开始工作。
用户将可以使用一个可下载的命令行工具普遍性地访问ICGC数据。用户可以使用 ICGC Data Portal(ICGC数据入口)搜索文件,通过 ICGC Storage Client(ICGC存储客户端)访问单独的或相关的校准和变体文件集。校准文件和Sanger体细胞变体调用现在在亚马逊S3中已可用。更多的变体调用将跟随附加的质量检查,确认,和分析被发布。想要了解更多信息,参见 ICGC on the Cloud页面和ICGC存储客户端文档。
一如既往地,当在AWS上使用敏感的基因组数据时,你应该注意保护你的存储和计算资源的安全。如果你不熟悉安全地使用数据所必需的业务特性和工具,AWS白皮书中的 Architecting for Genomic Data Security and Compliance(基因组数据安全和合规性架构)是一个很好的起点。基因组平台,如CGC,注意满足这些种类的要求,以其作为它们的价值主题。例如,DNAnexus在这里已提供了关于如何在平台内利用ICGC存储客户端的用户文档。
非常好我支持^.^
(2) 100%
不好我反对
(0) 0%