0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

你去将你的基因组测序了吗?面临挑战的基因组数据压缩技术

IEEE电气电子工程师 来源:未知 作者:李倩 2018-09-10 10:40 次阅读

你去将你的基因组测序了吗?世界上已有数百万人去测过了,到2025年,这一数字可能会达到10亿。

研究人员获得的基因组数据越多,个人和公共健康的前景就越好。产前DNA测序已经可以筛查出发育异常。过不了多久,患者将可以对他们的血液进行测序,以发现任何可能标志着某种传染病的非人类DNA。未来,与癌症打交道的人将能够通过每天对来自多个组织的细胞的DNA和RNA进行测序来跟踪疾病的变化情况。

整个人群的DNA测序将使得我们可以对整个社会的健康状况有更全面的了解。英国Biobank雄心勃勃,其目标是对50万名志愿者的基因组进行测序,并跟踪研究数十年。目前,人群范围的基因组研究通常被用来识别与特定疾病相关的突变。定期对空气、土壤和水中的生物进行测序将有助于追踪流行病、食物病原体、毒素等等。

这样的愿景的实现有赖于对超大量的数据的存储和分析。通常情况下,DNA测序仪处理一个人的整个基因组就会产生数十至数百千兆字节的数据。数百万人的基因组数据累加起来,所需要的存储空间将达到数十艾字节。

而这仅仅是个开始。发现基因组数据有用的科学家、医生和其他人不会仅对每个人进行一次测序——对于同一个个体,他们会希望随着时间的推移对多个组织中的多个细胞进行重复测序。随着测序速度的提高和成本的下降(现在个人基因组测序只需1000美元,而且价格正在快速下降),他们还希望对其他动物、植物、微生物和整个生态系统的DNA进行测序。而新应用甚至新产业的出现将带来更多测序。

虽然很难预测基因组数据的全部未来收益,但我们已经看到了一个不可避免的挑战:所需要的存储空间几乎是难以想象的大。目前,存储基因组数据的费用仍然只是实验室总体预算的一小部分。但是这种费用正在急剧升高,幅度远远超过了存储硬件价格的下降。在未来五年内,存储数十亿人、动物、植物和微生物的基因组的成本将轻松达到每年数十亿美元。这些数据需要保存几十年,甚至更长时间。

将数据压缩显然有助于解决其存储问题。生物信息学专家已经使用像gzip这样的标准压缩工具将文件大小缩小到了原来的1/20。一些研究人员还使用针对基因组数据的更专业的压缩工具,但这些工具并没有被广泛采用。我们两个人都在研究数据压缩算法,我们认为现在是时候提出一种效率更高、速度更快、更适合基因组数据独特特性的新压缩方案了。正如专用的视频音频压缩方案对于像YouTube和Netflix这样的流媒体服务至关重要一样,要从爆炸式增长的基因组数据中尽可能多地获益,专门针对基因组数据的高效压缩方案将是十分必要的。

图片来源:Stephens ZD,Lee SY,Faghri F,Campbell RH,Zhai C,Efron MJ,et al.2015,PLoS Biol 13(7).

人类基因组测序的增长:自2001年人类基因组序列草图首次发表以来,测序的人类基因组数量和测序能力的增长速度都有了显著提高。2015年后的三条线代表三种可能的增长曲线。

在我们解释如何更好地压缩基因组数据之前,让我们仔细研究一下数据本身。“基因组”在这里指的是四种碱基核苷酸——腺嘌呤(adenine)、胞嘧啶(cytosine)、鸟嘌呤(guanine)和胸腺嘧啶(thymine)——的序列,它们分别由我们熟悉的DNA中的A、C、G、T四个字母表示。这些核苷酸出现在A-T和C-G碱基对组成的链中,人类基因组中的23对染色体都是由这两种碱基对构成的。大多数人类细胞中,这些染色体包含约60亿个核苷酸,包括编码基因、非编码元件(如染色体末端的端粒)、调节元件和线粒体DNA。Illumina、Oxford Nanopore Technologies和Pacific Biosciences等公司生产的DNA测序仪器,能够在数小时内从一个人的DNA样本中自动完成对其基因组的测序。

这些商业化的DNA测序仪不会产生整个基因组长度的ACGT字符串,而是产生大量子串或“读数”(reads)。这些读数会部分重叠,需要序列组装软件基于它们重建出完整的基因组。一般来说,当进行整个基因组测序时,每个基因组片段长度不超过100个读数。

根据所使用的测序技术,读数的长度可能从大约100到100,000个碱基对变化,读数的总数可能从数百万到数百亿不等。短读数可以发现单个碱基对突变,而较长的读数更适用于检测复杂的变异,如数千个碱基对的删除或插入。

DNA测序是一个嘈杂的过程,读数中包含错误是很常见的。因此,除了ACGT核苷酸字符串之外,每个读数包含一个质量分数,表明测序仪对每个DNA核苷酸测序结果的信任度。测序仪将它们的质量分数表示为错误概率的对数。它们使用的算法是专有的,但事后可以检查。如果质量得分为20(对应于1%的错误概率),用户可以确认在已知的DNA序列中约1%的碱基对是不正确的。使用这些文件的程序依赖质量分数来将测序错误和突变区分开来。真正的突变会比测序错误显示出更高的平均质量分数,也就是说其错误概率更低。

测序仪将字符串和质量分数以及一些其他元数据逐个读数地粘在一起,形成所谓的FASTQ文件。一个完整基因组的FASTQ文件通常包含数十到数百千兆字节。

这些文件也非常冗余,这源于任何两个人的基因组几乎完全相同这个事实。平均而言,两个人的基因组在每1,000个核苷酸中大约有一个核苷酸不同,通常这些基因差异是很有趣的。一些DNA测序针对特定的差异区域,例如,像23andMe这样的DNA基因分型应用程序只寻找特定的变异,而刑事调查中的DNA分析则去寻找特定标记重复次数的变异。

但是,如果你不知道有趣的东西在哪里(比如当你试图诊断一种未知基因来源的疾病时),你就需要对整个基因组进行测序,这就意味着你需要获取更大量的测序数据。

测序数据的重复也来自于为清除错误而多次读取基因组的相同部分。有时,一个样本中包含一个序列的多个变异,因此你想重复对其进行测序以捕获这些变异。比如说你正试图检测一个组织样本中的一些癌细胞或一个孕妇的血液中的胎儿DNA痕迹,这可能就意味着要对每个DNA碱基对多次测序(通常超过100次)以区分罕见变异与更常见变异,以及它们与测序错误的真正区别。

读数和参考基因组:一个DNA“读数”(顶部字符串)与人的参考基因组的一小部分(底部字符串)大致匹配。插入、删除和替换(由于DNA测序过程中的突变或噪声)导致不完美匹配。为了编码一个读数,我们可以声明其在参考基因组中的起始位置并描述所有变异。

现在,你应该更好地理解了为什么DNA测序会产生如此多的冗余数据。事实证明,这种冗余对于数据压缩是有利的。对于相同的基因组数据块,你可以只存储一个副本,而不是存储多个副本。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 冗余
    +关注

    关注

    1

    文章

    106

    浏览量

    19983
  • 基因
    +关注

    关注

    0

    文章

    95

    浏览量

    17111

原文标题:面临挑战的基因组数据压缩技术(上)

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Xilinx FPGA在基因组测序中的优势

    PrecisionFDA平台是基因组信息学社区和共享数据平台,这是一个为研究人员准备的开源、基于云的工具,它将为下一代测序诊断提供依据,并且为所有开发者提供统一的、可共享的在线基因组
    发表于 07-11 08:33 1772次阅读

    阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内

    ,每年我们会产生非常多的基因数据,明年我们计划对十万人进行基因组基因测序和分析,我们将与阿里云计算平台一起在2018年用国产测序仪完成计算
    发表于 03-19 10:50

    浅析基因传感器

    利用数理和信息科学的观点、理论和方法研究生命现象,获取生物学的数据,分析和提取生物信息的科学。对于人类基因组计划,生物信息学就是研究遗传基因信息的科学。  
    发表于 07-09 06:04

    基因组数据CNV分析简介 精选资料分享

    除了利用aCGH和snp芯片来检测CNV之外,也可以通过NGS数据来分析CNV, 比如全基因组和全外显子测序。针对全基因组CNV的检测,还针对开发了一种称之为C...
    发表于 07-29 08:24

    基因组测序的优势 精选资料分享

    基因组测序的优势目前,随着高通量测序技术快速发展、测序成本的进一步降低以及组装方法的不断完善,全基因组
    发表于 07-29 08:31

    基因组CNV分析的策略是什么?

    基因组CNV分析的策略是什么?
    发表于 10-27 06:43

    基因组测序的优势是什么?

    基因组测序的优势是什么?
    发表于 10-27 06:27

    使用Arm服务器减少基因组学的时间和成本

    1、使用Arm服务器减少基因组学的时间和成本  我们现在可以展示三种主要aligners在Arm架构AWS Graviton3上的性能。AWS Gravaton3是AWS服务器系列中最新的基于Arm
    发表于 10-09 16:32

    什么是基因组序列数据

    什么是基因组序列数据库 GSDB是基因组序列数据库(Genome Sequence Data Base),由美国新墨西哥州Santa Fe的国家
    发表于 06-17 07:37 1388次阅读

    华大发布高精度基因组标准及解决方案 开启基因组测序“全高清”时代

    基因组测序“全高清”时代!
    的头像 发表于 06-19 15:10 3131次阅读

    AI加速推动医疗个体化转型 基因组学将有望成为未来发展主流

    自2003年首次对人类基因组进行测序以来,整个基因组测序流程的成本就一直在下降,而且下降的速度远快于根据摩尔定律所预测的速度。从新生儿基因组
    发表于 01-02 10:41 692次阅读

    北鲲云超算平台对于基因组学研究能够提供哪些帮助?

    随着众多生物基因组测序项目的完成,生物学数据正在加速度增长。从高通量/多组学,到单分子/单细胞;从多倍体/单倍型到宏基因组/环境基因组;从精
    发表于 11-15 14:24 375次阅读

    微流控芯片技术在单细胞基因组学研究中的应用

    单细胞基因组学包括单细胞全基因组测序和以单细胞和微量细胞为材料的全基因组范围内的基因功能研究。功能基因组
    的头像 发表于 03-03 13:04 1937次阅读
    微流控芯片<b class='flag-5'>技术</b>在单细胞<b class='flag-5'>基因组</b>学研究中的应用

    人工智能如何改变基因组学?

    人进行测序,还是大规模人群的遗传学研究,全基因组测序正在成为临床工作流程和药物研发的重要一环。 但基因组测序只是第一步。
    的头像 发表于 04-05 00:25 407次阅读

    GPU助力基因组测序分析

    等。随着近几年基因测序成本如图 1所示不断下降,在万元内即可完成人类的全基因组测序,GPU的技术发展也带来分析成本与时间的下降,于是用于检测
    的头像 发表于 08-01 10:32 1154次阅读
    GPU助力<b class='flag-5'>基因组</b>重<b class='flag-5'>测序</b>分析