0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

应用深度学习分析提高基因组分析的准确性

Tensorflowers 来源:TensorFlow 作者:Howard Yang 2021-05-14 09:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

发布人:Google Health Genomics 产品负责人 Andrew Carroll 和 Genomics 项目经理 Howard Yang

Google Health 的 Genomics 团队很高兴分享我们对 DeepVariant 的最新扩展 - DeepTrio。

DeepVariant 于 2017 年首次发布,是一种开源工具,支持研究人员和临床医生分析个人的基因组测序数据并识别基因变异,如可导致疾病的变异片段。我们在 DeepVariant 方面的持续研究因其一流的准确性而获得肯定。借助 DeepTrio,我们扩展了 DeepVariant,从而能够在分析母亲-父亲-子女三人的基因序列数据时考量基因变异。

人类是二倍体生物,携带人类基因组的两个副本。每个个体都分别继承了来自母亲和父亲的一个基因组副本。父母遗传信息有助于分析符合孟德尔遗传规律的特征和疾病。DeepTrio 学习直接在测序数据中使用孟德尔遗传的特性,以便在可以共同分析父母和子女样本的情况下更准确地识别基因变异。

修改 DeepVariant 以分析三人样本

DeepVariant 学习到如何将基因组中的位置分类为参考或者“基因组浏览器”(相关专家用于分析的工具)中数据表示的变种。“《使用 DeepVariant1.0 提高基因组分析的准确性》(Improving the Accuracy of Genomic Analysis with DeepVariant 1.0)”一文很好地概述了有关内容。

使用 DeepVariant1.0 提高基因组分析的准确性

https://ai.googleblog.com/2020/09/improving-accuracy-of-genomic-analysis.html

DeepVariant 接收数据作为以候选变异为中心的基因组窗口,并且按照要求将数据分类为参考(无变异)、杂合子(变异的一个副本)或纯合子(两个副本均为变异)。DeepVariant 将序列证据视为代表数据特征的通道(请参阅“《透过 DeepVariant 深入观察》(Looking through DeepVariant’s eyes)”获取更深入解释)。

透过 DeepVariant 深入观察

我们修改了 DeepTrio,以在单个图像中表示来自三人的序列数据,其中每个样本的高度固定,子女的数据置于中间。我们使用来自美国国家标准与技术研究院 (NIST) 瓶中基因组联盟 (GIAB) 的黄金标准样本作为真实标签,训练一个模型调用子女样本中的变异,并训练另一个模型调用顶部父母样本中的变异。为调用父母双方的样本,我们翻转父母样本的位置。

衡量 DeepTrio 提高的准确性

我们研究发现,对于父母和子女变异检测,DeepTrio 比 DeepVariant 更准确,在覆盖率较低的情况下具有特别明显的优势。这使研究人员能够以更高的准确性分析样本,或者在显著降低费用的同时保持相当的准确性。

为评估 DeepTrio 的准确性,我们借助 NIST 瓶中基因组联盟提供的涵盖广泛特征的黄金标准,将其与 DeepVariant 的准确性进行比较。为获得在训练中从未见过的评估数据集,我们在训练中排除了 20 号染色体,并对 20 号染色体进行了评估。

我们训练 DeepVariant 和 DeepTrio,以对来自两种不同仪器 Illumina 和 Pacific Biosciences (PacBio) 的数据进行测序。如要详细了解这些技术之间的差异,请参见我们之前的博客。这些测序仪均以容易错误的方式随机采样基因组。为准确分析基因组,我们需要重复采样相同区域。在某个位置的采样深度称为覆盖范围。以近似线性的方式测序来覆盖更大的范围将导致成本更高。因此我们经常需要在成本、准确性和测序样本之间进行权衡。而权衡的结果是,在三人样本中,父母样本通常以较低的深度进行测序。

在下方图表中,我们绘制了一系列不同覆盖范围中 DeepTrio 和 DeepVariant 的准确性。

00077b0a-b42c-11eb-bf61-12bb97331649.png

001e90f6-b42c-11eb-bf61-12bb97331649.png

图 2.子女样本(顶部)和父母样本(底部)上 DeepTrio(实线)和 DeepVariant(虚线)的 F1 得分,使用 Illumina(蓝色)和 PacBio(黑色)仪器进行测序。在具有一系列测序覆盖范围(x 轴)的样本中,对 20 号染色体上所有类型的小变异进行 F1 测量

DeepTrio 在 de novo 变异上的表现

相对于人类参考基因组,每个人大约有 500 万处变异,其中绝大多数从父母处继承而来。一小部分(大约 100 处)是新变异(称为 de novo),由 DNA 复制过程中的复制错误导致。我们的研究证明,DeepTrio 大大减少了 de novo 变异检测的假阳性情况。对于 Illumina 数据,其真阳性回收率的下降幅度较小,而对于 PacBio 数据,这种权衡不会发生。

为评估准确性,我们分析了父母两人都被称为非变异但子女被称为杂合变异的位点。我们观察到 DeepTrio 更不愿意将变异命名为 de novo,这类似于人类对于违反孟德尔遗传规律的位点,需要获得更高水平的证据。因此,此类 de novo 变异的假阳性率低得多,但 DeepTrio Illumina 的召回率则略低。通常,在发生这种情况时,子女的样本仍将称作变异,但父母样本则给予“不调用”的判断(分类器没有足够的信心进行调用)。

促进罕见病研究

通过将 DeepTrio 作为开源软件发布,我们希望这一软件能够支持科学家更准确地分析样本,进而提升对基因组数据的分析能力。我们希望这能促进研究和临床开发,进而更好地解析罕见病病例,并改进治疗方法的开发。

除了将 DeepTrio 的代码作为开放源代码发布之外,我们还发布了为训练这些模型而生成的测序数据。这些数据会在预印本“《用于基准测试和开发的黄金标准样本的广泛序列数据集》(An Extensive Sequence Dataset of Gold-Standard Samples for Benchmarking and Development)”中加以说明。通过发布该生产模型和训练相似复杂度模型所需的数据,我们希望能为基因组学界的方法开发做出贡献。

原文标题:应用深度学习分析家庭基因组数据

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45568
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907

原文标题:应用深度学习分析家庭基因组数据

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    确保X光设备检测的有效准确性的关键技巧

    在工业和安全领域,X光设备检测已成为不可或缺的重要环节。然而,许多用户常常面临检测效果不理想、准确性不足的问题,影响生产效率和安全保障。如何确保X光检测设备能够发挥最大效能,准确捕捉目标信息,是当前
    的头像 发表于 11-18 11:27 97次阅读

    电能质量在线监测装置的数据推送频率调整会影响数据的准确性吗?

    电能质量在线监测装置的数据推送频率调整对数据准确性的影响需从 采样、处理、传输 三个核心环节综合评估,其关键取决于 调整策略与装置设计的匹配度 。以下是基于技术原理与工程实践的详细分析: 一、核心
    的头像 发表于 11-07 11:08 446次阅读

    电能质量在线监测装置的精度等级对其测量结果的准确性有何影响?

    电能质量在线监测装置的精度等级是衡量其测量结果准确性的 核心量化指标 ,直接决定了测量值与 “真实值” 的偏差范围。精度等级越高(如 A 级),误差限值越严格,测量结果的准确性越高;反之(如 B/C
    的头像 发表于 09-26 17:40 1028次阅读

    电能质量在线监测装置定位谐波源的准确性有多高?

    电能质量在线监测装置定位谐波源的准确性 没有固定数值 ,而是受 “ 监测网络设计、技术参数精度、算法适配、电网工况复杂 ” 四大核心因素影响,呈现 “ 场景化差异 ”—— 在理想条件下(如低压配
    的头像 发表于 09-26 15:20 376次阅读

    电能质量监测中,数据校验系统的准确性如何影响暂态过电压指标?

    ,进而影响暂态过电压监测的 “故障识别、风险评估、溯源分析” 三大核心功能。具体影响可从暂态过电压的关键监测参数、实际应用场景两个维度展开: 一、直接影响暂态过电压的核心监测参数准确性 暂态过电压的 “危害程度” 和
    的头像 发表于 09-25 17:57 508次阅读

    如何保障电能质量监测装置的准确性

    保障电能质量监测装置(以下简称 “装置”)的准确性,需贯穿其 “ 选型→安装→运行维护→校准→报废 ” 全生命周期,核心是通过 “ 源头把控硬件精度、过程规避干扰与退化、定期验证与修正 ”,确保装置
    的头像 发表于 09-23 16:03 487次阅读

    如何保证数据校验系统的时间同步以提高准确性

    在电能质量监测的数据校验系统中, 时间同步的准确性直接决定了多监测点数据的时空一致、暂态事件的时序匹配度,以及校验结果的可信度 。要保证时间同步以提升数据校验准确性,需从 “协议选择、硬件保障
    的头像 发表于 09-19 11:28 345次阅读

    如何使用运行数据趋势分析验证装置准确性

    利用运行数据趋势分析验证电能质量在线监测装置准确性,核心逻辑是 通过长期采集的电网运行数据,判断其趋势是否符合电网实际规律、是否具备稳定性与一致 —— 若装置准确,其输出的数据趋势应
    的头像 发表于 09-18 10:33 341次阅读
    如何使用运行数据趋势<b class='flag-5'>分析</b>验证装置<b class='flag-5'>准确性</b>?

    测缝计测量数据的准确性和校准方法解析

    在结构物安全监测领域,数据准确性是评估工程健康状态的核心依据。振弦式测缝计作为主流裂缝监测设备,其测量精度直接影响裂缝发展趋势的判断。那么如何确保测缝计测量数据的准确性以及如何校准?下面是南京峟思给
    的头像 发表于 07-07 13:56 426次阅读
    测缝计测量数据的<b class='flag-5'>准确性</b>和校准方法解析

    必知!影响手机气密检测准确性的重要因素

    移动设备防水防尘技术升级,手机气密检测成保障产品可靠的关键。但检测准确性受设备精度、环境稳定性、操作规范性及手机结构设计局限等因素干扰,影响测试结果、产品良品率和用户体验。影响手机气密
    的头像 发表于 07-04 14:26 593次阅读
    必知!影响手机气密<b class='flag-5'>性</b>检测<b class='flag-5'>准确性</b>的重要因素

    中科曙光构建全国产化基因组学高性能计算平台

    近日,中科曙光承建的国内某研究所基因组学高性能计算平台正式交付。这是国内生物信息学领域首个从底层硬件到上层软件实现完全自主可控,并深度融合高性能计算与人工智能算力的平台,成功填补了该领域国产高端算力的空白。
    的头像 发表于 06-26 17:36 833次阅读

    存储示波器的存储深度对信号分析有什么影响?

    。以下从技术原理、实际影响及优化策略三方面展开分析。一、存储深度对信号分析的核心影响1. 时域信号完整 边沿细节捕捉能力 高频信号边沿:如100MHz时钟信号的上升沿/下降沿时间通
    发表于 05-27 14:39

    如何使用POT准确性检查器?

    :95:0.00% 分辨率视觉对象等级挑战 (VOC) 数据集未经英特尔验证。如 Yolo-v4-tf 文档 中所提到,英特尔已使用上下文中常见的对象 (COCO) 数据集验证了准确性。通过
    发表于 03-06 08:04

    如何提高OTDR测试的准确性

    OTDR(光时域反射仪)是光缆线路故障定位和光纤特性测量的重要工具,提高OTDR测试的准确性对于确保光缆线路的稳定运行至关重要。以下是一些提高OTDR测试准确性的方法: 一、
    的头像 发表于 12-31 09:25 1812次阅读

    如何提高电位测量准确性

    在电子工程和物理实验中,电位测量是一项基本而重要的任务。电位测量的准确性直接影响到实验结果的可靠和产品的安全。 1. 选择合适的测量设备 选择合适的测量设备是提高电位测量
    的头像 发表于 12-28 13:56 1315次阅读