解析DARTS:海量数据训练和新样本特征的综合-电子发烧友网

摘要：研究人员首次将深度学习与贝叶斯假设检验结合，利用深度学习强化RNA可变剪接分析的准确性。

在生命科研领域，常有人说深度学习的基因组学应用好比是“一个盲人在一间黑暗的房子里寻找一顶并不存在的黑色帽子”。言下之意，是遗憾深度学习的基因组学应用并没有给人们带来太多惊喜。不过，近日宾夕法尼亚大学和费城儿童医院教授邢毅团队的一项研究，找到了这样一顶“黑帽子”。

这项发表在《自然—方法》上的论文成果，提出了一种新的计算框架——DARTS（“利用深度学习强化对RNA-seq的可变剪接分析”英文的首字母缩写）。该计算框架首次将深度学习与贝叶斯假设检验结合，用于RNA可变剪接分析。这种结合使得它即使对于测序深度不那么高的样品，也能有效提高RNA-seq定量差异剪接的准确度。

清华大学生命科学学院教授张强锋点评道：“DARTS综合了深度学习和贝叶斯假设检验统计模型的优点，为那些低测序深度的数据提供了更好的做可变剪接分析的手段，拓展了传统RNA-seq可变剪接分析的敏感度和准确度。”

计算基因组学中

一个广受关注的问题

邢毅等人在上述论文中指出，目前，RNA-seq技术是研究RNA剪接最常用的实验手段。然而，RNA-seq技术虽然能较好地定量基因表达的结果，但对于差异剪接分析来说，它依赖于更高的测序深度。而且即便如此，现有的计算方法还不能较准确地定量低表达基因的剪接变化。因此，为了提高剪接定量的准确性，急需引入新的计算分析方法。

“可变剪接现象从20世纪70年代被发现后，其基本的科学问题聚焦为可变剪接位点发现、差异分析、调控元件和网络的发现和构建。RNA-seq 技术的发明，使得系统、定量的可变剪接差异分析成为可能。”张强锋介绍说，大量测序数据的可变剪接差异分析需要优秀的统计模型和计算工具，因此一直是一个需要高度技巧的生物信息学研究课题。

据张强锋介绍，邢毅研究组在针对大量测序数据的可变剪接差异分析的计算分析领域深耕多年，已经贡献了多个有影响力的算法和计算工具。该团队针对高通量RNA-seq数据开发出的用于差异剪接分析的rMATS等软件，对于测序较深、质量较好的数据集都能取得不错的结果，已在全世界范围内被广泛下载使用。

然而，由于成本等原因，大量RNA-seq 测序实验设计的测序深度较浅。对于这些数据集，能利用来做差异分析的可变剪接事件非常有限。

美国卡耐基梅隆大学计算机学院教授马坚也表示，在基因组学中，确实有很多类似的问题——如何在现有数据上对特定的基因组标注（譬如染色质结构、转录因子结合）训练一个机器学习模型并在全新的细胞系中有效预测，已经成为一个计算基因组学中广泛关注的问题。“DARTS崭新的整体设计理念值得很多其他类似的问题借鉴。”

DARTS计算框架

给出问题答案

据邢毅研究组这篇发表在《自然—方法》上的论文介绍，DARTS由两部分构成：深度神经网络模块（DNN）和贝叶斯推断模块（BHT）。其中，DNN基于顺式序列特征和样品特异的RNA结合蛋白表达水平特征来预测差异剪接的结果；而BHT则通过整合实验样品测序数据本身和基于深度神经网络的先验概率来推断差异剪接的结果。

研究者在论文中强调称，与其他计算方法不同的是，在DARTS计算框架下，DNN不仅通过顺式序列特征来预测可变剪接的结果，而且还将样品中RNA结合蛋白的表达水平整合进了RNA可变剪接结果的预测中，增加了预测参数的维度。

DARTS的逻辑是，通过DNN对ENCODE和Roadmap数据库中大量RNA-seq结果的深度学习，能够获得高精度的预测值作为BHT中的贝叶斯先验概率，进而结合具体实验中RNA-seq的结果，来获得更为准确的差异剪接推断。

在研究实践中，邢毅研究组发现，在低通量RNA-seq文库中，通过使用DNN预测值进行强化分析后，能够达到比使用传统方法分析更高的准确度，并且这种提升在越低通量的文库中越明显；即使在高通量的RNA-seq文库中，使用DNN预测仍能发现在低表达基因中的可变剪接变化。而在过去，这些低表达基因的可变剪接变化在传统分析方法中往往会被忽略。

也就是说，研究结果证明了DARTS不仅提升了基于RNA-seq方法研究可变剪接的准确性，同时也提供了在低表达基因中研究可变剪接的研究手段。

解析DARTS：

海量数据训练和新样本特征的综合

“从计算方法设计的策略和概念角度而言，此工作的最大亮点是充分利用海量公有数据如ENCODE，但模型本身又不完全依赖于这些公有数据。”马坚点评道，换言之，DARTS的整体思想是用深度神经网络从现有海量数据中找出通用的有用信息作为先验，然后用贝叶斯假设检验结合来自样本本身的RNA-seq数据信息，做可变剪接的预测，“这有效综合了海量数据的训练以及新样本的特殊性”。

马坚解释说，从模型本身的技术角度而言，DARTS有效利用了深度神经网络对异质数据特征的整合，并且整个计算方法的评测和方法都比较“明智而审慎”。他举例说，比如DARTS的深度神经网络部分结合了剪接位置附近的序列信息、进化信息、可变剪接产生的RNA二级结构信息等；同时DARTS还巧妙地利用深度神经网络预测的结果来作为贝叶斯假设检验中的先验数据，结合样本本身的RNA-seq序列信息实现了更可靠的可变剪接预测。

马坚将基因组学形容为一个“存在太多未知和容易迷失的领域”，因此他认为，有效深度学习的使用需要有强大的领域知识作为支撑。而DARTS工作恰恰体现了邢毅实验室多年以来对可变剪接机理的研究和计算方法创新的积累。“由深入的领域知识和经验作为指导，是一个有效利用不同计算模型和深度学习方法的优势实现基因组学新发现的经典工作。”

张强锋也直指“巧妙利用公开的RNA-seq大数据样本、使用深度神经网络学习得到了外显子差异剪接的贝叶斯假设检验统计模型的准确先验概率分布”是DARTS在方法上最大的特色。同时他也表示，该计算框架使用深度神经网络通过顺式序列和反式因子RBP表达丰度进行差异剪接预测的思路也值得借鉴。

此外，马坚认为论文中其他对于机器学习方法的评测同样可圈可点。例如，对常见的正负样本不均衡的问题对模型训练和评测可能带来的偏差有细致的控制。另外，该计算框架对模型中每个模块的贡献也做了详细分析。

“随着RNA-seq数据的不断积累，相信DARTS会有广泛的应用，尤其是在RNA-seq测序深度并不高的实验情况下。”马坚说，这个计算工具对进一步理解可变剪接在不同细胞状态下的调控机理有深远的意义。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6511

浏览量
87589
深度学习

深度学习

+关注

关注
73

文章
5236

浏览量
119899

原文标题：科学家找到深度学习基因组学应用的一顶“黑帽子”

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

锂电池外壳外观缺陷检测的应用实践

AI机器视觉系统的核心是深度学习算法。通过大量样本数据的训练，系统能够学习并识别锂电池外壳各种缺陷的特征。

发表于 01-18 15:50 •190次阅读

一种通过视图合成增强预训练的2D扩散模型的可扩展技术

现有的3D物体检测方法通常需要使用完全注释的数据进行训练，而使用预训练的语义特征可以带来一些优势。

发表于 12-14 10:00 •214次阅读

一种通过视图合成增强预<b class='flag-5'>训练</b>的2D扩散模型的可扩展技术

不同频段的划分及特征解析

不同频段的划分及特征解析 在无线通信中，不同频段的划分是为了在频谱资源有限的情况下，能够有效地进行频率的分配和共享，以提高通信系统的效率和性能。不同频段的划分是根据频率范围、传输速率、功率等因素

发表于 11-27 16:19 •4536次阅读

基于PyTorch的模型并行分布式训练Megatron解析

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并

发表于 10-23 11:01 •1000次阅读

基于PyTorch的模型并行分布式<b class='flag-5'>训练</b>Megatron<b class='flag-5'>解析</b>

兆易创新“一种NAND闪存芯片的测试样本”专利获授权

　根据专利摘要，本发明实际公开了nand闪存芯片的测试样本，测试样本由多个相同的样本区域组成，每个样本区域包含多个相邻的数据块。相邻的几个

发表于 10-13 09:47 •345次阅读

兆易创新“一种NAND闪存芯片的测试<b class='flag-5'>样本</b>”专利获授权

什么是零样本学习？为什么要搞零样本学习？

零样本分类的技术目前正处于高速发展时期，所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。对此，本文将其称为广义零样本分类。相应地，我们将针对图像分类任务的零样本分类任务

发表于 09-22 11:10 •1043次阅读

什么是零<b class='flag-5'>样本</b>学习？为什么要搞零<b class='flag-5'>样本</b>学习？

基于机器学习的车位状态预测方法

中每个车位在不同时间段停车状态的历史数据，形成停车状态历史数据集并分别提取特征变量集和目标变量集；将所述特征变量集和所述目标变量集作为训练样本

发表于 09-21 07:24

数据中心超融合以太网技术解析

集群训练场景下，传输的数据量较大。上述的流量特征导致网络较易出现负载分担不均、整网吞吐下降的问题，从而影响AI集群训练的性能。

发表于 09-11 14:55 •595次阅读

卷积神经网络模型训练步骤

模型训练是将模型结构和模型参数相结合，通过样本数据的学习训练模型，使得模型可以对新的样本数据进行准确的预测和分类。本文将详细介绍 CNN 模型训练

发表于 08-21 16:42 •1053次阅读

yolov5和YOLOX正负样本分配策略

整体上在正负样本分配中，yolov7的策略算是yolov5和YOLOX的结合。因此本文先从yolov5和YOLOX正负样本分配策略分析入手，后引入到YOLOv7的解析中。

发表于 08-14 11:45 •1770次阅读

基础模型自监督预训练的数据之谜：大量数据究竟是福还是祸？

大型语言模型如 ChatGPT 的成功彰显了海量数据在捕捉语言模式和知识方面的巨大潜力，这也推动了基于大量数据的视觉模型研究。在计算视觉领域，标注数据通常难以获取，自监督学习成为预

发表于 07-24 16:55 •290次阅读

基于预训练模型和语言增强的零样本视觉学习

Stable Diffusion 多模态预训练模型考虑多标签图像分类任务——每幅图像大于一个类别如果已有图文对齐模型——能否用文本特征代替图像特征训练的时候使用文本组成的句子

发表于 06-15 16:36 •323次阅读

PyTorch教程-15.9。预训练 BERT 的数据集

15.9。预训练 BERT 的数据集¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab

发表于 06-05 15:44 •551次阅读

PyTorch教程15.9之预训练BERT的数据集

电子发烧友网站提供《PyTorch教程15.9之预训练BERT的数据集.pdf》资料免费下载

发表于 06-05 11:06 •0次下载

形状感知零样本语义分割

由于大规模视觉语言预训练取得了令人瞩目的进展，最近的识别模型可以以惊人的高准确度对任意对象进行零样本和开放式分类。

发表于 04-28 11:26 •527次阅读