机器学习是许多生物学家用来分析数据的计算工具-电子发烧友网

机器学习是许多生物学家用来分析大量数据的计算工具，帮助他们识别潜在的新药。麻省理工学院的研究人员现在已经在这些类型的机器学习算法中加入了一个新的特性，从而提高了他们的预测能力。

利用这种新的方法，计算机模型可以解释他们分析数据的不确定性，麻省理工学院的研究小组发现了几种有希望的化合物，这些化合物的目标是导致结核病的细菌所需的一种蛋白质。

这种方法以前曾被计算机科学家使用过，但尚未在生物学上得到应用，也可能在蛋白质设计和许多其他生物学领域有用，西蒙斯数学系教授、麻省理工学院计算机科学和人工智能实验室（CSAIL）计算和生物学小组负责人邦尼·伯杰（Bonnie Berger）说。

“这项技术是已知的机器学习子领域的一部分，但人们还没有把它引入生物学，”Berger说。“这是一个范式的转变，绝对是生物探索的方式。”

Berger和Bryan Bryson是麻省理工学院的生物工程助理教授，也是MGH、MIT和哈佛的拉根研究所的成员，他们是这项研究的高级作者。细胞系统。麻省理工学院研究生BrianHie是论文的主要作者。

更好的预测

机器学习是一种计算机建模，在这种模型中，算法学习根据已经看到的数据进行预测。近年来，生物学家开始利用机器学习来搜索潜在药物化合物的庞大数据库，以找到与特定目标相互作用的分子。

这种方法的一个局限性是，当他们分析的数据与他们接受训练的数据相似时，这些算法表现得很好，但它们并不擅长评估那些与他们已经看到的分子有很大不同的分子。

为了克服这一问题，研究人员使用了一种叫做高斯过程的技术，将不确定性值分配给算法所训练的数据。这样，当模型分析训练数据时，他们也会考虑到这些预测的可靠性。

例如，如果进入模型的数据预测某一特定分子与目标蛋白质的结合程度，以及这些预测的不确定性，该模型可以利用这些信息对蛋白质-目标相互作用进行预测，这是它以前从未见过的。该模型还估计了自己预测的确定性。在分析新的数据时，模型的预测对于与训练数据有很大不同的分子来说，其确定性可能较低。研究人员可以利用这些信息来帮助他们决定实验测试哪些分子。

这种方法的另一个优点是该算法只需要少量的训练数据。在这项研究中，麻省理工学院的研究小组用72个小分子及其与400多个蛋白质的相互作用（称为蛋白激酶）对模型进行了训练。然后，他们能够使用这个算法分析近11000个小分子，这些小分子是从锌数据库中提取的，锌数据库是一个公开可用的储存库，含有数百万种化合物。其中许多分子与训练数据中的分子非常不同。

利用这一方法，研究人员能够识别出与他们所加入的蛋白激酶具有非常强的结合亲缘关系的分子。其中包括三种人类激酶，以及在结核分枝杆菌中发现的一种激酶。这种激酶，PknB，是细菌生存的关键，但不是任何一线结核病抗生素的目标。

研究人员随后通过实验测试了他们的一些最成功之处，以了解他们与目标的结合程度，并发现模型的预测非常准确。在模型给出的最确定的分子中，大约90%被证明是真正的命中--远高于现有用于药物筛选的机器学习模型的30%到40%的命中率。

研究人员还使用相同的训练数据来训练不包含不确定性的传统机器学习算法，然后让它分析相同的11000个分子库。他说：“没有不确定性，这个模型就会变得非常混乱，它提出了与激酶相互作用的非常奇怪的化学结构。”

然后，研究人员采取了一些最有前途的PknB抑制剂，并测试他们在细菌培养培养基中生长的结核分枝杆菌，并发现它们抑制细菌的生长。这些抑制剂也在感染细菌的人免疫细胞中起作用。

一个好的起点

这种方法的另一个重要因素是，一旦研究人员获得额外的实验数据，他们就可以将其添加到模型中，并对其进行再培训，从而进一步改进预测。研究人员说，即使是少量的数据也能帮助模型变得更好。

Hie说：“每次迭代都不需要非常大的数据集。”“你可以用10个新的例子重新训练这个模型，这是一个生物学家很容易产生的东西。”

布莱森说，这项研究是多年来首次提出新的分子，可以针对PknB，并且应该给药物开发人员一个很好的起点，可以尝试开发针对激酶的药物。他说：“我们现在为他们提供了一些新的线索，超出了已经公布的范围。”

研究人员还表明，他们可以利用同样的机器学习来提高绿色荧光蛋白的荧光输出，绿色荧光蛋白通常用于标记活细胞内的分子。它也可以应用于许多其他类型的生物学研究，Berger说，他现在正用它来分析推动肿瘤发展的突变。
责任编辑：YYX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43866

浏览量
230618
机器学习

机器学习

+关注

关注
66

文章
8124

浏览量
130567

科学家研发仿生小鼠机器人，可用于灾后救援和探测检修等领域

老鼠机器人的潜在应用领域主要集中在复杂狭小地形的灾后救援、探测检修等任务上。这与生物学家利用训练过的非洲大鼠进行类似任务的现实情况相呼应。

发表于 12-26 17:00 •340次阅读

科<b class='flag-5'>学家</b>研发仿生小鼠<b class='flag-5'>机器</b>人，可用于灾后救援和探测检修等领域

新技术在生物样本冷冻中的应用案例分析

、生物分子等提供了重要的实验手段。　　新技术在生物样液氮罐本冷冻中的应用案例分析表明，这些创新方法为生物学研究提供了更高效、可靠和经济的样本处理解决方案。低温离心、冷冻探头技术和冷冻

发表于 12-26 13:30

Get职场新知识：做分析，用大数据分析工具

的分析口径和标准、完成企业级数据分析。而且，这类工具的使用方法也很简单，连接业务系统后，即可自动取数、计算指标、分析

发表于 12-05 09:36

机器学习技术是什么？机器学习技术在新型电力系统安全稳定中的应用

机器学习技术是什么？机器学习技术在新型电力系统安全稳定中的应用机器学习技术是指从大量的

发表于 08-17 16:30 •793次阅读

机器学习发展历程中不同时期的标志性事件有哪些

的深度学习，机器学习的发展历程中出现了许多标志性的事件。 20世纪50年代初期，计算机科学家Ar

发表于 08-17 16:30 •1025次阅读

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？

发表于 08-17 16:30 •1399次阅读

机器学习与数据挖掘的区别机器学习与数据挖掘的关系

机器学习与数据挖掘的区别，机器学习与数据挖掘的关系机器

发表于 08-17 16:30 •1532次阅读

python数据挖掘与机器学习

用的数据挖掘和机器学习工具。一、数据挖掘数据挖掘是指从大量

发表于 08-17 16:29 •888次阅读

机器学习算法的5种基本算子

机器学习算法的5种基本算子机器学习是一种重要的人工智能技术，它是为了让计算机能够通过数据自主的

发表于 08-17 16:11 •1341次阅读

python机器学习概述

是一种非常流行的编程语言，因为它具有非常强大的数据分析和科学计算库。Python可以被用来完成一系列的任务，包括机器学习、

发表于 08-17 16:11 •766次阅读

机器视觉与生物特征识别的关系

机器视觉与生物特征识别的关系机器视觉和生物特征识别是目前科技领域非常热门的方向。机器视觉是指利用电子设备来对物体进行识别、

发表于 08-09 17:43 •496次阅读

使用 RAPIDS RAFT 进行机器学习和数据分析的可重用计算模式

使用 RAPIDS RAFT 进行机器学习和数据分析的可重用计算模式

发表于 07-05 16:30 •323次阅读

哈工大突破高通量超分辨显微成像难题

超分辨成像技术的出现标志着成像领域对于光学衍射极限的突破，也极大地推动了生物医学领域的发展。利用超分辨技术，生物学家得以对病态细胞内的亚细胞结构进行精准的量化统计和直观的可视化分析。

发表于 06-21 10:21 •334次阅读

颜宁新论文突然上线Nature子刊：结构是AI无能为力的

这篇论文的通讯作者是结构生物学家颜宁，主要从事与疾病相关的重要膜转运蛋白、电压门控离子通道的结构与工作机理及膜蛋白调控胆固醇代谢通路的分子机制方面的研究。

发表于 06-19 16:08 •366次阅读

为什么深度学习需要与边缘计算进行结合及如何结合

在生活中应用实验或未建模的数据。神经网络是机器学习的模型之一，已经存在了数十年之久。这个概念是由研究哺乳动物大脑中生物神经元的科学家定义

发表于 05-31 15:09 •0次下载