0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习是许多生物学家用来分析数据的计算工具

姚小熊27 来源:AI人工智能网 作者:AI人工智能网 2020-10-19 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器学习是许多生物学家用来分析大量数据的计算工具,帮助他们识别潜在的新药。麻省理工学院的研究人员现在已经在这些类型的机器学习算法中加入了一个新的特性,从而提高了他们的预测能力。

利用这种新的方法,计算机模型可以解释他们分析数据的不确定性,麻省理工学院的研究小组发现了几种有希望的化合物,这些化合物的目标是导致结核病的细菌所需的一种蛋白质。

这种方法以前曾被计算机科学家使用过,但尚未在生物学上得到应用,也可能在蛋白质设计和许多其他生物学领域有用,西蒙斯数学系教授、麻省理工学院计算机科学和人工智能实验室(CSAIL)计算和生物学小组负责人邦尼·伯杰(Bonnie Berger)说。

“这项技术是已知的机器学习子领域的一部分,但人们还没有把它引入生物学,”Berger说。“这是一个范式的转变,绝对是生物探索的方式。”

Berger和Bryan Bryson是麻省理工学院的生物工程助理教授,也是MGH、MIT和哈佛的拉根研究所的成员,他们是这项研究的高级作者。细胞系统。麻省理工学院研究生BrianHie是论文的主要作者。

更好的预测

机器学习是一种计算机建模,在这种模型中,算法学习根据已经看到的数据进行预测。近年来,生物学家开始利用机器学习来搜索潜在药物化合物的庞大数据库,以找到与特定目标相互作用的分子。

这种方法的一个局限性是,当他们分析的数据与他们接受训练的数据相似时,这些算法表现得很好,但它们并不擅长评估那些与他们已经看到的分子有很大不同的分子。

为了克服这一问题,研究人员使用了一种叫做高斯过程的技术,将不确定性值分配给算法所训练的数据。这样,当模型分析训练数据时,他们也会考虑到这些预测的可靠性。

例如,如果进入模型的数据预测某一特定分子与目标蛋白质的结合程度,以及这些预测的不确定性,该模型可以利用这些信息对蛋白质-目标相互作用进行预测,这是它以前从未见过的。该模型还估计了自己预测的确定性。在分析新的数据时,模型的预测对于与训练数据有很大不同的分子来说,其确定性可能较低。研究人员可以利用这些信息来帮助他们决定实验测试哪些分子。

这种方法的另一个优点是该算法只需要少量的训练数据。在这项研究中,麻省理工学院的研究小组用72个小分子及其与400多个蛋白质的相互作用(称为蛋白激酶)对模型进行了训练。然后,他们能够使用这个算法分析近11000个小分子,这些小分子是从锌数据库中提取的,锌数据库是一个公开可用的储存库,含有数百万种化合物。其中许多分子与训练数据中的分子非常不同。

利用这一方法,研究人员能够识别出与他们所加入的蛋白激酶具有非常强的结合亲缘关系的分子。其中包括三种人类激酶,以及在结核分枝杆菌中发现的一种激酶。这种激酶,PknB,是细菌生存的关键,但不是任何一线结核病抗生素的目标。

研究人员随后通过实验测试了他们的一些最成功之处,以了解他们与目标的结合程度,并发现模型的预测非常准确。在模型给出的最确定的分子中,大约90%被证明是真正的命中--远高于现有用于药物筛选的机器学习模型的30%到40%的命中率。

研究人员还使用相同的训练数据来训练不包含不确定性的传统机器学习算法,然后让它分析相同的11000个分子库。他说:“没有不确定性,这个模型就会变得非常混乱,它提出了与激酶相互作用的非常奇怪的化学结构。”

然后,研究人员采取了一些最有前途的PknB抑制剂,并测试他们在细菌培养培养基中生长的结核分枝杆菌,并发现它们抑制细菌的生长。这些抑制剂也在感染细菌的人免疫细胞中起作用。

一个好的起点

这种方法的另一个重要因素是,一旦研究人员获得额外的实验数据,他们就可以将其添加到模型中,并对其进行再培训,从而进一步改进预测。研究人员说,即使是少量的数据也能帮助模型变得更好。

Hie说:“每次迭代都不需要非常大的数据集。”“你可以用10个新的例子重新训练这个模型,这是一个生物学家很容易产生的东西。”

布莱森说,这项研究是多年来首次提出新的分子,可以针对PknB,并且应该给药物开发人员一个很好的起点,可以尝试开发针对激酶的药物。他说:“我们现在为他们提供了一些新的线索,超出了已经公布的范围。”

研究人员还表明,他们可以利用同样的机器学习来提高绿色荧光蛋白的荧光输出,绿色荧光蛋白通常用于标记活细胞内的分子。它也可以应用于许多其他类型的生物学研究,Berger说,他现在正用它来分析推动肿瘤发展的突变。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1819

    文章

    50298

    浏览量

    266844
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何打造理想的家用机器人视觉方案

    机器人已经开始在我们的日常生活中发挥作用,在可预见的未来,更多的人工智能家用机器人以及家用人形机器人将被引入市场。
    的头像 发表于 04-17 10:14 623次阅读
    如何打造理想的<b class='flag-5'>家用机器</b>人视觉方案

    江南大学:AI赋能合成生物传感,四大领域迎来颠覆性突破

    - 学习(DBTL)全周期的系统性整合框架,明确剖析了 AI 赋能细胞型合成生物学传感器、AI 优化无细胞型合成生物学传感器的差异化工程范式,揭示了计算智能破解两类传感平台特异性技术
    的头像 发表于 04-02 20:00 4160次阅读
    江南大学:AI赋能合成<b class='flag-5'>生物</b>传感,四大领域迎来颠覆性突破

    英矽智能发布 PandaClaw:以智能体AI赋能生物学家开展治疗性发现

    现平台PandaOmics中的变革性新功能。PandaClaw将AI智能体与生物学生物信息学工作流程相结合,使研究人员能够借助直观、智能的自然语言界面,实现自动化实时分析,从而高效便捷的完成靶点发现、适应症探索、疾病假说等复杂
    的头像 发表于 03-23 11:51 136次阅读
    英矽智能发布 PandaClaw:以智能体AI赋能<b class='flag-5'>生物学家</b>开展治疗性发现

    思必驰正式加入家用服务机器人专委会

    近日,家用服务机器人产业发展论坛暨家用服务机器人专委会成立大会在上海召开,首份《家用服务机器人产
    的头像 发表于 03-23 11:08 1007次阅读

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    ,并验证输出结果,就能不断提升专业技能,养成优秀数据学家的工作习惯。需避免的机器学习和深度学习数据
    的头像 发表于 01-07 15:37 342次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    【道生物联TKB-623评估板试用】+ 初步认识道生物联TKB-623评估板

    收发、休眠唤醒等功能测试,同时可测试灵敏度、功耗等性能。 产品特性 通过串口工具发送 AT 指令,快速完成数据收发 可测试 TurMass™ 各种模式下的发射功率和接收灵敏度 电源供电有跳线,可
    发表于 11-07 22:51

    NVIDIA推出面向语言、机器人和生物学的全新开源AI技术

    NVIDIA 秉持对开源的长期承诺,推出了面向语言、机器人和生物学的全新开源 AI 技术,为构建开源生态系统做出贡献,扩展 AI 的普及并推动创新。NVIDIA 正将这些模型、数据和训练框架贡献给 Hugging Face,让
    的头像 发表于 11-06 11:49 1253次阅读

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    Cat M-1 用于遥测/连接。 用于边缘处理和机器学习的 ARMSoM 计算模块 (CM5)。 项目背景 []() 通过聆听自然界的声音,我们可以监测动物之间的交流方式,并获得基本的基线
    发表于 10-27 09:18

    北京理工大学:在AI辅助生物传感器改造领域取得重要进展

    转录因子BmoR为例,利用该方法成功地缩小了BmoR的改造区域,极大地加快了获得理想突变体的速度,为合成生物学生物制造的高度特定工具的理性设计提供了一个新的范例。该工作以北
    的头像 发表于 10-14 18:14 773次阅读
    北京理工大学:在AI辅助<b class='flag-5'>生物</b>传感器改造领域取得重要进展

    国际类脑计算学家Yulia Sandamirskaya教授加盟时识科技

    近日,国际类脑计算与神经形态机器人领域知名科学家Yulia Sandamirskaya 教授,作为科学家顾问正式加入时识科技(SynSense)。
    的头像 发表于 10-13 13:50 924次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家
    的头像 发表于 09-10 17:38 1042次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署深度<b class='flag-5'>学习</b>神经网络

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    生物化学计算机,它通过离子、分子间的相互作用来进行复杂的并行计算。因而未来可期的前景是AI硬件将走向AI湿件。 根据研究,估算出大脑的功率是20W,在进行智力活动时,其功率会增大到25
    发表于 09-06 19:12

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    在神经网络的计算中广泛应用,理解矩阵乘法、特征值和特征向量等概念有助于深入掌握深度学习模型的工作原理。 掌握编程语言,如Python和R。Python有丰富的AI库,如NumPy、Pandas用于数据
    发表于 07-08 17:44

    harmony-utils之AuthUtil,生物认证相关工具

    # harmony-utils之AuthUtil,生物认证相关工具类 ## harmony-utils 简介与说明 ------[harmony-utils]( https
    的头像 发表于 06-26 17:43 548次阅读

    NXP eIQ Time Series Studio 工具使用攻略(九)-数据标签

    其中"Data Labeling",数据标签工具使用户能够通过可视化界面将相应的数据标签(如电弧或无电弧)应用于当前数据图形的不同部分,从而对导入的原始
    的头像 发表于 05-22 09:51 1730次阅读
    NXP eIQ Time Series Studio <b class='flag-5'>工具</b>使用攻略(九)-<b class='flag-5'>数据</b>标签