0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于OpenAI的GPT-2的语言模型ProtGPT2可生成新的蛋白质序列

IEEE电气电子工程师 来源:IEEE电气电子工程师 作者:IEEE电气电子工程师 2022-09-08 16:24 次阅读

人类语言与蛋白质有很多共同点,至少在计算建模方面。这使得研究团队将自然语言处理(NLP)的新方法应用于蛋白质设计。其中,德国Bayreuth大学Birte Höcker的蛋白质设计实验室,描述了基于OpenAI的GPT-2的语言模型ProtGPT2,以基于自然序列的原理生成新的蛋白质序列。

正如字母表中的字母组成单词和句子一样,天然氨基酸以不同的方式结合形成蛋白质。和自然语言一样,蛋白质序列以极高的效率将结构和功能存储在氨基酸序列中。

ProtGPT2是一个深度的、无监督的模型,它利用了变压器架构的进步,而变压器架构也导致了NLP技术的快速发展。该体系结构有两个模块,Noelia Ferruz解释说,她是论文的合著者,也是培训ProtGPT2的人:一个模块理解输入文本,另一个模块处理或生成新文本。第二个是生成新文本的解码器模块,帮助了ProtGPT2的开发。

Researchers have used GPT-2 to train a model to learn the protein “language,” generate stable proteins, and explore “dark” regions of protein space.

“在我们创建这个模型的时候,还有许多其他人在使用第一个模块,”Noelia Ferruz说,“例如ESM、ProtTrans和ProteinBERT。我们的是当时第一个公开发布的解码器,这也是第一次有人直接应用GPT-2。”

Ferruz本人是GPT-2的忠实粉丝。“我发现有一个能写英语的模型给我留下了深刻印象,”她说。这是一个著名的transformer模型,以无监督的方式对40千兆字节的英语互联网文本进行预训练,即使用没有人类标记的原始文本生成句子中的下一个单词。GPT-x系列已被证明能够有效地生成长而连贯的文本,通常与人类书写的文本无法区分,因此潜在的误用是一个令人担忧的问题。

鉴于GPT-2的能力,Bayreuth的研究人员对使用它训练模型学习蛋白质语言、生成稳定的蛋白质以及探索蛋白质空间的“暗”区域持乐观态度。Ferruz在整个蛋白质空间中约5000万个无注释序列的数据集上训练了ProtGPT2。为了评估该模型,研究人员将由ProtGPT2生成的10000个序列的数据集与来自训练数据集的10000个随机序列集进行了比较。

他们发现该模型预测的序列在二级结构上与天然蛋白质相似。ProtGPT2可以预测稳定和功能性的蛋白质,不过,Ferruz说,这将在未来几个月内通过对一组大约30种蛋白质的实验室实验来验证。ProtGPT2还模拟了自然界中不存在的蛋白质,在蛋白质设计领域开辟了可能性。

cb0d9dc2-2a9e-11ed-ba43-dac502259ad0.png

UNIVERSITY OF BAYREUTH/NATURE COMMUNICATIONS

Ferruz说,该模型可以在几分钟内产生数百万种蛋白质。“如果没有进一步的改进,人们可以采用免费提供的模型,并对一组序列进行微调,以在该区域产生更多的序列,例如抗生素或疫苗。”但是,她补充说,通过对训练过程进行小的修改,“我们可以添加标签,并有可能在未来开始生成具有特定功能的序列。”这反过来不仅在医疗和生物医学领域,而且在环境科学等领域有潜在的应用。

Ferruz承认NLP领域的快速发展为ProtGPT2的成功做出了贡献,但同时也指出,这是一个不断变化的领域 —— “过去12个月发生的所有事情都太疯狂了。”目前,她和她的同事已经在写一篇关于他们工作的评论。“我在2021圣诞节训练了这个模型,”她说,“当时,有另一个模型已经被描述过了……但它不可用。”不过她表示,到今年春天,其他模型已经发布。

ProtGPT2的预测序列跨越了新的、很少探索的蛋白质结构和功能区域。然而,几周前,DeepMind发布了超过2亿种蛋白质的结构。“所以我想我们已经没有那么多的暗蛋白质组了,”Ferruz说,“但仍有一些地区……尚未被探索。”

不过,前面还有很多准备工作要做。“我想控制设计过程,”Ferruz补充道,“我们将需要获取序列,预测结构,并可能预测功能(如果有的话)……这将是非常具有挑战性的。”ProtGPT2是面向高效蛋白质设计和生成迈出的一大步,为探索设计蛋白质结构和功能的参数及其后续实际应用的实验研究奠定了基础。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40156
  • 语言模型
    +关注

    关注

    0

    文章

    434

    浏览量

    10043
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21818
  • OpenAI
    +关注

    关注

    8

    文章

    752

    浏览量

    5911

原文标题:研究人员开发用于蛋白质设计的深度无监督语言模型ProtGPT2

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    有测脂肪蛋白质的单片机程序和电路图提供参考一下吗?

    有测脂肪蛋白质的单片机程序和电路图提供参考一下吗
    发表于 04-10 11:39

    以色列面向生物传感器和电路的蛋白质纳米线

    银纳米线被用于生物传感器和电路中。 该所大学化学系的Ehud Gazit研究了聚集在Alzheimer病人大脑内的淀粉蛋白质纤维。这种蛋白质还聚集在人体的其它部位,引发二类糖尿病和朊病毒病。 他
    发表于 11-20 15:53

    面向生物传感器和电路的蛋白质纳米线

    纳米线被用于生物传感器和电路中。 该所大学化学系的EhudGazit研究了聚集在Alzheimer病人大脑内的淀粉蛋白质纤维。这种蛋白质还聚集在人体的其它部位,引发二类糖尿病和朊病毒病。 他的研究
    发表于 12-03 10:47

    蛋白质组学技术与药物作用新靶点研究进展 精选资料分享

    ,成为制约新药开发速度的瓶颈。基因组学研究表明,人体中全部药靶蛋白为1万~2万种,而在过去100年中发现的靶点,仅约有 500种。因此,自1994年Wilkins等提出蛋白质组(pro- teome
    发表于 07-26 07:48

    点成分享 | 蛋白质浓度测定之BCA法

    蛋白质浓度的测定是常见的生物实验之一。本文介绍的是使用BCA法(二辛酸法或二喹啉甲酸法)进行蛋白质浓度的测定。BCA分子式1实验原理BCA是一种稳定的碱性水溶性复合物。在碱性条件下,蛋白质
    发表于 12-20 17:17

    随机游走的蛋白质功能预测算法

    针对单一数据源预测蛋白质功能效果不佳以及蛋白质相互作用网络信息不完全等问题,提出一种多数据源融合和基于双重索引矩阵的随机游走的蛋白质功能预测( MSI-RWDIM)算法。该算法使用了蛋白质
    发表于 01-09 16:42 1次下载

    基于PPI网络与机器学习的蛋白质功能预测方法

    蛋白质是执行生物体内各种重要生物活动的大分子,认识其功能对推动生命科学、农业、医疗等领域的发展意义重大。1961年,Anfinsen等提出蛋白质一级序列决定其三维结构、蛋白质三维结构决
    发表于 04-17 14:39 0次下载

    OpenAI发布一款令人印象深刻的语言模型GPT-2

    今年2月,OpenAI发布了一款令人印象深刻的语言模型GPT-2,它可以写短篇小说、诗歌,甚至轻松辨别《哈利波特》和《指环王》中的角色。最近,一位加拿大工程师用它创建了一个向公众开放的
    的头像 发表于 05-17 18:48 4168次阅读

    OpenAI宣布,发布了7.74亿参数GPT-2语言模型

    就在本周,OpenAI宣布,发布了7.74亿参数GPT-2语言模型,15.58亿的完整模型也有望于几个月内发布,并将
    的头像 发表于 09-01 09:10 2729次阅读

    一种改进的动态蛋白质网络构建算法

    构建可靠的动态蛋白质网络是提高蛋白质未知功能预测和蛋白质复合物识别性能的关键,然而现有蛋白质网络构建和功能预测方法普遍存在鲁棒性低、预测精度不足等问题。为此,设计改进的动态
    发表于 03-16 09:29 2次下载
    一种改进的动态<b class='flag-5'>蛋白质</b>网络构建算法

    基于衰减系数的动态蛋白质预测网络模型

    在生物系统的转变过程中,蛋白质的演化过程并非一成不变,而是动态变化的。通过构造模型的方法来研究蛋白质相互作用网络,可以较好地刻画蛋白质相互作用的演化机制。但是,利用构造
    发表于 06-15 16:50 10次下载

    奶粉蛋白质检测仪的特点及功能

    奶粉蛋白质检测仪【恒美 HM-Z12】由恒美蛋白质检测仪厂家专业生产提供蛋白质快速检测仪【恒美】技术服务,致力于土奶粉蛋白质检测仪【恒美 HM-Z12】的研发与生产,检测仪器性能稳定质
    发表于 08-05 17:10 373次阅读

    蛋白质测定仪工作原理是怎样的

    蛋白质测定仪的工作原理,蛋白质测定仪【HM-Z12】可快速检测奶粉、牛奶及乳制品中的蛋白质,我们都知道蛋白质在我们的生命中占据很重要的位置,随着生活条件的全面提升,市面上很多食品含有一
    发表于 11-15 14:47 2524次阅读

    昇思MindSpore蛋白质结构预测模型研发进展

    近期,基于全场景AI框架昇思MindSpore 开发的蛋白质结构预测模型在全球持续蛋白质结构预测竞赛CAMEO(Continous Automated Model EvaluatiOn)上连续三周霸榜,并包揽月榜前二,显示出昇腾
    的头像 发表于 04-24 12:13 1119次阅读

    NVIDIA 和 Evozyne 创建用于生成蛋白质生成式 AI 模型

    科学家使用 NVIDIA BioNeMo 创建出能够生成高质量蛋白质的大型语言模型,以此加快药物研发并助力创造更具可持续性的环境。 初创企业 Evozyne 使用 NVIDIA 提供的
    的头像 发表于 01-13 23:15 433次阅读