0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

NVIDIA英伟达 来源:未知 2023-01-17 01:05 次阅读

InstaDeep、慕尼黑工业大学(TUM)和 NVIDIA 之间的合作推动了面向基因组学的多超级计算规模的基础模型开发进程。这些模型在大量预测任务(例如启动子和增强子位点预测)中展示了最先进的性能。

f0209c2e-95bd-11ed-bfe3-dac502259ad0.jpg

这一联合团队的研究指出,经过基因组学训练的大型语言模型(LLM)可将应用扩展到大量基因组学任务。

该团队使用 NVIDIA 的超级计算机 Cambridge-1 来训练参数规模从 500M 到 2.5B 不等的各种大型语言模型(LLM)。这些模型在各种基因组数据集上进行了训练,以探索模型规模和数据多样性对下游任务性能的影响。

分类任务包括预测增强子和启动子序列以及转录因子结合位点。这些任务有助于了解 DNA 如何转录生成 RNA 和蛋白质,从而开启新的临床应用。

研究中明确了 20 项任务。对于每一项任务,性能都随着模型规模和数据集多样性的增加而单调递增。参照专门的最新模型基线,在多物种数据集上训练的具有最大参数规模(2.5B 参数)的大型语言模型在 19 项任务中的 15 项中取得了同等或更高的性能。

这些结果是通过利用参数轻量化微调实现的。然而,即使依靠从 Transformer 模型各层提取的预训练嵌入以及简单的浅层感知器(MLP)或逻辑回归,也足以在 11 个任务中实现同等乃至更高的性能。

在每个模型检查点和每个任务的所有层上应用这种探测策略,训练出了 120 万个 MLP 模型。该研究对大型语言模型的训练和使用等各方面进行了详细分析,例如不同层对下游任务性能的影响。

在固定模型规模下直接比较序列多样性,显示出具有重要意义的性能提升,增加模型规模也是如此。例如,对于一个 500M 参数模型,仅在人类参考基因组上训练的性能不如在 1000 基因组数据集上训练的性能。

同样,在 1000 基因组数据集上训练的 2.5B 参数模型的性能优于任何 500M 参数模型。而对于相同的模型,性能会逊于在自定义多物种数据集上训练的结果,即使下游性能是在仅涉及人类基因组的任务上测量的。

研究人员观察到,并非所有嵌入都是平等创建的。虽然通常的做法建议使用大型语言模型的最后一层进行下游预测。但耐人寻味的是,中间层产生的表征在下游任务中显示出明显更高的性能。研究人员发现,最佳层的选择取决于任务,表明不同类型的 DNA 特征被不同层的模型所捕获。

InstaDeep 首席执行官 Karim Beguir 表示:“我们相信这些结果首次清楚地证明了基因组学基础模型的可行性,这些模型能够真正地推广到多项任务中。这些结果从很多方面反映出了过去几年内适应性基础模型在自然语言处理方面的发展进程。如今,其应用于药物研发和人类健康等如此具有挑战性的问题,着实令人难以置信的兴奋。”

NVIDIA 的 Cambridge-1 对该项目的成功至关重要。该项目需要高性能计算基础设施来训练具有捕获基因组中远程相互作用所需感受域的大型模型。

研究人员尝试了多种方法、数据集大小、模型规模和分词器方案,最终使用在 16 个 NVIDIA DGX A100 节点(128 个 A100 80GB GPU)上训练的 2.5B 参数稀疏注意力模型,在多任务上实现了迄今公开发表的最佳性能。

在未来的研究工作中,该团队计划通过直接微调模型,探索进一步的下游任务性能改进,并将继续在应用于基因组学的大型语言模型的架构创新方面展开合作。InstaDeep 是首批使用 Cambridge-1 的 NVIDIA 初创加速计划成员之一。

扫描下方海报二维码,即可免费注册 GTC 23,切莫错过这场 AI 和元宇宙时代的技术大会


原文标题:基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3332

    浏览量

    87807

原文标题:基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    全球最强大模型易主:GPT-4被超越,Claude 3系列崭露头角

    近日,人工智能领域迎来了一场革命性的突破。Anthropic公司发布了全新的Claude 3系列模型,该系列模型在多模态和语言能力等关键指标上展现出
    的头像 发表于 03-05 09:42 249次阅读

    小红书搜索团队研究新框架:负样本在大模型蒸馏中的重要性

    在思维链(CoT)提示的帮助下,大语言模型(LLMs)展现出强大的推理能力。然而,思维链已被证明是千亿级参数模型才具有的涌现能力。
    的头像 发表于 01-30 10:37 747次阅读
    小红书搜索团队研究新框架:负样本在大<b class='flag-5'>模型</b>蒸馏中的重要性

    模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

    近期的大语言模型(LLM)在自然语言理解和生成上展现出了接近人类的强大能力,远远优于先前的BERT等预训练模型(PLM)。
    的头像 发表于 01-04 14:06 167次阅读
    <b class='flag-5'>模型</b>与人类的注意力视角下参数规模扩大与指令微调对<b class='flag-5'>模型</b><b class='flag-5'>语言</b>理解的作用

    探索高效的大型语言模型大型语言模型的高效学习方法

    大型语言模型(LLMs)的应用中,提示工程(Prompt Engineering)是一种关键技术,用于引导模型生成特定输出或执行特定任务
    发表于 12-13 14:21 321次阅读
    探索高效的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>!<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的高效学习方法

    Transformer迎来强劲竞争者 新架构Mamba引爆AI圈!

    作为通用序列模型的骨干,Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,他
    发表于 12-07 14:14 312次阅读
    Transformer迎来强劲竞争者 新架构Mamba引爆AI圈!

    大规模语言模型的基本概念、发展历程和构建流程

    使用自然语言与系统交互,从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务大型语言模型
    的头像 发表于 12-07 11:40 1643次阅读
    大规模<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的基本概念、发展历程和构建流程

    走向边缘智能,美格智能携手阿加犀成功在高算力AI模组上运行一系列大语言模型

    近日,美格智能发挥软硬件一体协同开发能力,融合阿加犀卓越的AI优化部署技术,在搭载高通QCS8550平台的高算力AI模组上,成功运行了一系列大语言模型,包括LLaMA-2、通义千问Qwen、百川大
    的头像 发表于 11-14 14:39 526次阅读

    走向边缘智能,美格智能携手阿加犀成功在高算力AI模组上运行一系列大语言模型

    模型、RedPajama、ChatGLM2、Vicuna,展现出卓越的边缘端大模型部署能力。▌构建智算底座,加速大模型端侧部署大
    的头像 发表于 11-14 14:34 215次阅读
    走向边缘智能,美格智能携手阿加犀成功在高算力AI模组上运行一系列大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    语言模型“书生·浦语”多项专业评测拔头筹

    最近,AI大模型测评火热,尤其在大语言模型领域,“聪明”的上限 被 不断刷新。 商汤与上海AI实验室等联合打造的大语言模型“书生·浦语”(I
    的头像 发表于 08-25 13:00 354次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>“书生·浦语”<b class='flag-5'>多项</b>专业评测拔头筹

    大型语言模型在关键任务和实际应用中的挑战

    大型语言模型在关键任务和实际应用中的可靠性受到挑战。 模型产生幻觉可能是由于模型缺乏或错误地理解
    的头像 发表于 08-15 09:33 1141次阅读
    <b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>在关键<b class='flag-5'>任务</b>和实际应用中的挑战

    GPU助力基因组重测序分析

    等。随着近几年基因测序成本如图 1所示不断下降,在万元内即可完成人类的全基因组测序,GPU的技术发展也带来分析成本与时间的下降,于是用于检测基因组变化的重测序技术在癌症治疗中起到了越来越重要的作用。
    的头像 发表于 08-01 10:32 1155次阅读
    GPU助力<b class='flag-5'>基因组</b>重测序分析

    大型语言模型的应用

    该领域。在过去几年中,LLM 的规模每年增加 10 倍,而且随着这些模型的复杂程度和规模的增加,其性能也在不断发展。 大型语言模型现在正在为
    的头像 发表于 07-05 10:27 1630次阅读

    大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息

    确实能学习和表示文本的意义。 虽然大型预训练语言模型(LLM)在一系列下游任务展现出飞速提升的性能
    的头像 发表于 05-25 11:34 487次阅读
    <b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>能否捕捉到它们所处理和生成的文本中的语义信息

    语言模型的多语言机器翻译能力分析

    以ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Translation, MT)任务展现出了惊人的潜力。
    的头像 发表于 05-17 09:56 1026次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的多<b class='flag-5'>语言</b>机器翻译能力分析

    如何通过一个简单的方法来解锁大型语言模型的推理能力?

    近来NLP领域由于语言模型的发展取得了颠覆性的进展,扩大语言模型的规模带来了一系列的性能提升,然而单单是扩大
    的头像 发表于 05-10 11:13 1564次阅读
    如何通过一个简单的方法来解锁<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的推理能力?