0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度进军生物计算领域 发布基于飞桨的生物计算平台 - 螺旋桨 PaddleHelix

工程师邓生 来源:机器之心 作者:机器之心 2020-12-28 16:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

百度正式发布基于飞桨的生物计算平台 - 螺旋桨 PaddleHelix,进军生物计算领域。

在本月 20 号召开的 WAVE SUMMIT+2020 深度学习开发者峰会上,百度正式发布了基于飞桨的生物计算平台 - 螺旋桨 PaddleHelix,进军生物计算领域。本次发布的螺旋桨 PaddleHelix 生物计算开源工具集,提供了包括 RNA 二级结构预测、大规模的分子预训练、药物 - 靶点亲和力预测、以及 ADMET 成药性预测等一系列算法和模型,重点满足生物医药,疫苗设计和精准医疗方面的 AI 需求。

螺旋桨 PaddleHelix 官网地址:https://www.paddlepaddle.org.cn/paddle/paddlehelix

螺旋桨 PaddleHelixGitHub 地址:https://github.com/PaddlePaddle/PaddleHelix

生物医药

在生物医药领域,小分子化合物的筛选是非常关键的环节。为了设计出某种疾病的特效药,一方面要找到能够和疾病靶点结合、具有足够活性的小分子药物;另一方面又要保证药物在人体内能够正常发生作用,以及满足一系列额外性质(药物的吸收,分布,代谢,排泄,毒性,统称 ADMET)。

靶蛋白(Protein)- 药物配体(Ligand)复合物 (来源:PDBBind-cn.org)

传统的药物发现方法包括基于靶点结构的药物设计(Structure Based Drug Design, SBDD),基于碎片的药物设计(Fragment Based Drug Design, FBDD),老药新用 (Repurposing),以及计算机虚拟药物设计(Computational-Aided Drug Design, CADD)等等。这些方法均存在依赖体内(in vivo)体外 (in vitro) 实验验证,或者消耗大量计算资源等问题。因此近年来,基于分子的结构和知识来直接预测亲和性的 AI 药物设计(AIDD)逐渐被广泛认可和应用。相比于 CADD,AIDD 展现出了性能上的巨大优势,但其效果同时受到生物计算领域数据量的限制。下面的表格(表 1)展示生物计算一些重要问题的典型数据量,其中绿色的是有标注数据。我们看到,尽管这个领域有大量的无标注数据(仅有分子结构或者序列,没有性质,或者次级结构),有标注数据却非常少,难以支撑高质量的深度模型。

表 1

在 AI 的其他领域也存在类似问题。以自然语言处理为例,这个领域存在 NER,逻辑推断,阅读理解,文本生成等等非常多的子问题。这些问题中的有标注数据量都非常少。但是人类文明中累积了大量的无标注语言文字,这些无标注语料给自然语言处理提供了表示学习(Representation Learning)的机会。在这样的背景下,BERT, ERNIE 等一系列基于自监督(Self-Supervised)学习的方法被提出。

正是基于此,螺旋桨 PaddleHelix 提出基于表示学习,多任务学习(Multi-Task Learning, MTL)和元学习(Meta Learning)来降低深度学习在生物计算中的技术和数据门槛,提升其效果。包括生物大分子(蛋白质,DNA,RNA)或者药物小分子都由原子或者亚基组成,都可以通过序列,图,或者三维结构表示。一种自然的想法,是像在自然语言处理领域一样,利用无标注数据上的自监督学习来优化分子的表示,再将其应用到下游任务。同时,生物计算领域存在大量的零散的任务,以 ADMET 为例,有 30~50 个指标需要考虑。这样的问题中,百度的生物计算团队也认为多任务学习和元学习将会发挥重要作用。

螺旋桨 PaddleHelix 复现并内置了业界主流的分子预训练模型(如表 2),以及常用的很多组网工具(CNN, Transformer, LSTM, ResNet,GNN 等等),开发者基于预训练模型实现自己的模型只需要短短几行代码。螺旋桨 PaddleHelix 也提供了一些通过了验证的,可以有效应用于下游任务的模型,效果如表 2 所示。

表 2:使用预训练在分子性质预测中带来显著提升

疫苗设计

疫苗是通过把病毒或病菌相关的抗原(通常是蛋白)预先输入人体,引起人体免疫反应的物质。传统的疫苗需要体外制备抗原蛋白,通常效率低,难于快速大规模生产,因此可在人体自身内生产抗原蛋白的 mRNA 疫苗受到越来越多的关注。mRNA 疫苗制备速度快、无感染风险,但有一个天然劣势就是 mRNA 非常不稳定,这与 mRNA 的二级结构相关。mRNA 疫苗设计的关键就在于,在不改变翻译出的抗原蛋白的前提下,设计 mRNA 序列使其二级结构尽可能更稳定。

mRNA 疫苗示意图(来源:https://translate.bio/)

百度研究院生物计算团队从 2018 年开始就开展了 RNA 结构预测和序列设计相关研究,并在 2019 年 7 月和 2020 年 7 月分别发表了 LinearFold 和 LinearPartition 算法, 将 RNA 结构预测和分析的速度大大提升。其中 LinearFold 能够在 27 秒内完成新冠病毒全基因组结构分析,比传统算法速度提升 120 倍。正是有了之前的积累,百度研究院在短短两个月就完成了 LinearDesign 的研发, 在 mRNA 疫苗设计上提出了革命性的方法。LinearDesign 能够在 11 分钟内完成新冠 mRNA 疫苗序列的设计,设计序列的稳定性和有效性大大提升。如图所示,左边是能翻译新冠 S 蛋白的野生型 mRNA 二级结构,其中存在大量易断裂的单链环。右边是 LinearDesign 设计序列的结构,断裂点更少,与野生型序列相比稳定性大大提升。百度研究院 RNA 结构预测与序列设计相关成果在美国 MIT 科技评论,以及美国消费者新闻与商业频道(CNBC)得到了高度评价,并在 2020 年全球人工智能峰会(AI Summit)上获得了 AI For Good(AI 向善)奖。

在螺旋桨 PaddleHelix 中,百度也完整开源了 LinearRNA 系列算法,目前主要包括 LinearFold 和 LinearPartition,开发者想要调用这些强大的工具仅仅需要一行代码。

新冠 S 蛋白的野生型 mRNA 结构和 LinearDesign 结构

精准医疗

精准医疗(precision medicine)的概念是指,根据患者特征(patient characteristics)实现准确的疾病诊断和分类,从而进行个性化匹配用药和跟踪治疗。相较于传统的 one-size-fits-all 治疗方案,精准医疗致力于通过临床数据、生活环境、特别是分子组学数据精确刻画个体特征,通过挖掘和探究隐含在多模态数据层面的信息进行综合分析和判断,最终提供更好更适配的药物选择和治疗方案从而提升患者的治疗效果最终提高个体的生存时间和生存质量。

部分图片素材来自网络

螺旋桨 PaddleHelix 也将提供基于多维数据(临床随访数据、蛋白组数据、基因组数据、转录组数据、甲基化组数据、小 RNA 数据、单细胞组数据)的表示学习算法模型、药物响应模型、疾病预后模型等,旨在帮助行业内的医疗专家、研究人员和从业者更好的利用组学数据和分子特征更精确的刻画个体表示做组群区分,从而在精准医疗的三个维度预防、预测、治疗(Prevention、Prediction、Treatment)构建更好更准确的医疗模型,帮助到更多的患者得到最好最适配的治疗。

结语

在 WAVE SUMMIT+2020 深度学习开发者峰会上,百度集团副总裁、深度学习技术及应用国家工程实验室副主任,吴甜女士对螺旋桨 PaddleHelix 的发展做了简短的概述,希望未来与合作伙伴共建,逐步形成一套完整的面向行业的生物计算生态和服务。

我们也期待,螺旋桨 PaddleHelix 的发布能带来更多的跨界惊喜,在生物医药、精准医疗、疫苗设计等领域发挥出更大的价值。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算
    +关注

    关注

    2

    文章

    460

    浏览量

    40134
  • 百度
    +关注

    关注

    9

    文章

    2389

    浏览量

    95246
  • 生物
    +关注

    关注

    0

    文章

    50

    浏览量

    16083
  • 飞桨
    +关注

    关注

    0

    文章

    37

    浏览量

    2668
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瀚博半导体宣布深度参与百度黑客松生态活动

    近日,瀚博半导体正式宣布深度参与百度主办的黑客松生态活动。面向全球开发者开放旗下载天系列加速卡开发环境,支持部署百度文心ERNIE-4.5 系列开源模型与PP-OCRv4 文档理解模型,打造
    的头像 发表于 04-11 09:41 715次阅读

    沐曦股份与百度黑客松硬核赛题来袭

    沐曦股份作为飞黑客松第十期文心合作伙伴赛道核心出题方之一,携专属赛题「优化 PaddleOCR-VL-1.5+MetaX GPU」重磅来袭,邀全球开发者共探深度学习框架与国产GPU的软硬协同优化之道,用代码解锁智能文字识别的性能极限!
    的头像 发表于 04-02 09:20 462次阅读
    沐曦股份与<b class='flag-5'>百度</b>飞<b class='flag-5'>桨</b>黑客松硬核赛题来袭

    沐曦曦索GPU产品赋能AI4S重塑材料研发新范式

    2026年1月29日,“AI4Science 前沿:材料研发计算新范式——国产算力×深度学习框架技术沙龙·上海站”在张江百度人工智能产业赋能中心举办。
    的头像 发表于 02-10 14:28 708次阅读

    百度地图开放平台与400万开发者共赴智能时空新未来

    二十年星辰大海,十五载开放引航。2025年,百度地图迎来服务用户的二十周年,其开放平台亦走过了与开发者并肩同行的十五个春秋。在近期举行的“2025百度地图开发者盛典”上,百度地图开放
    的头像 发表于 01-23 09:03 964次阅读
    <b class='flag-5'>百度</b>地图开放<b class='flag-5'>平台</b>与400万开发者共赴智能时空新未来

    风机变超级电容的作用

    风力发电中的变系统依赖超级电容模组实现高效、可靠调节,提升发电效率并降低维护成本。
    的头像 发表于 12-16 09:21 691次阅读
    风机变<b class='flag-5'>桨</b>超级电容的作用

    飞机变距调速器技术演进图谱研究:从机械液压自主到智能电液综合的范式变迁

    飞机的自动变距调速器是一个集机械感知、液压传动与控制系统于一体的复杂伺服机构。其设计的精髓在于,将飞行员的功率指令与多变的飞行环境,转化为对螺旋桨桨叶角(距)的连续、精准调节,从而实现“恒速”与“高效”两大核心目标。
    的头像 发表于 12-11 10:22 1068次阅读
    涡<b class='flag-5'>桨</b>飞机变距调速器技术演进图谱研究:从机械液压自主到智能电液综合的范式变迁

    智能变:基于DSP与CPLD协同处理的高动态飞行器主电动变距伺服控制系统

    电动式变距伺服控制系统是一种通过电动执行机构来调整飞行器主距角的高精度控制系统。其核心原理是通过改变桨叶迎风面与纵向旋转轴的夹角,即距角,来优化桨叶在不同飞行状态下的气动性能。
    的头像 发表于 11-22 15:06 1887次阅读
    智能变<b class='flag-5'>桨</b>:基于DSP与CPLD协同处理的高动态飞行器主<b class='flag-5'>桨</b>电动变<b class='flag-5'>桨</b>距伺服控制系统

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI云

    自2006年以来,百度世界大会已连续举办近20届,百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品
    的头像 发表于 11-13 15:47 1961次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来已连续举办19年,持续为行业搭建起交流前沿技术、碰
    的头像 发表于 11-13 11:51 1502次阅读

    沙机远程监控集中管理系统方案

    。 数之能以数据中台为核心,通过集成物联网、大数据、云计算等先进技术,构建纱机远程监控集中管理系统,实现设备状态的实时感知、异常预警、远程调控与智能运维,提升生产效率,降低运维成本,保障生产安全。 系统架构
    的头像 发表于 09-17 15:41 485次阅读
    <b class='flag-5'>桨</b>沙机远程监控集中管理系统方案

    【「AI芯片:科技探索与AGI愿景」阅读体验】+化学或生物方法实现AI

    网络,极其复杂和精密。大脑本质上是一台湿润的软组织生物化学计算机,通过离子、分子之间的相互作用进行复杂的并行计算。 理解了怎么生物AI,作者为我们介绍了几种备受关注的研究方向和成果。
    发表于 09-15 17:29

    百度智能云全面升级舸5.0和千帆4.0

    大会上,百度智能云全面升级舸AI计算平台5.0、千帆企业级AI开发平台4.0两大AI基础设施,帮助企业以更低成本、更高效率部署和开发AI产
    的头像 发表于 08-30 09:18 2012次阅读

    宁畅与与百度文心大模型展开深度技术合作

    近日,百度正式开源文心大模型4.5系列模型。作为文心开源合作伙伴,宁畅在模型开源首日即实现即刻部署,做到“开源即接入、发布即可用”。据悉,文心4.5开源系列全部基于飞深度学习框架进行
    的头像 发表于 07-07 16:26 1043次阅读

    中科曙光助力中国农大生物高性能平台落地

    近日,中国农业大学国家生物育种产教融合创新平台高性能计算机系统,经过验收投入使用。该系统由中科曙光依托“超智融合”技术方案建设,集生物信息分析、大数据分析、AI数据挖掘、育种模型训练等
    的头像 发表于 06-07 09:20 1174次阅读

    百度地图重磅发布地图AI开放平台

    近日,在WGDC25全球时空智能大会上,百度地图重磅发布地图AI开放平台百度地图深耕20年的数据能力、引擎能力与AI技术全面开放,向开发者深度开放四大核心能力和五大场景解决方案。
    的头像 发表于 05-26 11:26 2064次阅读