0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

预测超长蛋白质这事,CPU赢了

英特尔中国 来源:未知 2023-07-08 14:15 次阅读
金磊 杨净 发自 凹非寺
量子位 | 公众号 QbitAI

AI模型的推理在CPU上完成加速和优化,竟然不输传统方案?

至少在生命科学和医疗制药方向,已经透露出这种信号

例如在处理AlphaFold2这类大型模型这件事上,大众普遍的认知可能就是堆GPU来进行大规模计算。

但其实从去年开始,CPU便开始苦练内功,使端到端的通量足足提升到了原来的23.11倍。

而现如今,CPU让这个数值great again——再次提升3.02倍

727bbffe-1d55-11ee-962d-dac502259ad0.png

不论是像抗菌肽这种较短的氨基酸序列,还是像亨氏综合征蛋白这样超长的序列,都可以轻松hold住。

而且所有的预测任务,在不考虑最高通量、仅仅是顺序执行,8个小时就能全部搞定。

72921998-1d55-11ee-962d-dac502259ad0.png

甚至国内已经有云服务提供商做了类似的优化方案:

相比于GPU,基于CPU的加速方案在性价比上更为理想,而且在特定的情况下(超过300或400氨基酸),几乎只有CPU能把它算完,而GPU的失败率会很高。

要知道,像AlphaFold2这类任务,可以说是公认的AI for Science标杆。

从上述的种种迹象表明,CPU不再是“你以为的你以为”,而是以一种新势力进军于此,并发挥着前所未有的威力。

CPU,正在大步迈进新时代。

英特尔自己刷新自己

事实上,此次备受关注的CPU加速方案,背后不是别人,正是发明了CPU的英特尔。

2022年,英特尔以第三代至可扩展处理器硬件基座,使AlphaFold2通量优化提升达23.11倍。一年后,他们在此基础上,再次实现自我刷新。

2022年,英特尔基于第三代至 可扩展平台,针对AlphaFold2的设计特点,在预处理、模型推理、后处理三阶段实现了端到端优化。

73671a4e-1d55-11ee-962d-dac502259ad0.png

如今,原有的五大端到端基础步骤之上,第四代至 可扩展处理器的加入,再次给AlphaFold2带来整体推理性能的提升。

此次优化方案主要围绕预处理和模型推理两个方面,基本划分为五个步骤。

第一步:预处理阶段,借助第三代或第四代至 可扩展处理器的多核优势及其内置AVX-512技术,实现针对性的高通量优化。

第二步到第五步模型推理阶段的优化,与2022年方案类似。

第二步,将深度学习模型迁移至面向英特尔 架构优化的PyTorch,并逐模块地从JAX/haiku完成代码迁移。

第三步,引入JIT图编译技术,将网格转化为静态图,以提高模型推理速度。

第四步,切分注意力模块和算子融合,即对注意力模块进行大张量切分的优化思路;与此同时,使用IPEX(英特尔 扩展优化框架,建议版本为IPEX-2.0.100+cpu或更高)对Einsum和Add两种算子进行融合。

第五步,借助至 可扩展平台的计算和存储优势实施针对性优化。比如基于NUMA架构技术,挖掘多核心优势,破解多实例运算过程中的计算和内存瓶颈。

不过除了提供更强的基础算力,第四代至 可扩展平台还带来了诸多针对AI工作负载的优化加速技术。

具体可以拆分为四项:(详细优化方案可点击阅读原文获取)

一、TPP技术降低推理过程中的内存消耗

TPPTensor Processing Primitives)相当于是一种虚拟的张量指令集架构,能让英特尔 AVX-512等物理指令集予以抽象,生成经过优化的平台代码。

具体到计算执行上,TPP能实现两种优化方式:以单指令多数据方式处理数据;优化内存访问模式,提升缓存命中率来提高数值计算和访存效率。

7387a200-1d55-11ee-962d-dac502259ad0.png

这样一来,狭长矩阵乘法的空间复杂度从 O (n^2) 降为 O (n) ,运算内存峰值也将大幅降低,更有助于处理长序列蛋白结构预测的问题。

二、支持DDR5内存与大容量缓存带来张量吞吐提升

AlphaFold2中大量的矩阵计算过程需要内存来支撑,因此内存性能影响着整个模型运行性能。

第四代至强 可扩展处理器带来两种解决思路——支持DDR5内存,以及大容量末级缓存:

一方面,与上个方案DDR4内存带宽25.6GBps (3,200MHz)相比,DDR5内存带宽提升了超50%,达到38.4GBps (4,800MHz)以上 ;另一方面,末级缓存也由上一代的最高 60MB提升至现在最高112.5MB,幅度87.5%。

三、内置AI加速引擎AMX

英特尔在第四代至 可扩展处理器中创新内置了AI加速器——英特尔 AMX,类似GPU里的张量核心,加速深度学习推理过程并减少存储空间。

它支持INT8、BF16等低精度数据类型,尤其BF16数据类型在精度上的表现不逊于FP32数据类型,AlphaFold2使用AMX_BF16后,推理时间可缩短数倍之多。

四、高带宽内存HBM2e增加访存通量

每个英特尔 至 CPU Max系列,都拥有4个基于第二代增强型高带宽内存 (HBM2e) 的堆栈,总容量为64GB (每个堆栈的容量为16GB)

由于能同时访问多个DRAM芯片,它可提供高达1TB/s的带宽。而且配置更灵活,有三种不同模式与DDR5内存一起协同工作:HBM Only、HBM Flat以及HBM Cache。

综上,第四代英特尔 至 可扩展处理器所带来的四种优化技术让AlphaFold2的端到端通量得到了再进一步提升,与第三代相比实现了高达3.02倍的多实例通量提升。

73982a08-1d55-11ee-962d-dac502259ad0.png

当然,除了CPU之外,英特尔在探索验证AlphaFold2优化方案、步骤和经验过程中,同样也能提供其他AI加速芯片,给产业链上的生态伙伴提供强劲支持。

甚至已经给出了行业备受认可的解决方案。

就在前段时间,英特尔联合Github上知名的AI+科学计算的开源项目——Colossal-AI的团队潞晨科技,成功优化了AlphaFold2蛋白质结构预测的性能,并将其方案开源。

基于AI专用加速芯片Habana Gaudi,他们成功将端到端推理速度最高提升3.86倍(相较于此前使用的方案),应用成本相较于GPU方案最多降低39%。

73a6bffa-1d55-11ee-962d-dac502259ad0.jpg

医药和生命科学领域,AI还有何作为?

大模型,毋庸置疑是近来科技圈最为火爆的技术之一。

它凭借自身强算法、多数据、大算力的结合所带来的泛用性,在医药和生命科学领域同样大步发展着。

这一过程,AI宛如从破解人类的自然语言,跃进到了破解生命的自然语言

  • 人类自然语言大模型:从26个字母,到词/句/段。

  • 生命自然语言大模型:从21个氨基酸字母,到蛋白质/细胞/生命体。

那么具体而言,现在AI大模型可能会让医药和生命科学领域产生怎样的变革?

我们不妨以百图生科推出的,世界首个AI大模型驱动的AI生成蛋白平台AIGP(AI Generated Protein)为例来了解一番。

AIGP背后所依靠的,是一个千亿参数的跨模态生命科学大模型,通过“挖掘公开数据和独特自产数据”、“跨模态预训练和科学计算”,以及“蛋白质读写系统和细胞读写系统”,三大步骤实现对蛋白质空间及生命体的建模。

73fcee48-1d55-11ee-962d-dac502259ad0.png

如此大模型能力之下,百图生科便具备了一系列给定Protein(抗原),设计与之以特定方式结合的Protein(抗体)的能力。

也因此参与到了一系列前沿药物的开发,包括高性能免疫调控弹头设计、难成药靶点精准设计、定表位抗体弹头设计、可溶性TCR设计等。

除此之外,百图生科也具备对给定细胞/细胞组合,发现调控细胞的有效蛋白靶点/组合,并继而快速设计调控蛋白的能力。

这就为多种疾病的靶点发现、耐药/不响应患者改善、靶点科学线索转化带来新的可能。

不过有一说一,百图生科的例子也是只是AI之于医药、生命科学领域变革的一隅。

但今年生物医学领域的著名奖项(加拿大盖尔德纳奖)史无前例地颁给了人工智能科学家、DeepMind创始人Demis Hassabis等人。

这也从侧面反映了生命科学、医药领域对于AI的认可,以及更多的期待。

如果您对本文涉及的基于Habana Gaudi与英特尔 至 可扩展处理器对AlphaFold2进行端到端优化的技术细节感兴趣,如果您也想了解百图生科在AIGP领域的最新进展,英特尔《至强实战课》之《AI驱动的生命科学与医药创新》将为您带来更加全面且详细的真人讲解,欢迎大家注册收看~

以及想要了解更多第四代至可扩展平台对AlphaFold2的优化方案,请点击【阅读原文】。

742590f0-1d55-11ee-962d-dac502259ad0.jpg


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9430

    浏览量

    168997
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10456

    浏览量

    206608

原文标题:预测超长蛋白质这事,CPU赢了

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    洪亮团队在生信期刊JCIM发布最新成果,蛋白质工程迈入通用人工智能时代

    )上发表最新研究成果:“基于微环境感知图神经网络构建指导蛋白质定向进化的通用人工智能”(Protein Engineering with Lightweight Graph Denoising Neural
    的头像 发表于 04-19 17:42 115次阅读
    洪亮团队在生信期刊JCIM发布最新成果,<b class='flag-5'>蛋白质</b>工程迈入通用人工智能时代

    天府锦城实验室在生物传感与蛋白质测序领域取得重要进展

    3月10日,记者从天府锦城实验室(未来医学城)获悉,四川大学华西医院临床检验医学研究中心与生物治疗全国重点实验室、天府锦城实验室(未来医学城)耿佳教授和华西第二医院陈路教授联合团队在生物传感与蛋白质测序领域取得重要进展。
    的头像 发表于 03-17 09:10 525次阅读
    天府锦城实验室在生物传感与<b class='flag-5'>蛋白质</b>测序领域取得重要进展

    对新辅助TCHP治疗响应的HER2+乳腺癌空间蛋白质组特征

    GeoMx IPA可以实现对组织中任何区域(如肿瘤区域、免疫交界区域、肿瘤微环境和正常基质区域等)中的570多种蛋白质进行空间原位的表达检测,快速发现新的蛋白质生物标记物和药物靶点。
    的头像 发表于 12-26 16:52 426次阅读
    对新辅助TCHP治疗响应的HER2+乳腺癌空间<b class='flag-5'>蛋白质</b>组特征

    人工智能驱动蛋白质设计取得重大突破,人类健康和环境监测有望受益

     据华盛顿大学化学与生物工程系的David Baker教授透露,其领导的研究小组整合了深度学习算法和序列设计工具ProteinMPNN,从而实现了高效的蛋白质功能性设计。
    的头像 发表于 12-20 14:32 341次阅读

    双水相电泳分离蛋白质的研究

      本文提出了一种新型的双水相电泳装1并进行了双水相电泳分离肌红蛋白和牛血清白蛋白和细胞色素C及其混合物的实验,研究了电场方向、pH值、电场强度和电泳时间对双水相萃取分离效果的影响,并与不加电场的双水相萃取的结果进行了比较。
    发表于 11-28 14:46 0次下载

    RT1021时钟配置异常怎么解决?

    RT1021在做两层板的时候,出现一个异常情况,背景如下: 我们使用的是RT1021 4A的型号+2M的圆博的2 M spi 闪光。 固件程序这边是移植了蛋白质。 程序由一级bootloader+app组成。
    发表于 11-13 06:13

    DeepMind最新推出新一代蛋白质结构预测工具,已用于药物设计

    据悉,最新的 AlphaFold 系统由DeepMind及其衍生公司 Isomorphic Labs (专注于利用 AI 做药物发现)共同开发,不再局限于蛋白质折叠,还能够在配体、蛋白质、核酸以及
    的头像 发表于 11-03 15:39 458次阅读

    数智领航:绘制蛋白质行业新型“未来工厂”蓝图

    近年来,随着消费者愈发聚焦食品安全、个性口味、高品质肉类等需求,蛋白质行业拥抱着更大的市场机遇的同时,也面临了更多 产品追溯、柔性生产 等挑战。 在某全球蛋白质行业领军企业国内的新建工厂中,作为十年
    的头像 发表于 10-07 08:25 205次阅读

    半导体制冷技术应用--全自动特定蛋白分析仪

    全自动特定蛋白分析仪是针对特定蛋白质进行高通量检测分析的专用仪器。它集成了蛋白质截留、洗脱、检测等模块,实现对特定目标蛋白的自动快速分析。全自动特定
    的头像 发表于 09-04 08:39 329次阅读
    半导体制冷技术应用--全自动特定<b class='flag-5'>蛋白</b>分析仪

    基于精准聚焦目标空间区域的转录组和蛋白质组一站式解决方案

    。这些研究会帮助人类发现新的药物开发和疾病诊疗相关的靶点,新一代的分子病理产品等等。那么深度空间蛋白组+ GeoMx DSP这对CP能带来哪些惊喜?   让我们一起了解下【精准聚焦目标空间区域的转录组和蛋白质组一站式解决方案】
    的头像 发表于 08-29 11:10 603次阅读
    基于精准聚焦目标空间区域的转录组和<b class='flag-5'>蛋白质</b>组一站式解决方案

    农业科研:基于遥感与气象数据的冬小麦主产区籽粒蛋白质含量预报

    推信息化工程技术研究中心,与全国农业技术推广服务中心联手展开了研究。 籽粒蛋白质含量是小麦品质评价的关键指标,而品质的高低决定小麦收购价格、加工用途和使用价值等。该团队开展小麦籽粒蛋白质含量的监测预报研究,对于
    的头像 发表于 07-31 16:04 212次阅读

    【AI简报20230707】中国团队推出「全球首颗」AI 全自动设计 CPU!重磅,GPT-4 API 全面开放使用!

    /s/DNBO34Xk2nVwNiEMBjJ-Cg 在这场由 ChatGPT 掀起的 AI 热潮下,越来越多人开始看到如今 AI 的强悍:AI 作图、AI 写论文、AI 编代码、AI 预测完整人类蛋白质组结构、AI 发现速度提升 70
    的头像 发表于 07-07 18:45 880次阅读
    【AI简报20230707】中国团队推出「全球首颗」AI 全自动设计 <b class='flag-5'>CPU</b>!重磅,GPT-4 API 全面开放使用!

    LasergeneProtein工作流程

    蛋白质序列分析对于研究和预测蛋白质功能和结构至关重要,但蛋白质序列分析工具通常缺乏解释所需的可视化组件,或者需要额外的工具进行下游分析。Protean3D 中提供的
    的头像 发表于 07-03 10:30 434次阅读
    LasergeneProtein工作流程

    通过石墨烯生物传感器同时检测蛋白质和RNA生物信号

    了Cardea Bio),通过在单个基于石墨烯的生物传感器上同时检测蛋白质和RNA生物信号,展示了新的多组学(Multiomics)方法。
    的头像 发表于 06-18 09:20 1116次阅读

    第一个用于电路的基于蛋白质的纳米计算代理

    在该实验中,研究组将工学蛋白质注入到活细胞中,使细胞暴露在刺激下。以前需要两个输入才能产生一个输出,但是新的设计现在可以有两个输出,输出取决于接收输入的顺序。如果先检测出雷帕霉素,再检测出光,细胞就会采取一个方向角度。
    的头像 发表于 05-31 09:27 544次阅读