创作

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

Fugaku超级计算机程序已实现100倍的速度提升

NVIDIA-Enterprise 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-12-28 09:26 次阅读

在不到18个月的时间里,密歇根大学的一个团队采用GPU,为一个基于复杂数学的程序实现了20倍的提速。该程序为量子科学奠定了基础。

Vikram Gavini 的实验室以创纪录的速度,跨越了微观世界的一座重要里程碑。

这支由三人组成的密歇根大学团队创建了一个使用复杂的数学来深入观察原子世界的程序。该程序将推动许多科学领域的发展,以及多重领域的设计工作——从更轻的汽车到更高效的药物。

凭借 GPU ,该团队开放源码库中的代码在短短18个月内实现了20倍速度提升。

通往Summit的旅程

2018年年中,当该团队正准备发布一个在 CPU 上运行的代码版本时,他们收到了橡树岭国家实验室 GPU 黑客马拉松的邀请。全球最快的超级计算机之一—— Summit 就位于该实验室。

机械工程和材料科学教授 Gavini 表示:“我们当时的想法是看看我们能实现什么。”

该实验室的博士后 Sambit Das 参加了这场为期五天的活动。他认为:“我们很快意识到我们的代码可以充分发挥GPU大规模并行处理的能力。”

在活动结束前, Das 和另一位实验室成员 Phani Motamarri 将代码转移到 CUDA 及其库中,实现了5倍速度提升。这也让他们意识到,未来能实现的还有更多。

6个月内实现从5倍到20倍的速度提升

在接下来的几个月里,该实验室继续对该程序进行调优,使其能够对1万个镁原子中的10万个电子进行分析。到2019年初,该程序已经可以在 Summit 上运行。

随着 Summit 的节点数量不断增加,该实验室采用迭代法,在节点上运行越来越多的代码。截止4月,该实验室使用了该系统27,000个 GPU 中的大部分,实现了近 46 petaflops 的性能,达到了之前的20倍。

对于一个基于密度泛函理论(DFT)的程序来说,这是一个前所未有的结果。密度函数理论是一项解释亚原子粒子之间量子相互作用的复杂数学理论。

适用于高难度算法的分布式计算

DFT 算法的复杂性和基础性使其目前占用了所有公共研究计算机四分之一的时间。在被引用次数最多的100篇科学论文中,有12篇是 DFT 为主题的。该计算还被用来分析从天体物理学到 DNA 链的一切。

最初,根据该实验室的报告,该程序使用了 Summit 的顶尖理论性能的近30%,这是一个异常高的效率。相比之下,大多数其他 DFT 代码除了能够使用数个处理器之外,很难实现进一步的扩展,因此就连效率报告都没有。

Gavini 表示:“能实现这一前所未有的效率令我们感到非常高兴。”

声名鹊起

2019年底,该团队被提名为戈登贝尔奖的入围者。这是该实验室首次参加这一“高性能计算领域诺贝尔奖”的评选。

Gavini 表示:“这为我们的实验室和大学带来了很高的知名度,我认为这次努力还只是一个开始。”

事实上,自评选以来,实验室在 Summit 上,将代码的性能提升到了 64 petaflops ,效率亦达到38%。并且该实验室已经在探索在其他系统和应用上的使用。

寻求更多的应用和更高的性能

最初,这项工作被用于分析镁。这种比当今汽车和飞机使用的钢和铝轻得多的金属有望大幅节省燃料。去年,该实验室与另一团队合作,研究电子在 DNA 中的移动方式,这项工作可以帮助其他研究者研发出更有效的药物。

接下来重要的一步是在 Perlmutter 上运行代码。这是一台使用最新 NVIDIA A100 Tensor Core GPU 的超级计算机。根据Das的报告,基于A100 GPU对TensorFloat-32的支持,与 Summit GPU 相比,这台计算机目前已经实现了4倍速度提升。TensorFloat-32 是一种既能提供快速结果,又能实现高精度的混合精度格式。

与其他 DFT 代码相比,该实验室程序已实现100倍的速度提升,但 Gavini 并没有就此止步。他已经在考虑在 Fugaku 上测试它。Fugaku 是基于 Arm 系统的全球最快的超级计算机。

他表示:“眼下的收获总会令人欣喜,但‘路漫漫其修远兮,吾将上下而求索’。这次的成果也是我们新征程的开始。”

原文标题:借助数学的力量:密歇根团队破解亚原子世界的密码

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁

原文标题:借助数学的力量:密歇根团队破解亚原子世界的密码

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA Air助力测试和验证迁移工作 确保无故障迁移

    这种以 DevOps 为中心的方法意味着可以在 NVIDIA Air 平台上托管的数字孪生模型中模拟....
    的头像 科技绿洲 发表于 05-19 16:49 177次 阅读

    摩尔线程宣布7家官方授权核心分销商合作伙伴

    摩尔线程分销商启动大会今天圆满举行,并宣布了7家官方授权的核心分销商合作伙伴。核心分销商合作伙伴将与....
    的头像 科技绿洲 发表于 05-19 16:07 226次 阅读

    Sourcegraph代码搜索浏览工具

    ./oschina_soft/sourcegraph.zip
    发表于 05-19 16:00 7次 阅读
    Sourcegraph代码搜索浏览工具

    外壳防护等级(IP代码)

    本标准阐述了由电气设备外壳提供的防护等级的分级系统。尽管这个系统适用于多数型式的电气设备,但对特定型....
    发表于 05-19 14:26 12次 阅读

    你知道怎么写简单的C代码?

    还有一点,我相信每个程序员都想要写好代码,或者认为短小精悍的代码才算好。我们也会经常吹牛逼说:这个功....
    的头像 痞子衡嵌入式 发表于 05-19 11:18 84次 阅读

    ACCodeSnippetReposito Xcode代码段的管理插件

    ./oschina_soft/ACCodeSnippetRepositoryPlugin.zip
    发表于 05-19 10:25 3次 阅读
    ACCodeSnippetReposito Xcode代码段的管理插件

    XcodeCoverage代码覆盖率进行统计脚本

    ./oschina_soft/XcodeCoverage.zip
    发表于 05-19 10:14 3次 阅读
    XcodeCoverage代码覆盖率进行统计脚本

    ReSharper.ReMoji EmojiVS扩展支持

    ./oschina_soft/ReSharper.ReMoji.zip
    发表于 05-19 10:00 3次 阅读
    ReSharper.ReMoji EmojiVS扩展支持

    EmojiVS Visual Studio扩展

    ./oschina_soft/EmojiVS.zip
    发表于 05-19 09:58 5次 阅读
    EmojiVS Visual Studio扩展

    浮点数存储规则

    对于E(指数)E是一个无符号整数所以E的取值范围为(0~ 255),但是在计数中指数是可以为负的,所....
    的头像 strongerHuang 发表于 05-19 09:44 548次 阅读

    Kiwi国际化全流程解决方案

    ./oschina_soft/kiwi.zip
    发表于 05-19 09:17 3次 阅读
    Kiwi国际化全流程解决方案

    Oracle HCM云平台如何满足客户个性拓展需求

     全球 HCM 云市场竞争激烈,甲骨文公司认为只有把“客户至上”作为产品设计的初心,才能真正实现客户....
    的头像 科技绿洲 发表于 05-18 17:25 233次 阅读

    微型回流焊操作流程的详细说明

    Small 回流焊计算机具有精度高、多功能、经济实用、节能、性能稳定、寿命长、操作可视化等特点。它不....
    的头像 陈虹 发表于 05-18 16:18 173次 阅读

    Octolinker高效阅读GitHub代码插件

    ./oschina_soft/Octoli<x>nker.zip
    发表于 05-18 15:49 3次 阅读
    Octolinker高效阅读GitHub代码插件

    Gopherjs Chrome Bindings用Go语言来编写Chrome扩展

    ./oschina_soft/chrome.zip
    发表于 05-18 15:22 3次 阅读
    Gopherjs Chrome Bindings用Go语言来编写Chrome扩展

    一台合格的工控机需要通过哪些测试

    工控机的设计和组装适合工业应用,并具有久经考验的可靠性。其一体式机箱设计和无风扇冷却可保护计算机免受....
    发表于 05-18 15:03 4次 阅读

    十九条垃圾代码书写准则

    如果你违反了第三条规则,那么至少写注释需要用你的母语或者其它语言。如果你的母语是英语,那么你也算违反....
    的头像 嵌入式ARM 发表于 05-18 14:59 122次 阅读

    DevSkim IDE扩展和语言分析器框架

    ./oschina_soft/DevSkim.zip
    发表于 05-18 14:24 3次 阅读
    DevSkim IDE扩展和语言分析器框架

    NVIDIA如何帮助新兴市场开发者建立和扩展AI项目

    Kallot 在迄今为止规模最大的一届非洲人工智能博览会开幕当天向一万名线上观众发表了主题演讲。她重....
    的头像 科技绿洲 发表于 05-18 14:22 221次 阅读

    cnchar IDEA中文字符替换插件

    ./oschina_soft/gitee-cnchar.zip
    发表于 05-18 14:14 5次 阅读
    cnchar IDEA中文字符替换插件

    详解GPGPU与人工智能

    cuBLAS,cuDNN, cuFFT, CUTLASS等运算库勉强算第四层,让用户可以通过调用NV....
    的头像 佐思汽车研究 发表于 05-18 11:12 275次 阅读

    使用NVIDIA CloudXR 3.2打造可扩展的沉浸式体验

      我们的开发者社区继续帮助塑造 CloudXR ,我们对推出 CloudXR 3.2 感到无比兴奋....
    的头像 星星科技指导员 发表于 05-18 10:20 108次 阅读

    HarmonyOS服务开放平台推出“崩溃服务能力”

    用户在使用原子化服务时,出现卡顿、缓慢、闪退等情况就是典型的崩溃。尽管原子化服务在发布前都会经过严格....
    的头像 科技绿洲 发表于 05-18 10:16 194次 阅读
    HarmonyOS服务开放平台推出“崩溃服务能力”

    TensorRT条件用于实现网络子图的条件执行

    IIfConditional实现了一个 if-then-else 流控制结构,该结构提供基于动态布尔....
    的头像 星星科技指导员 发表于 05-18 10:02 221次 阅读

    请问CH32V103的引导代码是可以修改的吗?

    这是否意味着我可以把出货的产品引导代码的烧录和调试功能给彻底去掉,从而避免芯片被利用引导程序BUG破解.提高安全性. &...
    发表于 05-18 06:23 25次 阅读

    信号采集处理系统让你观察膈神经放电现象

    ZL-620A一体信息化信号采集处理系统采用一体化设计原则,同时集成了可移动实验平台、医学信号采集系....
    发表于 05-17 17:17 120次 阅读

    【开发教程9】人形街舞机器人-整机代码

    整机代码            1相关简介        本章将结合前面实验章节,完成机器人...
    发表于 05-17 16:40 3335次 阅读
    【开发教程9】人形街舞机器人-整机代码

    数据中心机房的主要组成部分及功能特点

    一说到“机房”二字,我们脑海中总是浮现出计算机房,却不知除它之外,还有很多。“数字化”是现在我们耳熟....
    发表于 05-17 15:01 11次 阅读

    接雨水问题的三种解法:暴力/备忘录/双指针

    接雨水这道题目挺有意思,在面试题中出现频率还挺高的,本文就来步步优化,讲解一下这道题。
    的头像 算法与数据结构 发表于 05-17 13:24 244次 阅读

    什么是线程安全 如何实现线程安全代码

    相信有很多同学在面对多线程代码时都会望而生畏,认为多线程代码就像一头难以驯服的怪兽,你制服不了这头怪....
    的头像 嵌入式ARM 发表于 05-17 12:45 255次 阅读

    scalariform Scala代码格式化插件

    ./oschina_soft/scalariform.zip
    发表于 05-17 09:57 11次 阅读
    scalariform Scala代码格式化插件

    Tao-ReviewBoard代码评审工具

    ./oschina_soft/Tao-reviewboard.zip
    发表于 05-17 09:52 16次 阅读
    Tao-ReviewBoard代码评审工具

    工控服务器是什么,它能干什么,它的应用领域有哪些

    工控服务器能干什么 工控服务器是一种高性能计算机,作为网络的节点,存储、处理网络上80%的数据、信息....
    发表于 05-16 18:12 2次 阅读

    小白福利!教你用低代码实现一个简单的页面跳转功能

    一、介绍 HUAWEI DevEco Studio(后文简称:IDE)自2020年9月首次发布以来,经10次迭代升级,不断为HarmonyOS...
    发表于 05-16 17:22 4320次 阅读

    短短几行代码,就能画出如此绚烂的图像

    参赛者需要用C++编写代表三原色的RD、GR、BL三个函数,每个函数都不能超过 140 个字符。每个....
    的头像 嵌入式ARM 发表于 05-16 15:34 196次 阅读

    Zenotech公司使用NVIDIA GPU对风电场进行模拟

    一家英国公司使用 NVIDIA GPU 对风电场进行详细的模拟,为自己、为客户以及未来的净零排放开辟....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-16 15:29 280次 阅读

    链表的代码免费下载

    //头插法新建链表 LinkList CreatList1(LinkList &L){//list....
    发表于 05-16 14:25 3次 阅读

    IIC串行总线的基本介绍与代码详解

    IIC是双线(不算地线)半双工的一种通讯方式(可以双向通讯,但不可以在同一时间双向数据传输).
    的头像 嵌入式应用开发 发表于 05-16 11:53 141次 阅读
    IIC串行总线的基本介绍与代码详解

    微软低代码平台Power Apps Portals进一步保障业务数据的安全合规

    在全球范围内,还有更多用户正在通过 Power Apps Portals 改善与客户/供应商或内部团....
    的头像 科技绿洲 发表于 05-16 10:11 172次 阅读

    如何用低代码实现简单的页面跳转功能

    HUAWEI DevEco Studio(后文简称:IDE)自2020年9月首次发布以来,经10次迭....
    的头像 科技绿洲 发表于 05-16 09:47 172次 阅读
    如何用低代码实现简单的页面跳转功能

    如何用低代码实现一个简单的页面跳转功能

    我们先开发第一个页面,如图4所示,第一个页面是在容器中展示“低代码入门”文本和“一键入门”按钮,它们....
    的头像 HarmonyOS开发者 发表于 05-16 09:45 153次 阅读

    使用Transformers的企业数据挑战解决方案

      NeMo 是用于培训 对话人工智能 模型的框架。在 NeMo 存储库内的 released co....
    的头像 星星科技指导员 发表于 05-16 09:29 139次 阅读
    使用Transformers的企业数据挑战解决方案

    Cyclone-caicloud打造容器工作流的云原生平台

    ./oschina_soft/cyclone.zip
    发表于 05-16 09:14 8次 阅读
    Cyclone-caicloud打造容器工作流的云原生平台

    英伟达终于选择了开源GPU驱动

    近日,GPU社区迎来了一个大消息,英伟达决定基于GPL/MIT双重协议开源其GPU内核驱动,为Lin....
    的头像 E4Life 发表于 05-16 07:20 1687次 阅读
    英伟达终于选择了开源GPU驱动

    摩尔线程MTT S系列GPU完成产品兼容相互认证

    近日,摩尔线程MTT S系列GPU与瞰景科技的核心产品Smart3D软件完成产品兼容相互认证。经双方....
    的头像 科技绿洲 发表于 05-15 16:52 295次 阅读

    英特尔推出采用开源软件的行业领先数据中心GPU

    英特尔 至强 可扩展处理器是面向云游戏、多媒体处理与传输、虚拟桌面基础架构和推理运算的处理器标杆,致....
    的头像 英特尔中国 发表于 05-14 11:58 343次 阅读

    使用NVIDIA RTX分支优化光线追踪图形

      RTXGI 提供了可扩展的解决方案来计算无限多跳照明和软阴影遮挡,而无需烘焙时间、光泄漏或昂贵的....
    的头像 星星科技指导员 发表于 05-13 17:17 308次 阅读

    NVIDIA TensorRT支持矩阵中的流控制结构层部分

      NVIDIA TensorRT 支持循环结构,这对于循环网络很有用。 TensorRT 循环支持....
    的头像 星星科技指导员 发表于 05-13 16:57 211次 阅读

    国产GPU公司智绘微电子完成千万元Pre-A轮融资

    近日,国产自主可控的创新型GPU芯片设计公司智绘微电子完成了数千万元的Pre-A轮融资,由南京江宁高....
    的头像 汽车玩家 发表于 05-13 16:26 363次 阅读

    TensorRT是如何进行工作的

      TensorRT builder 使用时间来找到最快的内核来实现给定的运算符。时序内核会受到噪声....
    的头像 星星科技指导员 发表于 05-13 16:11 174次 阅读

    TensorRT的Python API的基本用法和接口解析

    本章说明 Python API 的基本用法,假设您从 ONNX 模型开始。 onnx_resnet5....
    的头像 星星科技指导员 发表于 05-13 15:46 484次 阅读

    TensorRT的C++接口解析

    CUDA 上下文会在 TensorRT 第一次调用 CUDA 时自动创建,如果在该点之前不存在。通常....
    的头像 星星科技指导员 发表于 05-13 15:41 123次 阅读

    OpenHarmony仓库大整理 可以指定系统类型下载对应代码

    前言: 以前下载OpenHarmony代码的时候,我们都是需要下载全量包,代码量非常大,现在已经有30多G了。 而我们如果只是想开发...
    发表于 05-12 15:44 360次 阅读

    【开发教程11】开源蓝牙心率防水运动手环- 整机功能代码讲解

    整机功能代码讲解 1 软件设计   本节,我们将融合前面的蓝牙收发、三轴记步、电量检测、外部 Flash 读写、 心率...
    发表于 05-12 11:59 3084次 阅读

    巴延兴:从主导多个SIG组到“代码贡献之星”,我是如何做到的?

    编者按:在 OpenHarmony 生态发展过程中,涌现了大批优秀的代码贡献者,本专题旨在表彰贡献、分享经验,文中内容来自嘉宾访谈,...
    发表于 05-10 10:48 816次 阅读

    请问在RK3399pro中间计算时能否调用GPU的一些现成数据库或函数来计算

    我在用RK3399pro的NPU做深度学习计算,使用了两个rknn模型进行推理,但是在这两个rknn模型之间需要进行一些中间计算(从第一...
    发表于 05-09 15:26 3293次 阅读

    Neptune软件使用指南(最新master代码)

    ## 介绍 本文档介绍Neptune 开发板OpenHarmony最新master分支的开发环境搭建、版本编译构建、烧录、源码修改、调试验证等方法...
    发表于 05-05 23:05 475次 阅读

    使用DevEco Studio低代码开发的过程分享

    开发代码为大家展示一个低代码开发的演示示例,使用低代码开发作为运动健康页面,供您参考了解代码开发方式带来的特性。 1、在...
    发表于 04-29 10:45 938次 阅读

    活动报名|OpenHarmony 战“码”先锋,PR 征集令

    OpenAtom OpenHarmony(以下简称“OpenHarmony”)工作委员会首度发起「OpenHarmony 开源贡献者计划」,旨在鼓励开发者...
    发表于 04-27 10:55 966次 阅读
    活动报名|OpenHarmony 战“码”先锋,PR 征集令