0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

采用OpenACC框架的FVCOM模型实现超百倍计算加速

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-04-26 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

华东师范大学河口海岸学国家重点实验室葛建忠教授团队作为国际先进海洋数值模型 FVCOM 开发团队核心成员,随着 FVCOM 的发展和应用越来越广泛,以及行业不断提升的对预报精度与时效性要求,算力需求剧增,借助 NVIDIA GPU 加速计算技术,不仅实现了传统动力学数值模型的百倍计算加速,造福了海洋预报、水利工程等具体应用领域,也为海洋模型系统向人工智能模型转型以及人工智能海洋学的发展提供了关键的基础数据生成工具和方法,是人工智能技术进一步应用于海洋领域的重要基石。

海洋预报数值模型计算负载剧增

随着自然灾害越来越频发,为灾害过程防御提供技术支撑的数值预报系统对“精确、及时、高效、稳定”有着越来越高的需求,特别是随着集合预报模型的研发和应用带来了数值模型计算量的急剧上升(比如在集合预报中计算量与集合样本数量成正比,是单个模型计算的数十倍),超大的计算负载给预报业务单位和超算中心带来了极大的压力,而预报系统又具有“高时效”的特点,要尽可能地控制计算量,从而提高预报时效。与此同时,河口生态、生物地球化学过程模型具有变量多、过程复杂的特点,其计算量一般是动力模型的 10 倍以上。潮滩湿地植被斑块及潮沟系统、近海工程、海上风电场等模型一般都要求小于 5 米的空间分辨率,这也造成了模型计算量显著增大。

面对计算量剧增的挑战,实验室目前的计算架构主要采取基于 CPU 的多核计算节点扩展方案为主,以增加核数、节点来应对,这对高性能集群的建设和运维提出了更高的要求,也进一步提高了数值模型应用和拓展的门槛。

采用 OpenACC 框架加速 FVCOM 模型

为了解决数值模型计算负载剧增这一难点问题,华东师范大学河口海岸学国家重点实验室葛建忠教授团队调研分析了目前的主要 GPU 加速计算技术,包括 CUDA、OpenACC、stdpar、Kokkos、OpenCL 等,并与 NVIDIA 技术团队进行了详细讨论和分析,结合 FVCOM 模型代码的复杂度,选择了 OpenACC 为主的技术路线,并于 2023 年初开始相关代码迁移工作,并在 2023 年 8 月参加了 NVIDIA 举办的武汉大学 GPU Hackthon 活动,得到了专业的技术支持,解决了多个关键技术难点,于 2023 年底完成了主要代码的迁移、测试和验证工作。

为降低大规模数值模型的使用门槛,模型代码的迁移和测试都在一台搭载 NVIDIA GeForce RTX 40 系列 GPU 的台式电脑上完成,并在 2023 年初完成部署的超算中心计算节点上采用 CPU 进行对比,该计算节点为 Intel Xeon Gold CPU,迁移后的模型支持正压、斜压、泥沙、植被等关键模型,并支持全部外部驱动包括风场、热通量、降雨、离线流场、嵌套文件的高效传输,也可进行单精度、双精度计算的自由切换。迁移后模型相关的输入、输出和控制文件未发生任何变化,可以适用于原有 FVCOM 的相关应用。

加速对比测试选择 10 万、35 万、100 万、150 万、200 万水平方向网格等模型,所有模型都在 RTX GPU 上进行单精度模式计算,并采用计算节点进行单线程运行相同模型。相对于 CPU 单线程计算速度,采用 OpenACC 技术的 FVCOM 模型分别达到了 88、181、194、195、198 倍的加速比(图 1)。在此基础上采用编译器控制选项可以在同一套代码上灵活切换 CPU 或者 GPU 模式,且经检验,CPU 和 GPU 加速模型都得到一致的模拟结果。在单精度 FVCOM 的前提下,一个 RTX GPU 的计算能力在不考虑网络交换的情况下相当于超算集群的 3.5 个 64 核计算节点,在考虑节点间网络交换延迟时可相当于 5 个节点。

25df4e44-030b-11ef-a297-92fbcf53809c.jpg

图 1:单精度 GPU-FVCOM 加速实验结果

该模型可在 NVIDIA 加速计算框架体系内高效扩展,将 10 万、35 万、100 万、150 万网格模型再调整为双精度模式,采用单个 NVIDIA Ampere Tensor Core GPU 进行加速计算,分别达到了 48、77、139 和 135 的加速比,显示了对双精度模式也有良好的加速效果。在多个 GPU 计算节点的情况下,也可采用 MPI+OpenACC 方式支持多 GPU 并行计算。

25f49b6e-030b-11ef-a297-92fbcf53809c.jpg

图 2:双精度 GPU-FVCOM 加速实验结果

超百倍计算加速造福海洋预报

目前,FVCOM 模型在海洋预报、海洋工程与作业等领域应用极为广泛。以国内外近海海洋预报业务为例,FVCOM 已经成为我国沿海省、市、区各级海洋预警预报部门开展业务化预报工作的主要模型选择。海洋预报业务的发展趋势是不断提升对预报精度与时效的要求,二者都意味着巨大的算力需求,而将 FVCOM 模型实现 GPU 加速是解决实际应用中剧增的算力需求的有效途径。

采用 GPU 加速的预报模型可以将预报时效从小时级别降低到分钟级,甚至秒级。显著的效率提升也释放了模型进一步采用更高网格分辨率从而提高模拟精度的潜力。

另一方面,业务部门对于台风风暴潮等事件的集合预报愈发重视。集合预报是指针对不同的初始条件或驱动要素(例如台风演化过程)的扰动,计算出多个可能的未来情形,以考虑预报中的不确定性。这就对模型的计算速度提出了更大的挑战,而 GPU 加速能够很好地加以应对。

在水利工程领域,FVCOM 模型也已广泛用于工程可行性分析与评估。尤其是在工程前期研究阶段,需要借助数值模型对多种施工建设方案的效果进行模拟评估,多工况计算对传统模型也造成了极大挑战。实现 GPU 加速从而更快地给出论证结果,则可以切实地提高工程推进效率,节省工期。

此外,本项目所实现的案例具有较高的启示意义与推广价值,例如 OpenACC 技术方案还可以应用在其他近海和海洋数值模型系统。在采用结构化网格的模型中(如ROMS、ECOM、POM 等),该方案甚至可能实现更好的加速效果。本次实践也证明,GPU 加速能够极大地降低河口、海岸、海洋研究和工程应用领域进行数值模拟所需的硬件门槛,为学科发展、业务应用都提供了巨大帮助。

目前,海洋数值模型正经历其发展历程中的最大转型,即从基于动力学机制与方程的传统海洋数值模型转型为基于机器学习深度学习)等方法的人工智能模型。而人工智能模型对数据的需求与依赖巨大,其训练通常离不开海量的、可靠的数据。然而,海洋系统中的实测数据,相较于海洋巨大的空间尺度以及所关切问题的具体时间范围,总是稀缺的。数值模型则可以为人工智能模型提供大量的基础训练数据,也是当下保障数据范围与质量最有效的途径之一。例如,葛建忠教授团队已经用实现 GPU 加速的 FVCOM 模型系统计算了中国近海 1960 – 2023 年海洋流场和生态动力过程,用该三维高分辨率模型生成了超 20TB 容量的同化数据产品。随后,通过利用 NVIDIA 开发的基于 AFNO 架构的 FourCastNet 模型对该数据集开展训练,他们实现了对河口及近海动力学过程的快速推演与分析。此外,他们还采用实现 GPU 加速的 FVCOM 模型高效快速地计算了超过 1000 个台风风暴潮过程样本,用于训练一个基于深度学习方法的风暴潮预报模型。这两个数据集的构建,若采用传统的、未经加速的数值模型,所耗费的时间成本将高出百倍以上。

综上,采用 OpenACC 框架的 FVCOM 为传统动力学数值模型提供了超过百倍的计算加速。这样的效率提升不仅直接造福了海洋预报、水利工程等具体应用领域,也为海洋模型系统向人工智能模型转型以及人工智能海洋学的发展提供了关键的基础数据生成工具和方法,是人工智能技术进一步应用于海洋领域的重要基石。

团队介绍

华东师范大学河口海岸学国家重点实验室葛建忠教授团队长期致力于海洋数值模型的研发与应用,是国际先进海洋数值模型 FVCOM 开发团队核心成员,主持开发了其中导堤-丁坝、细颗粒粘性泥沙、浮泥、河流闸门、植被、藻类漂移生长等 FVCOM 核心模块,并参与开发了波流共同作用、FVCOM-ERSEM 生物地球化学等模块。此外,该团队也建立了中国海-长江口多空间尺度物理-生物地球化学耦合数值模拟系统。

葛建忠教授团队基于 FVCOM 框架,主要聚焦高浓度泥沙、物理-生物地球化学耦合过程、台风风暴潮等方面的研究,并针对长江河口、黄海、浙闽沿海、珠江口和北部湾等国内典型河口海岸区域进行了应用研究。在德国的易北河口、汉堡港、越南的岘港等区域,该团队也开展了相关合作和应用研究,其相关成果也为国家海洋与水利等部门的黄海浒苔防治、风暴潮预报、咸潮入侵防御等方面提供了多项技术支撑。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5509

    浏览量

    109145
  • 人工智能
    +关注

    关注

    1813

    文章

    49781

    浏览量

    261862
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136271
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123957
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6416

原文标题:造福海洋预报!采用 OpenACC 框架的 FVCOM 模型实现超百倍计算加速

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中科曙光推出科学大模型一站式开发平台OneScience

    for Science热点模型及数据集,支持地球科学、生物信息、流体仿真、材料化学等领域用户进一步开发新模型,并实现百倍提升模型研发与优化
    的头像 发表于 10-28 17:29 738次阅读

    谷歌芯片实现量子计算新突破,比算快13000

    机在特定任务上的运行速度比传统超级计算机快13000,并且这种算法可以在类似平台上得到重现。   量子比特极易受到环境干扰,导致计算错误,这成为量子计算走向实用的一大阻碍。而谷歌的W
    的头像 发表于 10-27 06:51 9167次阅读

    脉冲神经元模型的硬件实现

    实现。所以现有的大部分 SNN 加速器的硬件实现上都采用LIF模型。 如图所示,设计的 SNN 神经核整体架构如图所示。 神经核主要由 L
    发表于 10-24 08:27

    突破瓶颈!中国成功研制新型芯片 求解大规模MIMO信号检测时效能提升百倍

    我国新型芯片的研发正加速突破,日前;北京大学人工智能研究院传来好消息,突破瓶颈!中国成功研制新型芯片 ;在求解大规模MIMO信号检测时效能提升百倍。 据悉,该突破性成果由北京大学人工智能研究院孙仲
    的头像 发表于 10-23 16:05 2603次阅读

    今日看点:谷歌芯片实现量子计算比经典算快13000;NFC 技术突破:读取距离从 5 毫米提升至 20 毫米

    谷歌芯片实现量子计算比经典算快13000 近日,谷歌在《自然》杂志披露与Willow芯片相关的量子计算突破性研究成果。该公司称这是历史上
    发表于 10-23 10:20 1251次阅读

    “堆”出万亿算力:先进封装如何驱动AI算力爆发

    一块小小的芯片,如何实现百倍增长的计算能力?答案不在缩小的晶体管,而在颠覆性的封装技术。
    的头像 发表于 09-18 09:30 225次阅读
    “堆”出万亿算力:先进封装如何驱动AI算力爆发

    利用微型 Neuton ML 模型解锁 SoC 边缘人工智能

    框架小 10 ,速度也快 10 ,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍这对开发人员意味着什么,以及使用 Neuton 模型如何改进您的开发和终端
    发表于 08-31 20:54

    模型推理显存和计算量估计方法研究

    ,如乘法、加法等; (2)根据各层计算操作的类型和复杂度,确定每层所需的计算量; (3)将各层计算量相加,得到模型总的计算量。 基于硬件
    发表于 07-03 19:43

    度飞桨框架3.0正式版发布

    、推理等任务都离不开深度学习框架的优化与支撑。 飞桨框架3.0,从设计理念上实现了从底层硬件适配到顶层开发体验的全面进化,在训练效率、性能、兼容性等关键指标上建立了新标杆。 其中, “动静统一自动并行”、“大
    的头像 发表于 04-02 19:03 1048次阅读
    <b class='flag-5'>百</b>度飞桨<b class='flag-5'>框架</b>3.0正式版发布

    华为星河AI网络加速行业智能化转型

    AI技术发展速度极快,新应用应接不暇,大模型准确性快速攀升,从“能用”走向“好用”;更重要的是,随着百倍的成本下降和开源,促使越来越多的企业用得起AI,千行万业正迎来AI普惠时代。
    的头像 发表于 03-28 14:01 872次阅读

    曙光云发布DeepSeek大模型融合一体机

    。 DeepSeek大模型融合一体机集成了先进的AI大模型技术和融合架构,为用户提供了高效、稳定、安全的计算服务。该产品的推出,将极大地
    的头像 发表于 02-17 11:11 1104次阅读

    利用NVIDIA DPF引领DPU加速计算的未来

    越来越多的企业开始采用加速计算,从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了 DOCA 平台框架(DPF),该框架
    的头像 发表于 01-24 09:29 1310次阅读
    利用NVIDIA DPF引领DPU<b class='flag-5'>加速</b>云<b class='flag-5'>计算</b>的未来

    中国电提出大模型推理加速新范式Falcon

    中提出的 Falcon 方法是一种 增强半自回归投机解码框架 ,旨在增强 draft model 的并行性和输出质量,以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51
    的头像 发表于 01-15 13:49 1479次阅读
    中国电提出大<b class='flag-5'>模型</b>推理<b class='flag-5'>加速</b>新范式Falcon

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    介绍了大量计算并且达到检测而不是分类的最优。此框架仅需两步:(1)在检测数据集上训练 one-shot网,(2)使用 EA(evolutionary algorithm,进化算法)算法对训练好的
    发表于 12-19 14:33

    《CST Studio Suite 2024 GPU加速计算指南》

    许可证模型加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟:通过加速对话框
    发表于 12-16 14:25