0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm Performance Libraries 26.01新特性一览

Arm社区 来源:Arm社区 2026-05-06 10:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Arm 工程部主任软件工程师 Nick Dingle

Arm Performance Libraries(Arm 性能库)为运行在 64 位 Arm 架构 (AArch64) 处理器上的数值计算应用提供经过优化的标准核心数学库。该库包含对稀疏与稠密线性代数函数的优化实现,涵盖 BLAS 和 LAPACK、快速傅里叶变换 (FFT) 以及随机数生成 (RNG) 函数。这些实现均基于 OpenMP 并行机制构建,可在多处理器环境中充分释放性能。此外,Arm Performance Libraries 还通过 libamath 库提供高性能的标量和向量 math.h 例程。

Arm Performance Libraries 26.01 新增了稀疏三角求解功能,扩展了 RNG 分布类型,在 libamath 中新增可复现的数学计算选项,同时全面提升 BLAS、LAPACK 及稀疏计算例程的运行性能。如需查看完整更新内容(含 LAPACK 3.12.1 支持详情),请查阅完整发布说明。

发布说明:https://developer.arm.com/documentation/109681/latest

你可以通过包管理器安装,或下载相应的安装程序,开始使用 Arm Performance Libraries 26.01。

包管理器:https://learn.arm.com/install-guides/armpl

安装程序:

https://developer.arm.com/Tools%20and%20Software/Arm%20Performance%20Libraries#Downloads

矩阵乘法性能提升

在搭载 M 系列芯片的 macOS 设备上,通过采用 SME 指令替代 Neon 指令,显著提升了单精度和双精度实数矩阵乘法的性能(例如 BLAS SGEMM 和 DGEMM 调用)。下方图表对比了 Arm Performance Libraries 26.01 与 25.07 版本在不同方阵尺寸下的 DGEMM 性能表现。结果显示,速度提升最高可达七倍。

2211f13a-43b0-11f1-90a1-92fbcf53809c.png

用于超节点矩阵的稀疏三角求解

Arm Performance Libraries 26.01 新增了对采用超节点矩阵格式的稀疏三角系统求解的支持,推出了全新、完全并行化的 armpl_spsv_exec_* 系列函数。同时,我们还提供了新的 C 函数,用于创建超节点矩阵 (armpl_spmat_create_supernodal_*)。有关超节点格式的说明以及这些新例程的完整文档,可参见在线参考指南。还可查看 Arm Performance Libraries 26.01 随附的示例程序,进一步了解如何在上三角和下三角输入矩阵的场景下使用这些函数。

参考指南:

https://developer.arm.com/documentation/101004/2601/Sparse-Linear-Algebra

下图展示了四种问题规模、不同线程配置下,Arm Performance Libraries 26.01 中 armpl_spsv_exec_d 相较于 25.07 版本的性能提升幅度。每个问题都是在 LDLᵀ 分解过程中求解的一个方阵系统,其中矩阵维度 n 等于 Grid 的平方(例如,Grid 为 1024 时,对应 n = 1024²)。

230e4b38-43b0-11f1-90a1-92fbcf53809c.png

该类矩阵均具备典型超节点结构。Arm Performance Libraries 26.01 采用全新超节点接口 armpl_spmat_create_supernodal_d 初始化稀疏矩阵,替代 25.07 版本的 CSC 稀疏矩阵构建接口 armpl_spmat_create_csc_d。超节点格式可实现扩展性更强的多线程三角求解运算,性能最高提升七倍。目前,Arm 系统上的 Panua-Pardiso 已采用该全新超节点稀疏矩阵格式,来加速大规模稀疏线性方程组求解。

随机数生成功能扩展

Arm Performance Libraries 26.01新增多项分布整数随机变量生成接口 viRngMultinomial;新增伽马分布随机数接口,分别通过 vsRngGamma、vdRngGamma 实现单精度、双精度数值生成。泊松分布计算接口 viRngPoisson 新增 POISNORM 算法支持,可通过反演法或基于正态分布数值换算两种方式求解泊松分布。这些新增功能的源代码可在 Arm GitLab 上的 OpenRNG 26.01 中获取。

Arm GitLab:https://gitlab.arm.com/libraries/openrng

可复现的 libamath

Arm Performance Libraries 26.01 新增了仅适用于 Linux 平台的可复现版 libamath,可一定程度直接替换默认 3.5 ULP 精度标准库。对于已适配函数,该版本可确保标量运算与 Neon、SVE 向量化运算输出结果完全一致,适用于要求在不同向量化路径下具有确定性数值计算需求的应用。需注意:并非全部 libamath 函数都提供可复现版本,且该库不提供 GNU ABI 标准符号,详见在线参考指南。

参考指南:https://developer.arm.com/documentation/101004/2601/Arm-Performance-Libraries-Math-Functions

Arm Performance Libraries 26.01 最新版本现已正式发布。如有疑问或建议,欢迎前往论坛留言反馈。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20344

    浏览量

    255359
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9596

    浏览量

    393838
  • 函数
    +关注

    关注

    3

    文章

    4423

    浏览量

    67880

原文标题:Arm Performance Libraries 26.01 新特性一览

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Diodes公司近期最新产品一览

    AL8859Q是款符合汽车规范、高度集成的双相升压控制器,并配备串行外设接口(SPI)数字接口。该器件专为高功率、高效率的汽车电源系统而设计。
    的头像 发表于 05-06 15:58 33次阅读
    Diodes公司近期最新产品<b class='flag-5'>一览</b>

    新品速|乐鑫ESP32-H21重磅登场!

    ESP32-H21芯片!核心参数一览亮点速看极低功耗,续航无忧ESP32-H21在DeepSleep模式下电流可低至5μA,LightSleep模式仅9μA。无论是周期唤醒的传
    的头像 发表于 04-14 18:03 649次阅读
    新品速<b class='flag-5'>览</b>|乐鑫ESP32-H21重磅登场!

    2026年3月开放原子开源基金会新增孵化项目一览

    电鸿物联操作系统是南方电网公司以开源鸿蒙和开源欧拉为底座,结合电力行业业务特性,在国家开源体系下定制开发的电力统物联操作系统,主要面向新型电力系统和新型能源体系应用,助力构建互联互通、开放共享的能源工业物联体系。
    的头像 发表于 04-03 17:41 2689次阅读

    高性能RF放大器TRF1208:特性、应用与设计要点

    的性能和丰富的特性,在众多领域得到了广泛应用。本文将深入探讨TRF1208的特性、应用场景以及设计过程中的关键要点。 文件下载: trf1208.pdf 、TRF1208特性
    的头像 发表于 01-26 16:00 409次阅读

    探索TI LMH系列SDI串行器:特性、应用与设计要点

    和LMH0340系列SDI串行器,凭借其出色的性能和丰富的特性,成为了众多视频应用的理想选择。今天,我们就来深入探讨这些器件的特点、应用场景以及设计过程中的关键要点。 文件下载: lmh0070.pdf 器件特性一览 接口与时钟
    的头像 发表于 12-26 09:10 587次阅读

    Arm 2025财年可持续发展商业报告一览

    Arm 2025 财年可持续发展商业报告梳理了 Arm 在环境、人类与社会等方面塑造更可持续未来方面所取得的显著进展。
    的头像 发表于 11-11 11:43 895次阅读

    RT-Thread_FRDM-MCXA346上手指南

    核心亮点一览: 超强内核: Arm Cortex-M33,最高180MHz主频 精准模拟: 4×16位ADC + 4×运算放大器,模拟信号处理专家 万能连接: 支持CAN FD、I3C、多路UART/SPI/I2C 开箱即用: 兼容Arduino、mikroBUS
    的头像 发表于 11-06 09:23 6353次阅读
    RT-Thread_FRDM-MCXA346上手指南

    划重点!图速浦江开源鸿蒙生态大会金句

    划重点!图速浦江开源鸿蒙生态大会金句
    的头像 发表于 10-16 17:29 1078次阅读
    划重点!<b class='flag-5'>一</b>图速<b class='flag-5'>览</b>浦江开源鸿蒙生态大会金句

    什么是ARM架构?你需要知道的

    深入探讨ARM®架构的真正含义、其核心特性、与NVIDIAJetson™等平台的差异,以及与传统x86系统的比较。什么是ARM架构?ARM(AdvancedRISC
    的头像 发表于 09-11 14:48 1757次阅读
    什么是<b class='flag-5'>ARM</b>架构?你需要知道的<b class='flag-5'>一</b>切

    硅衬底的清洗步骤一览

    溶液体系。随后用去离子水(DIW)喷淋冲洗,配合氮气枪吹扫表面以去除溶剂痕迹,完成基础脱脂操作。标准RCA清洗协议实施第步:碱性过氧化氢混合液处理(SC-1)配
    的头像 发表于 09-03 10:05 1260次阅读
    硅衬底的清洗步骤<b class='flag-5'>一览</b>

    湿法刻蚀的主要影响因素一览

    湿法刻蚀是半导体制造中的关键工艺,其效果受多种因素影响。以下是主要影响因素及详细分析:1.化学试剂性质与浓度•种类选择根据被刻蚀材料的化学活性匹配特定溶液(如HF用于SiO₂、KOH用于硅衬底)。例如,缓冲氧化物刻蚀液(BOE)通过添加NH₄F稳定反应速率。复合酸体系(如HNO₃+HF+HAc)可实现各向异性刻蚀,适用于形成特定角度的沟槽结构。•浓度控制浓度
    的头像 发表于 08-04 14:59 2272次阅读
    湿法刻蚀的主要影响因素<b class='flag-5'>一览</b>

    【技术干货】使用干簧继电器进行高压线束测试

    您将了解: 如何在复杂线束中精准检测短路 高压干簧继电器如何实现高隔离和可靠的快速切换 电动汽车、医疗设备与工业系统中的真实应用案例 系列产品深度解析 关键性能指标一览
    发表于 07-29 15:13

    智慧能源物联网解决方案一览

    在当今数字化与能源管理深度融合的时代,智慧能源物联网解决方案成为实现高效能源利用、降低能耗成本的关键。物通博联能源采集网关作为这体系的核心枢纽,发挥着数据采集、传输与初步处理的重要功能,为不同场景
    的头像 发表于 07-16 10:52 964次阅读
    智慧能源物联网解决方案<b class='flag-5'>一览</b>

    wafer清洗和湿法腐蚀区别一览

    在半导体制造中,wafer清洗和湿法腐蚀是两个看似相似但本质不同的工艺步骤。为了能让大家更好了解,下面我们就用具体来为大家描述下其中的区别: Wafer清洗和湿法腐蚀是半导体制造中的两个关键工艺
    的头像 发表于 06-03 09:44 1068次阅读

    世界各国&地区常见电压/频率/插头/插座一览

    电子发烧友网站提供《世界各国&地区常见电压/频率/插头/插座一览表.pdf》资料免费下载
    发表于 05-30 16:27 9次下载