0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种越来越多被应用于加速机器学习应用的浮点格式bfloat16

倩倩 来源:lq 作者:TechEdge科技边界 2019-09-20 10:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Arm早前曾宣布其ArmV8-A架构的下一版本将包括对bfloat16的支持,现在透露了更多细节。

bfloat16是一种越来越多被应用于加速机器学习应用的浮点格式。谷歌、英特尔和不少新创公司都将bfloat16作为其AI加速架构的核心功能之一。

Bfloat16是由Google发明,最初在其第三代Tensor处理单元(TPU)中导入,作为加速机器学习之用。英特尔也认为该格式在未来AI计算中也有庞大的应用潜力,因此整合到其即将推出的“Cooper Lake”Xeon SP处理器,以及“Spring Crest”神经网络处理器中,未来的Xe GPU也会支持。而包括Wave Computing、Habana Labs和Flex Logix等AI芯片新创公司也采用了支持该计算格式的定制AI处理器。

bfloat16的主要想法是提供动态范围与标准IEEE-FP32相同的16位浮点格式,精度较低。相当于将8位的FP32指数字段的大小匹配,并将FP32分数字段的大小缩小到7位。

根据Arm首席架构师和研究员Nigel Stephens的说法,在大多数情况下,bfloat16格式与FP32一样准确,用于神经网络计算,但是以一半的位址就可以完成任务。因此,与32位相比,吞吐量可以翻倍,内存需求可以减半。在多数情况下,blfloat16可以成为这些机器学习算法中FP32的“插入式”替代品。由于神经网络的计算性质,只要数据类型具有足够的范围和精度,就可以很好地适应少量噪声,精准的完成模型训练工作。

Arm将bfloat16的支持被放到ArmV8-A下的所有浮点处理的相关指令集,包含SVE(可扩展矢量扩展)、AArch64 Neon(64位SIMD)和AArch32 Neon(32位SIMD)。通过相关扩展的支持,加速基于Arm的客户端和服务器的机器学习推理和培训练过程。虽然Arm服务器市占率仍然很小,但其在智能手机等客户端方面拥有几乎绝对的统治地位,这意味着未来的手持式和物联网设备将很快能够利用更紧凑的数字格式来处理机器学习。

当然,Arm如果越强,那么采用自有AI架构的芯片设计业者压力其实也会越大,就好比华为先后使用寒武纪与达芬奇架构,都是封闭的专有架构,高通也是采用DSP结合NPU计算,如果Arm官方架构性能有飞跃性的改进,那么这些采用定制AI架构的芯片设计者可能最终会被迫放弃自己的封闭架构,转而拥抱Arm的开放架构。而这也有助于发展整体AI生态,毕竟使用相同开发环境的硬件基数越大,就能吸引更多应用开发者共同耕耘相关生态。

值得注意的是,Arm决定在SVE中加入bfloat16的支持这点。由于SVE是专门针对高性能计算的矢量指令集,截至目前为止,仅有富士通一家采用,并应用于其A64FX芯片上。Arm方面表示,由于HPC用户对机器学习的兴趣持续增加,过去只能依靠GPU方案来进行加速,若能在单一架构处理完机器学习的工作,那么就不用再额外花费成本添购专用的加速硬件。

使用bfloat16还有另一个好处,那就是它具有与FP32相同的动态范围,这使得转换现有使用FP32的现有计算代码非常简单,可以大规模无痛转换既有的FP32应用到blfloat16数据格式下。

然而,SVE原本就可以针对从128位到2048位等不同的矢量长度来实现计算工作,理论上,bfloat16应该放在128位的Neon计算单元内比较合理。但实际上,数据的吞吐量其实还是要取决于硬件的实现选择,比如说SVE执行单元的数量,以及Neon计算单元的数量。

而随着Arm增加了bfloat16这个数据格式的支持,借以加速AI计算,这也让GPU成为目前主流机器学习加速硬件中唯一不支持这种数据格式的架构,而英特尔即将推出的Xe GPU也会加入该格式的支持,包含AMD或NVIDIA,应该都会在下一代产品中增加此数据格式的支持。

根据ARM做的模拟,不同类型的运算中bfloat16带来的性能提升不等,少的有1.6倍性能,多的可达4倍性能,性能成长相当惊人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9501

    浏览量

    388873
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106828
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136241
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何使用 ARM FPU 加速浮点计算?

    和硬件两。 对于不带 FPU 的处理器,ARM提供了个「浮点支持软件库」用于计算浮点数:fplib。 fplib提供的 API 以__a
    发表于 11-19 06:51

    risc-v中浮点运算单元的使用及其设计考虑

    RISC-V浮点运算单元(floating-point unit,简称FPU)是一种专门用于执行浮点运算的硬件加速器,其作用是提高
    发表于 10-21 14:46

    学习物联网怎么入门?

    随着物联网技术的不断发展,越来越多的人开始关注学习领域。但是对于初学者来说,物联网似乎是个庞杂的概念,学习起来很困难。因此,从哪里开始
    发表于 10-14 10:34

    FPGA技术为什么越来越牛,这是有原因的

    最近几年,FPGA这个概念越来越多地出现。例如,比特币挖矿,就有使用基于FPGA的矿机。还有,之前微软表示,将在数据中心里,使用FPGA“代替”CPU,等等。其实,对于专业人士来说,FPGA并不陌生
    的头像 发表于 08-22 11:39 3847次阅读
    FPGA技术为什么<b class='flag-5'>越来越</b>牛,这是有原因的

    为什么越来越多的场所选择智能闸口控制系统?它有哪些优势?

    在物流行业快速发展的今天,传统人工闸口已难以满足高效通行的需求。智能闸口控制系统凭借AI、物联网等先进技术,正逐渐成为港口、物流园区、海关等场所的首选方案。那么,智能闸口究竟有哪些优势,让越来越多
    的头像 发表于 08-14 10:56 319次阅读

    FPGA在机器学习中的具体应用

    越来越多应用于机器学习任务中。本文将探讨 FPGA 在机器
    的头像 发表于 07-16 15:34 2641次阅读

    为什么越来越多政府单位用上了国产云终端?它比你想的更能打

    国产化进程不断加速越来越多政府单位在信息化升级中将目光投向更轻巧、安全的国产云终端。在配合云桌面系统后,它的安全性、运维效率上更胜筹。国产电脑vs非国产化电脑:安全性与政策导向过去,我国电脑长期
    的头像 发表于 06-13 11:34 844次阅读
    为什么<b class='flag-5'>越来越多</b>政府单位用上了国产云终端?它比你想的更能打

    国产地物光谱仪为什么越来越多科研团队选择?

    地物光谱仪为什么越来越多科研团队选择?原因并不复杂,但值得细讲。 、性能接近国际主流,满足科研需求 国产地物光谱仪在核心技术上,近年来取得了质的进步: 1. 波段范围齐全 常规科研所需的 350–2500nm全波段 (覆盖
    的头像 发表于 06-10 15:44 434次阅读
    国产地物光谱仪为什么<b class='flag-5'>越来越多</b><b class='flag-5'>被</b>科研团队选择?

    RK3576 vs RK3588:为何越来越多的开发者转向RK3576?

    瑞芯微(Rockchip)最新发布的 RK3576 经推出,就吸引了大量原本关注 RK3588 的开发者。RK3588 作为旗舰级芯片,性能固然强大,但 RK3576 凭借其超高的能效比、优化
    发表于 05-30 08:46

    Matter 智能家居的通用语言

    语言”,统了Thread、Wi-Fi 和以太网(外加用于将新设备调试到网络的外加用于将新设备调试到网络的[低功耗蓝牙。 Matter 标准得到越来越多的企业采用,已迅速获得了广泛的关
    发表于 05-19 15:35

    基于双向块浮点量化的大语言模型高效加速器设计

    本文提出双向块浮点(BBFP)量化格式及基于其的LLMs加速器BBAL,通过双向移位与重叠位设计显著降低量化误差,提升非线性计算效率,实现精度、吞吐量和能效的显著优化,相关成果国际顶
    的头像 发表于 05-14 13:40 2113次阅读
    基于双向块<b class='flag-5'>浮点</b>量化的大语言模型高效<b class='flag-5'>加速</b>器设计

    详解原子层沉积薄膜制备技术

    CVD 技术是一种在真空环境中通过衬底表面化学反应来进行薄膜生长的过程,较短的工艺时间以及所制备薄膜的高致密性,使 CVD 技术越来越多应用于薄膜封装工艺中无机阻挡层的制备。
    的头像 发表于 05-14 10:18 1099次阅读
    详解原子层沉积薄膜制备技术

    为什么聊自动驾驶的越来越多,聊无人驾驶的越来越少?

    “无人驾驶”与“自动驾驶”,傻傻分不清楚?就在之前的篇文章中,引用了王传福的句话,其说的是无人驾驶是“扯淡”( 相关阅读: 无人驾驶是“扯淡”?是皇帝的新装?),随后也有小伙伴问,无人驾驶
    的头像 发表于 02-23 10:52 1014次阅读
    为什么聊自动驾驶的<b class='flag-5'>越来越多</b>,聊无人驾驶的<b class='flag-5'>越来越</b>少?

    利用NVIDIA DPF引领DPU加速云计算的未来

    越来越多的企业开始采用加速计算,从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了 DOCA 平台框架(DPF),该框架提供了基础构建模块来释放 NVIDIA BlueField
    的头像 发表于 01-24 09:29 1290次阅读
    利用NVIDIA DPF引领DPU<b class='flag-5'>加速</b>云计算的未来

    应用于活细胞成像的次性细胞培养芯片

    尽管最近几年我们对细胞内过程的了解越来越多,但近期内100年来细胞培养的基本过程没有根本性的改变。然而,观察细胞的方法,却在近些年进行场革命,如相差,差分干涉对照,共聚集和荧光等都应用于所有细胞
    的头像 发表于 12-17 09:41 701次阅读