0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种越来越多被应用于加速机器学习应用的浮点格式bfloat16

倩倩 来源:lq 作者:TechEdge科技边界 2019-09-20 10:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Arm早前曾宣布其ArmV8-A架构的下一版本将包括对bfloat16的支持,现在透露了更多细节。

bfloat16是一种越来越多被应用于加速机器学习应用的浮点格式。谷歌、英特尔和不少新创公司都将bfloat16作为其AI加速架构的核心功能之一。

Bfloat16是由Google发明,最初在其第三代Tensor处理单元(TPU)中导入,作为加速机器学习之用。英特尔也认为该格式在未来AI计算中也有庞大的应用潜力,因此整合到其即将推出的“Cooper Lake”Xeon SP处理器,以及“Spring Crest”神经网络处理器中,未来的Xe GPU也会支持。而包括Wave Computing、Habana Labs和Flex Logix等AI芯片新创公司也采用了支持该计算格式的定制AI处理器。

bfloat16的主要想法是提供动态范围与标准IEEE-FP32相同的16位浮点格式,精度较低。相当于将8位的FP32指数字段的大小匹配,并将FP32分数字段的大小缩小到7位。

根据Arm首席架构师和研究员Nigel Stephens的说法,在大多数情况下,bfloat16格式与FP32一样准确,用于神经网络计算,但是以一半的位址就可以完成任务。因此,与32位相比,吞吐量可以翻倍,内存需求可以减半。在多数情况下,blfloat16可以成为这些机器学习算法中FP32的“插入式”替代品。由于神经网络的计算性质,只要数据类型具有足够的范围和精度,就可以很好地适应少量噪声,精准的完成模型训练工作。

Arm将bfloat16的支持被放到ArmV8-A下的所有浮点处理的相关指令集,包含SVE(可扩展矢量扩展)、AArch64 Neon(64位SIMD)和AArch32 Neon(32位SIMD)。通过相关扩展的支持,加速基于Arm的客户端和服务器的机器学习推理和培训练过程。虽然Arm服务器市占率仍然很小,但其在智能手机等客户端方面拥有几乎绝对的统治地位,这意味着未来的手持式和物联网设备将很快能够利用更紧凑的数字格式来处理机器学习。

当然,Arm如果越强,那么采用自有AI架构的芯片设计业者压力其实也会越大,就好比华为先后使用寒武纪与达芬奇架构,都是封闭的专有架构,高通也是采用DSP结合NPU计算,如果Arm官方架构性能有飞跃性的改进,那么这些采用定制AI架构的芯片设计者可能最终会被迫放弃自己的封闭架构,转而拥抱Arm的开放架构。而这也有助于发展整体AI生态,毕竟使用相同开发环境的硬件基数越大,就能吸引更多应用开发者共同耕耘相关生态。

值得注意的是,Arm决定在SVE中加入bfloat16的支持这点。由于SVE是专门针对高性能计算的矢量指令集,截至目前为止,仅有富士通一家采用,并应用于其A64FX芯片上。Arm方面表示,由于HPC用户对机器学习的兴趣持续增加,过去只能依靠GPU方案来进行加速,若能在单一架构处理完机器学习的工作,那么就不用再额外花费成本添购专用的加速硬件。

使用bfloat16还有另一个好处,那就是它具有与FP32相同的动态范围,这使得转换现有使用FP32的现有计算代码非常简单,可以大规模无痛转换既有的FP32应用到blfloat16数据格式下。

然而,SVE原本就可以针对从128位到2048位等不同的矢量长度来实现计算工作,理论上,bfloat16应该放在128位的Neon计算单元内比较合理。但实际上,数据的吞吐量其实还是要取决于硬件的实现选择,比如说SVE执行单元的数量,以及Neon计算单元的数量。

而随着Arm增加了bfloat16这个数据格式的支持,借以加速AI计算,这也让GPU成为目前主流机器学习加速硬件中唯一不支持这种数据格式的架构,而英特尔即将推出的Xe GPU也会加入该格式的支持,包含AMD或NVIDIA,应该都会在下一代产品中增加此数据格式的支持。

根据ARM做的模拟,不同类型的运算中bfloat16带来的性能提升不等,少的有1.6倍性能,多的可达4倍性能,性能成长相当惊人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9589

    浏览量

    393769
  • 神经网络
    +关注

    关注

    42

    文章

    4844

    浏览量

    108201
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137250
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    快问快答:为什么越来越多制造企业在选型气密仪时,更看重源头实力厂家?

    、密封性能,更直接影响良率、返修率、售后成本以及品牌口碑。汽车车载摄像头四通道气密仪也正因为如此,越来越多企业在选择气密性检测仪时,已经不再只盯着参数表上的几个数字,
    的头像 发表于 04-22 16:16 91次阅读
    快问快答:为什么<b class='flag-5'>越来越多</b>制造企业在选型气密仪时,更看重源头实力厂家?

    PyTorch 中RuntimeError分析

    ? 错误原因 这个 RuntimeError 是因为在 PyTorch 中,upsample_nearest2d_out_frame(最近邻2D上采样)操作尚未对 BFloat16 数据类型提供
    发表于 03-06 06:02

    快问快答:为什么越来越多海外客户选择中国国产气密性检测品牌?

    如果把时间拉回十年前,「中国检测设备」在海外市场常被贴上几个标签:•成本导向•用于辅助或低端环节•难以长期稳定运行而今天,越来越多海外客户正在主动指定或优先评估中国气密性检测品牌。这种转变,并非偶然
    的头像 发表于 02-27 11:54 401次阅读
    快问快答:为什么<b class='flag-5'>越来越多</b>海外客户选择中国国产气密性检测品牌?

    为什么原厂越来越需要套自己的 Studio

    从工程现实看: 芯片型号会持续增加 工程人员会流动 文档会不断修订 而 Studio: 可以承载长期演进的配置体系 可以降低对个别专家的依赖 可以让新型号的接入成本持续下降 这也是为什么,越来越多
    发表于 02-05 09:37

    智慧水务为什么越来越多项目选择 BL118|水务物联网边缘计算方案解析

    智慧水务,为什么越来越多项目选择 BL118? ——基于钡铼技术 BL118 的水务物联网采集与边缘计算方案 过去,水厂、管网、泵房的运维大多依赖人工巡检。流量、压力、水质、液位是否异常?只能靠现场
    的头像 发表于 01-22 15:00 279次阅读
    智慧水务为什么<b class='flag-5'>越来越多</b>项目选择 BL118|水务物联网边缘计算方案解析

    如何使用 ARM FPU 加速浮点计算?

    和硬件两。 对于不带 FPU 的处理器,ARM提供了个「浮点支持软件库」用于计算浮点数:fplib。 fplib提供的 API 以__a
    发表于 11-19 06:51

    risc-v中浮点运算单元的使用及其设计考虑

    RISC-V浮点运算单元(floating-point unit,简称FPU)是一种专门用于执行浮点运算的硬件加速器,其作用是提高
    发表于 10-21 14:46

    学习物联网怎么入门?

    随着物联网技术的不断发展,越来越多的人开始关注学习领域。但是对于初学者来说,物联网似乎是个庞杂的概念,学习起来很困难。因此,从哪里开始
    发表于 10-14 10:34

    为什么越来越多的场所选择智能闸口控制系统?它有哪些优势?

    在物流行业快速发展的今天,传统人工闸口已难以满足高效通行的需求。智能闸口控制系统凭借AI、物联网等先进技术,正逐渐成为港口、物流园区、海关等场所的首选方案。那么,智能闸口究竟有哪些优势,让越来越多
    的头像 发表于 08-14 10:56 560次阅读

    FPGA在机器学习中的具体应用

    越来越多应用于机器学习任务中。本文将探讨 FPGA 在机器
    的头像 发表于 07-16 15:34 3113次阅读

    为什么越来越多政府单位用上了国产云终端?它比你想的更能打

    国产化进程不断加速越来越多政府单位在信息化升级中将目光投向更轻巧、安全的国产云终端。在配合云桌面系统后,它的安全性、运维效率上更胜筹。国产电脑vs非国产化电脑:安全性与政策导向过去,我国电脑长期
    的头像 发表于 06-13 11:34 1146次阅读
    为什么<b class='flag-5'>越来越多</b>政府单位用上了国产云终端?它比你想的更能打

    国产地物光谱仪为什么越来越多科研团队选择?

    地物光谱仪为什么越来越多科研团队选择?原因并不复杂,但值得细讲。 、性能接近国际主流,满足科研需求 国产地物光谱仪在核心技术上,近年来取得了质的进步: 1. 波段范围齐全 常规科研所需的 350–2500nm全波段 (覆盖
    的头像 发表于 06-10 15:44 843次阅读
    国产地物光谱仪为什么<b class='flag-5'>越来越多</b><b class='flag-5'>被</b>科研团队选择?

    RK3576 vs RK3588:为何越来越多的开发者转向RK3576?

    瑞芯微(Rockchip)最新发布的 RK3576 经推出,就吸引了大量原本关注 RK3588 的开发者。RK3588 作为旗舰级芯片,性能固然强大,但 RK3576 凭借其超高的能效比、优化
    发表于 05-30 08:46

    基于双向块浮点量化的大语言模型高效加速器设计

    本文提出双向块浮点(BBFP)量化格式及基于其的LLMs加速器BBAL,通过双向移位与重叠位设计显著降低量化误差,提升非线性计算效率,实现精度、吞吐量和能效的显著优化,相关成果国际顶
    的头像 发表于 05-14 13:40 2533次阅读
    基于双向块<b class='flag-5'>浮点</b>量化的大语言模型高效<b class='flag-5'>加速</b>器设计

    详解原子层沉积薄膜制备技术

    CVD 技术是一种在真空环境中通过衬底表面化学反应来进行薄膜生长的过程,较短的工艺时间以及所制备薄膜的高致密性,使 CVD 技术越来越多应用于薄膜封装工艺中无机阻挡层的制备。
    的头像 发表于 05-14 10:18 1795次阅读
    详解原子层沉积薄膜制备技术