0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 、 Arm和Intel发布FP8标准化规范作为AI的交换格式

星星科技指导员 来源:NVIDIA 作者:Shar Narasimhan 2022-10-11 11:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能处理需要跨硬件和软件平台的全栈创新,以满足神经网络日益增长的计算需求。提高效率的一个关键领域是使用较低精度的数字格式来提高计算效率,减少内存使用,并优化互连带宽。

为了实现这些好处,业界已经从 32 位精度转换为 16 位,现在甚至是 8 位精度格式。 transformer 网络是人工智能中最重要的创新之一,尤其受益于 8 位浮点精度。我们相信,拥有一种通用的交换格式将使硬件和软件平台的快速发展和互操作性得以提高,从而推动计算。

NVIDIA 、 ArmIntel 联合撰写了一份白皮书 FP8 Formats for Deep Learning ,描述了 8 位浮点( FP8 )规范。它提供了一种通用的格式,通过优化内存使用来加速人工智能的开发,并适用于人工智能训练和推理。此 FP8 规格有两种变体, E5M2 和 E4M3 。

该格式在 NVIDIA 料斗体系结构中本地实现,并在初始测试中显示出出色的结果。它将立即受益于更广泛的生态系统所做的工作,包括 AI 框架,为开发者实现它。

兼容性和灵活性

FP8 通过硬件和软件之间的良好平衡,最大限度地减少了与现有 IEEE 754 浮点格式的偏差,以利用现有实现,加快采用速度,并提高开发人员的生产力。

E5M2 使用五位表示指数,两位表示尾数,是一种截断的 IEEE FP16 格式。在需要更高精度而牺牲某些数值范围的情况下, E4M3 格式进行了一些调整,以扩展用四位指数和三位尾数表示的范围。

新格式节省了额外的计算周期,因为它只使用 8 位。它可以用于人工智能训练和推理,而不需要在精度之间进行任何重铸。此外,通过最小化与现有浮点格式的偏差,它为未来 AI 创新提供了最大的自由度,同时仍坚持当前的惯例。

高精度训练和推理

测试提议的 FP8 格式显示,在广泛的用例、架构和网络中,其精度相当于 16 位精度。变压器、计算机视觉和 GAN 网络的结果都表明, FP8 训练精度与 16 位精度相似,但可以显著提高速度。有关精度研究的更多信息,请参阅 FP8 Formats for Deep Learning 白皮书。

pYYBAGNE42eAKKP8AACCv9ceJTc299.png

图 1.语言模型人工智能培训

在图 1 中,不同的网络使用不同的精度度量( PPL 和 Loss ),如图所示。

pYYBAGNE42eAQ7-PAAAgaylpKC0333.png

图 2.语言模型 AI 推理

在人工智能行业领先的基准 MLPerf Inference v2.1 中, NVIDIA Hopper 利用这种新的 FP8 格式在 BERT 高精度模型上实现了 4.5 倍的加速,在不影响精度的情况下获得了吞吐量。

走向标准化

NVIDIA 、 Arm 和 Intel 以开放、无许可证的格式发布了此规范,以鼓励行业广泛采用。他们还将向 IEEE 提交该提案。

通过采用一种保持准确性的可互换格式,人工智能模型将在所有硬件平台上持续高效地运行,并有助于推动人工智能的发展。

鼓励标准机构和整个行业

关于作者

Shar Narasimhan 是 AI 的高级产品营销经理,专门从事 NVIDIA 的 Tesla 数据中心团队的深度学习培训和 OEM 业务。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9599

    浏览量

    393887
  • NVIDIA
    +关注

    关注

    14

    文章

    5706

    浏览量

    110154
  • 人工智能
    +关注

    关注

    1821

    文章

    50387

    浏览量

    267145
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型

    两大版本,全系标配百万token长上下文能力,燧原L600已完成对上述两个模型在FP8精度上的极速适配。
    的头像 发表于 04-28 15:19 528次阅读

    低精度浮点数定义——什么是 FP8FP6、FP4?

    什么是浮点精度?浮点精度是一种以二进制格式表示数字的方法,计算机将数字解读为由0和1组成的二进制序列。本文将聚焦于更小众的低精度格式——FP8FP6和
    的头像 发表于 04-23 12:48 151次阅读
    低精度浮点数定义——什么是 <b class='flag-5'>FP8</b>、<b class='flag-5'>FP</b>6、<b class='flag-5'>FP</b>4?

    NVIDIA发布Vera Rubin DSX AI Factory参考设计

    NVIDIA 今日宣布推出 NVIDIA Vera Rubin DSX AI Factory 参考设计,这是一份用于构建协同设计的 AI 基础设施的指南。同时正式
    的头像 发表于 03-18 14:42 684次阅读

    SK海力士与闪迪公司启动HBF全球标准化制定工作

    SK海力士(或‘公司’)26日宣布,于当地时间25日在美国加利福尼亚州米尔皮塔斯的闪迪公司总部,与闪迪公司联合举办“HBF规格标准化联盟启动会”,正式发布面向AI推理时代的下一代存储器解决方案HBF(High Bandwidth
    的头像 发表于 02-28 16:23 496次阅读

    进迭时空发布新一代RISC-V AI CPU芯片,满足端侧大模型算力需求

    FP8数据精度原生AI推理,还是首颗完整支持芯片级虚拟的RISC-V产品。   硬件配置上,K3配备8颗高性能X100大核,主频2.4GHz,单核性能与
    的头像 发表于 01-30 14:06 9599次阅读

    广电计量参编多项国家标准与计量技术规范发布

    近日,国家市场监督管理总局、国家标准化管理委员会以及工业和信息部相继发布多项国家标准、行业计量技术规范,其中广电计量参与编写1项国家
    的头像 发表于 01-13 09:41 839次阅读

    广凌标准化考场建设方案的核心模块

    一套完整的校园标准化考场建设方案,不仅是技术的集成,更是教育公平与现代治理的体现。通过智能、绿色的手段,标准化考场体系为考试安全筑起坚
    的头像 发表于 11-07 18:10 447次阅读
    广凌<b class='flag-5'>标准化</b>考场建设方案的核心模块

    广凌标准化考场整体解决方案解析:构建智慧考场新标杆

    在国家教育考试日益规范化的背景下,标准化考点建设已成为保障考试公平、提升管理效率的关键举措。广凌科技(广凌股份)深耕教育信息领域27年,凭借AI、5G、物联网等前沿技术,推出
    的头像 发表于 10-31 15:17 1311次阅读
    广凌<b class='flag-5'>标准化</b>考场整体解决方案解析:构建智慧考场新标杆

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    基于 NVIDIA Spectrum-X 以太网交换机的 AI 数据中心网络。 Meta 和 Oracle 正将 Spectrum-X 以太网交换
    的头像 发表于 10-14 10:26 2121次阅读
    <b class='flag-5'>NVIDIA</b> Spectrum-X 以太网<b class='flag-5'>交换</b>机助力 Meta 和 Oracle 加速网络性能

    BPI-AIM7 RK3588 AINvidia Jetson Nano 生态系统兼容的低功耗 AI 模块

    。它是开源硬件,我们已在线发布设计文档,包括原理图和接口定义。其异构计算架构兼容 NVIDIA Jetson Nano 接口标准,非常适合边缘计算、AI 推理、VR/AR、智能 NVR
    发表于 10-11 09:08

    标准化考场是什么?

    很多现在都在建设标准化考场,标准化考场究竟是什么呢?
    的头像 发表于 09-05 16:45 1870次阅读
    <b class='flag-5'>标准化</b>考场是什么?

    软通动力助力软件智能领域标准化建设迈上新台阶

    近日,由人工智能关键技术和应用评测重点实验室牵头编写的《软件智能化成熟度模型 通用能力要求》(AIIA/T 0223-2025 )正式发布作为核心参编单位,软通动力深度参与标准制定,助力软件智能
    的头像 发表于 07-21 11:49 1218次阅读

    广凌标准化考场建设整体解决方案——全力维护高考安全公平考试环境

    近日,教育部发布消息,全国公安机关会同教育部门持续高压打击涉考违法犯罪活动,已侦破一批组织考试作弊和涉考诈骗案件,全力保障高考安全公平环境。在此背景下,标准化考场建设作为防范作弊、维护考试秩序的核心
    的头像 发表于 06-06 09:58 1151次阅读
    广凌<b class='flag-5'>标准化</b>考场建设整体解决方案——全力维护高考安全公平考试环境

    广凌高校标准化考场建设解决方案

    在教育信息与考试安全双重驱动下,标准化考场建设已成为高校提升考试管理水平的核心抓手。作为深耕教育信息领域的高新技术企业,​​广凌科技(广凌股份)凭借“高校
    的头像 发表于 05-29 17:04 939次阅读
    广凌高校<b class='flag-5'>标准化</b>考场建设解决方案

    摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    , 支持原生FP8数据类型,支持PyTorch 2.5.0 ,并通过多项针对MUSA计算平台的性能优化,进一步提升了对AI模型和大规模数据处理的支持能力。 FP8原生支持,国产GPU的技术突破
    的头像 发表于 05-11 16:41 1923次阅读