0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达:5nm实验芯片用INT4达到INT8的精度

半导体产业纵横 来源:量子位 作者:量子位 2022-12-12 15:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

IEEE计算机运算研讨会。

32位与16位格式的混合精度训练,正是当前深度学习的主流。

最新的英伟达核弹GPU H100,刚刚添加上对8位浮点数格式FP8的支持。

英伟达首席科学家Bill Dally现在又表示,他们还有一个“秘密武器”:

在IEEE计算机运算研讨会上,他介绍了一种实验性5nm芯片,可以混合使用8位与4位格式,并且在4位上得到近似8位的精度。

目前这种芯片还在开发中,主要用于深度学习推理所用的INT4和INT8格式,对于如何应用在训练中也在研究了。

相关论文已发表在2022 IEEE Symposium on VLSI Technology上。

7c5c2558-7950-11ed-8abf-dac502259ad0.png

新的量化技术

降低数字格式而不造成重大精度损失,要归功于按矢量缩放量化(per-vector scaled quantization,VSQ)的技术。

具体来说,一个INT4数字只能精确表示从-8到7的16个整数。

其他数字都会四舍五入到这16个值上,中间产生的精度损失被称为量化噪声。

传统的量化方法给每个矩阵添加一个缩放因子来减少噪声,VSQ则在这基础之上给每个向量都添加缩放因子,进一步减少噪声。

7c8c5386-7950-11ed-8abf-dac502259ad0.png

关键之处在于,缩放因子的值要匹配在神经网络中实际需要表示的数字范围。

英伟达研究人员发现,每64个数字为一组赋予独立调整过的缩放因子可以最小化量化误差。

计算缩放因子的开销可以忽略不计,从INT8降为INT4则让能量效率增加了一倍。

7cbba276-7950-11ed-8abf-dac502259ad0.png

Bill Dally认为,结合上INT4计算、VSQ技术和其他优化方法后,新型芯片可以达到Hopper架构每瓦运算速度的10倍。

还有哪些降低计算量的努力

除了英伟达之外,业界还有更多降低计算量的工作也在这次IEEE研讨会上亮相。

马德里康普顿斯大学的一组研究人员设计出基于Posits格式的处理器核心,与Float浮点数相比准确性提高了多达4个数量级。

Posits与Float相比,增加了一个可变长度的Regime区域,用来表示指数的指数。

对于0附近的较小数字只需要占用两个位,而这类数字正是在神经网络中大量使用的。

适用Posits格式的新硬件基于FPGA开发,研究人员发现可以用芯片的面积和功耗来提高精度,而不用增加计算时间。

7cf8a87e-7950-11ed-8abf-dac502259ad0.png

ETH Zurich一个团队的研究基于RISC-V,他们把两次混合精度的积和熔加计算(fused multiply-add,FMA)放在一起平行计算。

这样可以防止两次计算之间的精度损失,还可以提高内存利用率。

FMA指的是d = a * b + c这样的操作,一般情况下输入中的a和b会使用较低精度,而c和输出的d使用较高精度。

研究人员模拟了新方法可以使计算时间减少几乎一半,同时输出精度有所提高,特别是对于大矢量的计算。

相应的硬件实现正在开发中。

7d2a0536-7950-11ed-8abf-dac502259ad0.png

巴塞罗那超算中心英特尔团队的研究也和FMA相关,致力于神经网络训练可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型网络训练中得到应用,不过还需要与更高精度的FP32结合,并且在两者之间来回转换。

这是因为神经网络训练中只有一部分计算不会因BF16而降低精度。

最新解决办法开发了一个扩展的格式BF16-N,将几个BF16数字组合起来表示一个数,可以在不显著牺牲精度的情况下更有效进行FMA计算

7d5cadce-7950-11ed-8abf-dac502259ad0.png

关键之处在于,FMA计算单元的面积只受尾数位影响。

比如FP32有23个尾数位,需要576个单位的面积,而BF16-2只需要192个,减少了2/3。

另外这项工作的论文题目也很有意思,BF16 is All You Need。

7d784610-7950-11ed-8abf-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53534

    浏览量

    458965
  • 英伟达
    +关注

    关注

    23

    文章

    4039

    浏览量

    97649

原文标题:英伟达首席科学家:5nm实验芯片用INT4达到INT8的精度

文章出处:【微信号:ICViews,微信公众号:半导体产业纵横】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI算力模组TS-SG-SM9系列产品规格书

    腾视科技AI算力模组TS-SG-SM9系列搭载算能高集成度处理器CV186AH/BM1688片,功耗低、算力强、接口丰富、兼容性好。7.2-16TOPS INT8算力,兼容INT4/INT8
    发表于 10-27 17:12 0次下载

    小白必读:到底什么是FP32、FP16、INT8

    网上关于算力的文章,如果提到某个芯片或某个智算中心的算力,都会写:在FP32精度下,英伟H100的算力大约为0.9PFlops。在FP16精度
    的头像 发表于 10-20 14:34 609次阅读
    小白必读:到底什么是FP32、FP16、<b class='flag-5'>INT8</b>?

    雷卯针对灵眸科技RV1106G3开发板防雷防静电方案

      一、应用场景 人脸识别、危险驾驶、工地安全监测、智慧餐桌 二、 功能概述 1 CPU 单核ARM Cortex-A7 32位内核,1.2GHz集成了NEON和FPU 2 支持INT4/INT8
    的头像 发表于 07-14 10:22 352次阅读
    雷卯针对灵眸科技RV1106G3开发板防雷防静电方案

    计算精度对比:FP64、FP32、FP16、TF32、BF16、int8

    、BF16、int8以及混合精度等。本文将浅显易懂地介绍这些精度计算方式及其差别。什么是精度精度,是数据表示的一个重要参数,它决定了数据的
    的头像 发表于 06-26 11:09 2086次阅读
    计算<b class='flag-5'>精度</b>对比:FP64、FP32、FP16、TF32、BF16、<b class='flag-5'>int8</b>

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    /Meta-Llama-3.1-8B --weight-format int4 --sym --group-size 128 --ratio 1.0 INT4-llama-3.1-8B 使用 NPU 插件
    发表于 06-25 07:20

    将Whisper大型v3 fp32模型转换为较低精度后,推理时间增加,怎么解决?

    将 openai/whisper-large-v3 FP32 模型转换为 FP16、INT8INT4。 推理所花费的时间比在 FP32 上花费的时间要多
    发表于 06-24 06:23

    为什么无法在GPU上使用INT8INT4量化模型获得输出?

    安装OpenVINO™ 2024.0 版本。 使用 optimum-intel 程序包将 whisper-large-v3 模型转换为 int 4int8,并在 GPU 上使用 OpenVINO™ 运行推理。 没有可用的
    发表于 06-23 07:11

    i.mx95的EIQ转换器将int8更改为uint8后出现报错怎么解决?

    我有一个大型量化 tensorflow lite 模型。它包括输入和输出类型为 “int8” 的 “Softmax”作。 我正在运行 eIQ 模型工具版本 1.14.0 将模型转换为 i.MX95
    发表于 04-14 07:15

    QuarkPi-CA2 RK3588S卡片电脑:6.0Tops NPU+8K视频编解码+接口丰富,高性能嵌入式开发!

    支持INT4/INT8/INT16/FP16,支持TensorFlow、PyTorch等主流框架,支持8K@60fps视频解码和8K@30f
    发表于 04-11 16:03

    在OpenVINO™工具套件的深度学习工作台中无法导出INT8模型怎么解决?

    无法在 OpenVINO™ 工具套件的深度学习 (DL) 工作台中导出 INT8 模型
    发表于 03-06 07:54

    是否可以输入随机数据集来生成INT8训练后量化模型?

    无法确定是否可以输入随机数据集来生成 INT8 训练后量化模型。
    发表于 03-06 06:45

    英伟市值一夜蒸发近2万亿 英伟股价下跌超8%

    在美东时间周一,美股三大指数集体收跌,截至收盘,英伟股价下跌超8%,英伟市值一夜蒸发2650亿美元(换算下来约合人民币19345亿元);
    的头像 发表于 03-04 10:19 988次阅读

    迅为iTOP-RK3588S开发板/核心板6TOPS的NPU算力视频编解码8K编码+8K解码

    8GB内存,32GBEMMC。 四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。 内置NPU RK3588S内置NPU,支持INT4/INT8/INT1
    发表于 02-20 14:24

    消息称台积电3nm5nm和CoWoS工艺涨价,即日起效!

    )计划从2025年1月起对3nm5nm先进制程和CoWoS封装工艺进行价格调整。 先进制程2025年喊涨,最高涨幅20% 其中,对3nm5nm等先进制程技术订单涨价,涨幅在3%到
    的头像 发表于 01-03 10:35 1023次阅读

    解锁NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技术 (FP8INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,确保您的 NVIDIA GPU 能发挥出卓越的推理性能。
    的头像 发表于 12-17 17:47 1603次阅读