电子发烧友网报道(文/李弯弯)不久前,IBM 研究院推出了一款AI处理器,名为人工智能单元(Artificial Intelligent Unit,AIU),这是IBM首个用于运行和训练深度学习模型的完整 SoC。IBM声称,其比通用CPU工作更快、更高效。
AIU:32个处理器核心、230亿个晶体管
这款AIU芯片是IBM研究院AI硬件中心投入五年开发出的结果,AI硬件中心于2019年启动,专注于开发下一代芯片与AI系统。该中心的目标是,计划未来每年将AI硬件效率提升2.5倍。到2029年,将AI模型的训练和运行速度拉高1000倍。
据IBM介绍,该芯片采用5nm制程工艺,共有32个处理器核心和230亿个晶体管,在设计易用性方面,与普通显卡相当,能够介入任何带有PCI插槽的计算机或服务器。AIU芯片,旨在支持多种格式并简化从图像识别到自然语言处理的人工智能工作流程。
AIU芯片与传统用于训练的GPU芯片有何不同?一直以来,深度学习模型依赖于CPU加GPU协处理器的组合进行训练与运行。GPU最初是为沉浸图形图像而开发,后来人们发现其在AI领域有着显著优势,因此GPU在AI训练领域占据了非常重要的位置。
IBM开发的AIU并非图形处理器,它是专为深度学习模型加速设计的,针对矩阵和矢量计算进行了优化。AIU能够解决高复杂计算问题,并以远超CPU的速度执行数据分析。
AIU芯片有何特点呢?过去这些年,AI与深度学习模型在各行各业中快速普及,同时深度学习的发展也给算力资源带来了巨大的压力。深度学习模型的体量越来越大,包含数十亿甚至数万亿个参数。而硬件效率的发展却似乎跟不上深度学习模型的增长速度。
过去,计算一般集中在高精度64位与32位浮点运算层面。IBM认为,有些计算任务并不需要这样的精度,于是提出了降低传统计算精度的新术语——近似计算。
如何理解呢?IBM认为对于常见的深度学习任务,其实并不需要那么高的计算精度,就比如说人类大脑,即使没有高分辨率,也能够分辨出家人或者小猫。也就是说各种任务,其实都可以通过近似计算来处理。
在AIU芯片的设计中,近似计算发挥着重要作用。IBM研究人员设计的AIU芯片精度低于CPU,而这种较低精度也让新型AIU硬件加速器获得了更高的计算密度。IBM使用混合8位浮点(HFP)计算,而非AI训练中常见的32位或16点浮点计算。由于精度较低,因此该芯片的运算执行速度可达到FP16的2倍,同时继续保持类似的训练效能。
IBM在AI芯片技术上的不断升级
在去年2月的国际固态电路会议(ISSCC 2021)上,IBM也曾发布过一款性能优异的AI芯片,据IBM称它是当时全球首款高能效AI芯片,采用7nm制程工艺,可达到80%以上的训练利用率和60%以上的推理利用率,而通常情况下,GPU的利用率在30%以下。
有对比数据显示,IBM 7nm高能效AI芯片的性能和能效,不同程度地超过了IBM此前推出的14nm芯片、韩国科学院(KAIST)推出的65nm芯片、平头哥推出的12nm芯片含光800、NVIDIA推出的7nm芯片A100、联发科推出的7nm芯片。
IBM去年推出的这款7nm AI芯片支持fp8、fp16、fp32、int4、int2混合精度。在fp32和fp8精度下,这款芯片每秒浮点运算次数分别达到16TFLOPS和25.6TFLOPS,能效比为3.5TFLOPS/W和1.9TFLOPS。而被业界高度认可的NVIDIA A100 GPU在fp16精度下的能效比为0.78TFLOPS/W,低于IBM这款高能效AI芯片。
IBM在官网中称,这款AI芯片之所以能够兼顾能效和性能,是因为该芯片支持超低精度混合8位浮点格式((HFP8,hybrid FP8)。这是IBM于2019年发布的一种高度优化设计,允许AI芯片在低精度下完成训练任务和不同AI模型的推理任务,同时避免任何质量损失。
可以看到IBM此次发布的新款AIU与去年2月发布的7nm AI芯片,都采用了IBM此前提出的近似计算。从性能来看,去年推出的那款AI芯片一定程度上甚至超过了目前业界训练场景普遍使用的NVIDIA A100 GPU,而今年新推出的AIU无论是在制程工艺、晶体管数量上都有升级,可想而知性能水平将会更高。
AIU:32个处理器核心、230亿个晶体管
这款AIU芯片是IBM研究院AI硬件中心投入五年开发出的结果,AI硬件中心于2019年启动,专注于开发下一代芯片与AI系统。该中心的目标是,计划未来每年将AI硬件效率提升2.5倍。到2029年,将AI模型的训练和运行速度拉高1000倍。
据IBM介绍,该芯片采用5nm制程工艺,共有32个处理器核心和230亿个晶体管,在设计易用性方面,与普通显卡相当,能够介入任何带有PCI插槽的计算机或服务器。AIU芯片,旨在支持多种格式并简化从图像识别到自然语言处理的人工智能工作流程。
AIU芯片与传统用于训练的GPU芯片有何不同?一直以来,深度学习模型依赖于CPU加GPU协处理器的组合进行训练与运行。GPU最初是为沉浸图形图像而开发,后来人们发现其在AI领域有着显著优势,因此GPU在AI训练领域占据了非常重要的位置。
IBM开发的AIU并非图形处理器,它是专为深度学习模型加速设计的,针对矩阵和矢量计算进行了优化。AIU能够解决高复杂计算问题,并以远超CPU的速度执行数据分析。
AIU芯片有何特点呢?过去这些年,AI与深度学习模型在各行各业中快速普及,同时深度学习的发展也给算力资源带来了巨大的压力。深度学习模型的体量越来越大,包含数十亿甚至数万亿个参数。而硬件效率的发展却似乎跟不上深度学习模型的增长速度。
过去,计算一般集中在高精度64位与32位浮点运算层面。IBM认为,有些计算任务并不需要这样的精度,于是提出了降低传统计算精度的新术语——近似计算。
如何理解呢?IBM认为对于常见的深度学习任务,其实并不需要那么高的计算精度,就比如说人类大脑,即使没有高分辨率,也能够分辨出家人或者小猫。也就是说各种任务,其实都可以通过近似计算来处理。
在AIU芯片的设计中,近似计算发挥着重要作用。IBM研究人员设计的AIU芯片精度低于CPU,而这种较低精度也让新型AIU硬件加速器获得了更高的计算密度。IBM使用混合8位浮点(HFP)计算,而非AI训练中常见的32位或16点浮点计算。由于精度较低,因此该芯片的运算执行速度可达到FP16的2倍,同时继续保持类似的训练效能。
IBM在AI芯片技术上的不断升级
在去年2月的国际固态电路会议(ISSCC 2021)上,IBM也曾发布过一款性能优异的AI芯片,据IBM称它是当时全球首款高能效AI芯片,采用7nm制程工艺,可达到80%以上的训练利用率和60%以上的推理利用率,而通常情况下,GPU的利用率在30%以下。
有对比数据显示,IBM 7nm高能效AI芯片的性能和能效,不同程度地超过了IBM此前推出的14nm芯片、韩国科学院(KAIST)推出的65nm芯片、平头哥推出的12nm芯片含光800、NVIDIA推出的7nm芯片A100、联发科推出的7nm芯片。
IBM去年推出的这款7nm AI芯片支持fp8、fp16、fp32、int4、int2混合精度。在fp32和fp8精度下,这款芯片每秒浮点运算次数分别达到16TFLOPS和25.6TFLOPS,能效比为3.5TFLOPS/W和1.9TFLOPS。而被业界高度认可的NVIDIA A100 GPU在fp16精度下的能效比为0.78TFLOPS/W,低于IBM这款高能效AI芯片。
IBM在官网中称,这款AI芯片之所以能够兼顾能效和性能,是因为该芯片支持超低精度混合8位浮点格式((HFP8,hybrid FP8)。这是IBM于2019年发布的一种高度优化设计,允许AI芯片在低精度下完成训练任务和不同AI模型的推理任务,同时避免任何质量损失。
可以看到IBM此次发布的新款AIU与去年2月发布的7nm AI芯片,都采用了IBM此前提出的近似计算。从性能来看,去年推出的那款AI芯片一定程度上甚至超过了目前业界训练场景普遍使用的NVIDIA A100 GPU,而今年新推出的AIU无论是在制程工艺、晶体管数量上都有升级,可想而知性能水平将会更高。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
芯片
+关注
关注
447文章
47769浏览量
409071 -
IBM
+关注
关注
3文章
1670浏览量
74272
发布评论请先 登录
相关推荐
苹果M3芯片有多少晶体管组成
苹果M3芯片在晶体管数量上有了显著的提升。具体来说,标准版的M3芯片内部集成了250亿个晶体管,相比前代M2芯片多了50亿个。这一数量的增加
M3芯片有多少晶体管
M3芯片的晶体管数量根据不同的版本有所差异。具体来说,标准版的M3芯片拥有250亿个晶体管,这一数量相比前代产品M2有了显著的提升,使得M3芯片
晶体管Ⅴbe扩散现象是什么?
晶体管并联时,当需要非常大的电流时,可以将几个晶体管并联使用。因为存在VBE扩散现象,有必要在每一个晶体管的发射极上串联一个小电阻。电阻R用以保证流过每个晶体管的电流近似相同。电阻值R
发表于 01-26 23:07
IBM发布首款专为液氮冷却设计的CMOS晶体管
IBM突破性研发的纳米片晶体管,通过将硅通道薄化切割为纳米级别的薄片,再用栅极全方位围绕,实现更为精准控电。此结构使得在指甲盖大小空间内可容纳最多达500亿个晶体管,并且经过液氮冷却处理
三大芯片巨头角逐2nm技术
过去数十年里,芯片设计团队始终专注于小型化。减小晶体管体积,能降低功耗并提升处理性能。如今,2nm及3nm已取代实际物理尺寸,成为描述新一代
全球首颗3nm电脑来了!苹果Mac电脑正式进入3nm时代
前两代M1和M2系列芯片均采用5nm制程工艺,而M3系列芯片的发布,标志着苹果Mac电脑正式进入3nm时代。 3
发表于 11-07 12:39
•328次阅读
2nm芯片什么时候出 2nm芯片手机有哪些
N2,也就是2nm,将采用GAAFET全环绕栅极晶体管技术,预计2025年实现量产。 2nm芯片是指采用了2nm制程
2nm芯片是什么意思 2nm芯片什么时候量产
可以容纳更多的晶体管在同样的芯片面积上,从而提供更高的集成度和处理能力。此外,较小的节点尺寸还可以降低电路的功耗,提供更高的能效。可以说,2nm芯片
什么是3nm工艺芯片?3nm工艺芯片意味着什么?
的大部分时间里,用于制造芯片的工艺节点的名称是由晶体管栅极长度的最小特征尺寸(以纳米为单位)或最小线宽来指定的。350nm工艺节点就是一个例
发表于 09-19 15:48
•5288次阅读
华为发布首款5nm 5G SoC,集成153亿晶体管
的NMN910 5G SoC 芯片,也被称为麒麟9000。 这款芯片集成了49亿个晶体管,尺寸为 5 纳米,成为了全球首个量产的5nm 5G SoC
不同类型的晶体管及其功能
逻辑高电压驱动,则集电极电流会简单地停止流动,从而使用单个晶体管执行 NAND 逻辑处理。多发射极晶体管取代了 DTL 的二极管,并同意减少开关时间和功耗。
双栅极MOSFET
在多种
发表于 08-02 12:26
未来的芯片演进还在继续,逻辑缩放技术仍是现代计算的基础
晶体管结构:2012年IBM首次提出“Nanosheet”这个新晶体管架构,在这一架构的支撑下,IBM研究院在2021年推出了全球首款2纳米节点芯片
麻省理工华裔研究出2D晶体管,轻松突破1nm工艺!
然而,前不久麻省理工学院(MIT)华裔研究生朱家迪突破了常温条件下由二维(2D)材料制造成功的原子晶体管,每个晶体管只有 3 个原子的厚度,堆叠起来制成的芯片工艺将轻松突破 1
评论