0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一块晶圆等于一颗芯片!全球最大WSE-2处理器发布!7nm,面积达826 mm2

E4Life 来源:电子发烧友网 作者:周凯扬 2021-04-23 09:00 次阅读

不知大家是否还记得去年英伟达发布的A100 GPU,作为V100推出三年后的又一大计算卡,其性能较V100提升了20倍,英伟达更是称其为最大的7nm芯片,面积达到826 mm2。而初创公司Cerebras则在近日发布了第二代Wafer Scale Engine(WSE-2)芯片,夺下了7nm下面积最大芯片的宝座。

WSE-2 芯片/ Cerebras


从2015年到2020年,全球在训练大型模型上的计算已经到了30万倍,AI的限制更像是运算能力的限制,而不单单只是应用和创意。验证一个猜想和训练一个新模型可能会花上数周乃至数月的时间,Cerebras的WSE-2旨在解决这些影响创新速度的问题。

一块晶圆 =一个芯片

WSE-2与A100面积大小对比 / Cerebras


WSE-2从上一代的16nm工艺替换为7nm,尽管面积不变,但新制程的密度优势使其晶体管数量翻倍,达到了26000亿,AI核心数更是增加至85万个。Cerebras是在参数简介上直接对标英伟达的A100,与826 mm2 的A100相比,46225 mm2的WSE-2是前者的56倍。WSE-2片上内存为40GB,是A100的千倍,内存带宽更是做到A100的上万倍。WSE内含85万个专为AI应用优化的稀疏线性代数计算(SLAC)核心,非常适合神经网络运算。

Cerebras也指出内存也是计算中重要的一环。就拿上面提到的A100来说,A100只有40MB的L2 cache,却有着40GB的HBM2内存,但这种图形处理器的缺点就在于这种显存往往是片外内存,而且速度太慢,延迟过高。而WSE-2的40GB内存则是均匀分布在AI核心上,且带宽可以达到20PB/s。

其实早在去年的HotChips大会上,Cerebras就已经透露过这个85万AI核的新处理器,但由于一些延误,他们没法及时在去年发布。Cerebras联合创始人Andrew Feldman在近期采访中提到,与客户合作了一年之后,他们汲取了一些经验教训,并将其整合进了新的AI核心中去,因此这一推迟很可能是由于对AI核心微架构的改进。

以往一个晶圆需要切割成多个芯片,经过封装后再作为处理器上市售卖。而Cerebras的解决方案是晶圆级集成技术,直接利用一个晶圆的最大面积来生产单一芯片,不过考虑到目前矩形芯片依然是效率最高的选择,自然不可能直接拿整个圆形晶圆来制造芯片,Cerebras也从一块晶圆中选取了最大的正方形。虽然从12英寸晶圆的面积来看,制造一个WSE-2只用到了2/3的面积,但与芯片的售价相比,哪怕这些边角料被浪费,损失也只是沧海一粟而已。要知道Cerebras卖给匹茨堡超算中心的两台基于WSE-1的系统,可是从中获利近500万美元。

基于WSE-2的AI计算平台

但更强大的芯片放在一个老旧的系统里并非一定能实现全部的性能,反而可能会凸显出原有系统的瓶颈,比如通信结构、芯片I/O、电源和散热等等。这就像是拿法拉利的引擎放在大众车里,也跑不出前者的速度一样。

CS-2散热系统 / Cerebras


基于WSE-2、Cerebras的系统以及软件平台,Cerebras也推出了新一代深度学习系统CS-2,来突破系统上的限制。这么强大的性能自然需要强大的供电,CS-2采用了9+3的冗余供电配置来驱动WSE-2。但这样的供电自然也面临着散热上的挑战,Cerebras在CS-2内部运用了一套水冷散热系统,用水冷来对WSE-2散热,再由风冷来降低水温。与此同时,CS-2的空间占用并不大,这个26英寸高的机器仅仅占用15U的机架空间,虽然大于英伟达的HGX A100系统,但考虑到性能的提升,这点空间占用还是可以接受的。

CS-2 系统/ Cerebras


据Cerebras透露,WSE-2和CS-2都将于今年第三季度推出,而CS-2的价格也将从CS-1的2到3百万美元涨到“几百万”美元的不具体数字。

小结

尽管Cerebras的WSE-2是一个性能怪兽,但它的应用面并没有A100那么广,更像是面向小众市场。就拿WSE-1的一些客户来说,多数在进行一些生物及医学研究,比如癌症治疗、药物发现等,且多用于超算中心与国家实验室,比如上面提到的匹茨堡超算中心和阿贡国家实验室。而英伟达的A100则可以用于各种AI和HPC应用,这也是Cerebras目前的解决方案没有突破的,但考虑到Cerebras的定位也不是为了做到全面覆盖,专注于一个市场反而是Cerebras能做到如此优秀的原因所在。

其实最值得去突破的仍是这种晶圆级集成的技术,固然芯片设计厂商希望从单一晶圆中获取更多的芯片,获取更高的利润,但这种纯粹追求性能的芯片反而适合如今不少Power-hungry的应用。话虽如此,实现这类芯片的良率同样是一大挑战,并不是每家公司都像Cerebras一样在WSE-2上实现100%的良率的。

本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18261

    浏览量

    222116
  • 芯片
    +关注

    关注

    447

    文章

    47769

    浏览量

    409072
收藏 人收藏

    评论

    相关推荐

    2024年全球与中国7nm智能座舱芯片行业总体规模、主要企业国内外市场占有率及排名

    影响因素 1.5.4 进入行业壁垒 **2 **国内外市场占有率及排名 2.1 全球市场,近三年7nm智能座舱芯片主要企业占有率及排名(按销量) 2.1.1 近三年
    发表于 03-16 14:52

    Cortex™-M3处理器介绍

    本实验的目的是向您介绍意法半导体Cortex™-M3处理器,该处理器使用ARM®KEIL™MDK工具包,具有集成开发环境μ®。 我们将在Keil MCBSTM32C评估板上使用串行线查看(SWV
    发表于 09-04 08:01

    Cortex™-M4处理器介绍

    本实验的目的是向您介绍意法半导体Cortex™-M4处理器,该处理器使用ARM®KEIL™MDK工具包,具有集成开发环境μ®。 我们将使用串行线查看(SWV)和板载ST-Link/V2
    发表于 09-04 07:47

    Arm Cortex-M55处理器数据集

    ARM Cortex-M55处理器款完全可合成的中端微控制处理器,实现了ARMv8.1-M主线架构,并支持M-Profile向量扩展(MVE),也称为ARM氦技术。 它是ARM
    发表于 08-25 07:46

    Arm Cortex-M7处理器产品介绍

    ARM Cortex-M7处理器是Cortex-M系列中性能最高的处理器,可用于设计复杂的MCU和SoC。 Cortex-M7提供业界领先的5.01核心标记/MHz标量性能,同时保持了
    发表于 08-25 06:25

    ARM Cortex-A34处理器技术参考手册

    面积最大频率和特征中的个或多个的逻辑。 配置输入积分通过将输入绑定到特定值来配置处理器
    发表于 08-18 07:46

    ARM Cortex-R52处理器技术参考手册

    Cortex-R52处理器款中等性能的有序超标量处理器,主要用于汽车和工业应用。 它还适用于各种其他嵌入式应用,如通信和存储设备。 Cortex-R52处理器
    发表于 08-18 07:07

    Arm Cortex-R82处理器技术参考手册

    ®-R82处理器的专用调试组件。 DebugBlock被实例化为单独的顶级单元,以允许您在始终在线的POWER域中实现调试组件。 尽管DebugBlock作为个单独的单元进行了实例化,但它仍然是Cortex®-R82处理器
    发表于 08-17 08:02

    ARM Cortex-M7处理器参考手册

    Cortex-M7处理器款高效、高性能的嵌入式处理器,具有低中断延迟、低成本调试的特点,并具有与现有Cortex-M Profile处理器
    发表于 08-17 07:55

    Arm Cortex-R82处理器技术参考手册

    Cortex®-R82处理器款中等性能的多核有序超标量处理器,适用于实时嵌入式应用。 Cortex®-R82处理器采用ARM®V8-R AArch64架构。 ARM®V8-R AA
    发表于 08-17 07:45

    Arm Cortex-R52处理器技术参考手册

    Cortex-R52处理器款中等性能的有序超标量处理器,主要用于汽车和工业应用。 它还适用于各种其他嵌入式应用,如通信和存储设备。 Cortex-R52处理器
    发表于 08-17 06:24

    Gaudi2夹层卡HL-225B数据表

    高迪第二代Al深度学习夹层卡HL-225B专为数据中心的大规模扩展而设计。训练处理器基于第代高迪的高效架构,目前采用7nm工艺技术,在性能、可扩展性和能效方面实现飞跃。Gaudi2
    发表于 08-04 07:54

    GAUDIR HL-2000处理器介绍

    和HL-200 PClecard都包含个GAUDIR HL-2000处理器,该处理器包含个由八个完全可编程张量处理核心(TPC 2.0)
    发表于 08-04 07:23

    Cortex-A9处理器技术参考手册

    Cortex-A9处理器款高性能、低功耗的ARM宏单元,具有L1缓存子系统,可提供完整的虚拟内存功能。Cortex-A9处理器实现ARMv7-A架构,在Jazelle®状态下运行3
    发表于 08-02 16:29

    迅为RK3568开发板220+集视频和2800页手册在线观看_学习搞起来

    瑞芯微RK3568芯片款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52
    发表于 05-29 11:09