0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一块晶圆等于一颗芯片!全球最大WSE-2处理器发布!7nm,面积达826 mm2

E4Life 来源:电子发烧友网 作者:周凯扬 2021-04-23 09:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

不知大家是否还记得去年英伟达发布的A100 GPU,作为V100推出三年后的又一大计算卡,其性能较V100提升了20倍,英伟达更是称其为最大的7nm芯片,面积达到826 mm2。而初创公司Cerebras则在近日发布了第二代Wafer Scale Engine(WSE-2)芯片,夺下了7nm下面积最大芯片的宝座。

WSE-2 芯片/ Cerebras


从2015年到2020年,全球在训练大型模型上的计算已经到了30万倍,AI的限制更像是运算能力的限制,而不单单只是应用和创意。验证一个猜想和训练一个新模型可能会花上数周乃至数月的时间,Cerebras的WSE-2旨在解决这些影响创新速度的问题。

一块晶圆 =一个芯片

WSE-2与A100面积大小对比 / Cerebras


WSE-2从上一代的16nm工艺替换为7nm,尽管面积不变,但新制程的密度优势使其晶体管数量翻倍,达到了26000亿,AI核心数更是增加至85万个。Cerebras是在参数简介上直接对标英伟达的A100,与826 mm2 的A100相比,46225 mm2的WSE-2是前者的56倍。WSE-2片上内存为40GB,是A100的千倍,内存带宽更是做到A100的上万倍。WSE内含85万个专为AI应用优化的稀疏线性代数计算(SLAC)核心,非常适合神经网络运算。

Cerebras也指出内存也是计算中重要的一环。就拿上面提到的A100来说,A100只有40MB的L2 cache,却有着40GB的HBM2内存,但这种图形处理器的缺点就在于这种显存往往是片外内存,而且速度太慢,延迟过高。而WSE-2的40GB内存则是均匀分布在AI核心上,且带宽可以达到20PB/s。

其实早在去年的HotChips大会上,Cerebras就已经透露过这个85万AI核的新处理器,但由于一些延误,他们没法及时在去年发布。Cerebras联合创始人Andrew Feldman在近期采访中提到,与客户合作了一年之后,他们汲取了一些经验教训,并将其整合进了新的AI核心中去,因此这一推迟很可能是由于对AI核心微架构的改进。

以往一个晶圆需要切割成多个芯片,经过封装后再作为处理器上市售卖。而Cerebras的解决方案是晶圆级集成技术,直接利用一个晶圆的最大面积来生产单一芯片,不过考虑到目前矩形芯片依然是效率最高的选择,自然不可能直接拿整个圆形晶圆来制造芯片,Cerebras也从一块晶圆中选取了最大的正方形。虽然从12英寸晶圆的面积来看,制造一个WSE-2只用到了2/3的面积,但与芯片的售价相比,哪怕这些边角料被浪费,损失也只是沧海一粟而已。要知道Cerebras卖给匹茨堡超算中心的两台基于WSE-1的系统,可是从中获利近500万美元。

基于WSE-2的AI计算平台

但更强大的芯片放在一个老旧的系统里并非一定能实现全部的性能,反而可能会凸显出原有系统的瓶颈,比如通信结构、芯片I/O、电源和散热等等。这就像是拿法拉利的引擎放在大众车里,也跑不出前者的速度一样。

CS-2散热系统 / Cerebras


基于WSE-2、Cerebras的系统以及软件平台,Cerebras也推出了新一代深度学习系统CS-2,来突破系统上的限制。这么强大的性能自然需要强大的供电,CS-2采用了9+3的冗余供电配置来驱动WSE-2。但这样的供电自然也面临着散热上的挑战,Cerebras在CS-2内部运用了一套水冷散热系统,用水冷来对WSE-2散热,再由风冷来降低水温。与此同时,CS-2的空间占用并不大,这个26英寸高的机器仅仅占用15U的机架空间,虽然大于英伟达的HGX A100系统,但考虑到性能的提升,这点空间占用还是可以接受的。

CS-2 系统/ Cerebras


据Cerebras透露,WSE-2和CS-2都将于今年第三季度推出,而CS-2的价格也将从CS-1的2到3百万美元涨到“几百万”美元的不具体数字。

小结

尽管Cerebras的WSE-2是一个性能怪兽,但它的应用面并没有A100那么广,更像是面向小众市场。就拿WSE-1的一些客户来说,多数在进行一些生物及医学研究,比如癌症治疗、药物发现等,且多用于超算中心与国家实验室,比如上面提到的匹茨堡超算中心和阿贡国家实验室。而英伟达的A100则可以用于各种AI和HPC应用,这也是Cerebras目前的解决方案没有突破的,但考虑到Cerebras的定位也不是为了做到全面覆盖,专注于一个市场反而是Cerebras能做到如此优秀的原因所在。

其实最值得去突破的仍是这种晶圆级集成的技术,固然芯片设计厂商希望从单一晶圆中获取更多的芯片,获取更高的利润,但这种纯粹追求性能的芯片反而适合如今不少Power-hungry的应用。话虽如此,实现这类芯片的良率同样是一大挑战,并不是每家公司都像Cerebras一样在WSE-2上实现100%的良率的。

本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20381

    浏览量

    255634
  • 芯片
    +关注

    关注

    463

    文章

    54644

    浏览量

    471027
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【方案推荐】一颗芯片搞定4K多画面处理器!宏微MS1827,4进4出+8窗口叠加

    在做视频矩阵、拼接处理器、多画面分割的工程师朋友,是否经常面临:PCB面积大、BOM成本高、多颗芯片协调复杂? 今天推荐款高集成度的视
    发表于 05-13 09:33

    一颗IPM如何省去8分立元件从工程计算看智能功率模块的设计价值

    电机驱动工程师在搭建BLDC或PMSM驱动电路时,面对的半桥功率级通常需要以下元件:两功率MOSFET、一颗栅极驱动IC、一颗自举二极管、两VCC去耦电容、
    的头像 发表于 04-29 23:13 376次阅读

    探秘Neuron® 5000处理器:LONWORKS控制网络的新利器

    处理器,看看它如何为LONWORKS控制网络带来新的变革。 文件下载: 14305R-2000.pdf 处理器概述 Neuron 5000处理器
    的头像 发表于 03-28 09:05 351次阅读

    一块模组,双无线:WiFi+蓝牙组合模块的进化与落地

    智能设备既要上路由、跑 OTA,又要和手机近距配对、做音频或配网—— WiFi+蓝牙组合模块 把两套射频收进同一颗 SoC 或同封装里,用芯片厂成熟的  共存  调度 2.4 GH
    的头像 发表于 03-26 15:19 339次阅读

    三星2nm良率提升至50%,2027年前实现代工业务盈利可期

    据报道,三星电子第2nm GAA制程(SF2)良率已稳定在50%,该数据也通过其量产的Exynos 2600处理器得到印证。
    的头像 发表于 01-19 18:16 3706次阅读

    恩智浦全新S32N7处理器释放软件定义汽车(SDV)的全部潜力

    电子展(CES) —— 2026年1月6 日 —— 恩智浦半导体(NXP Semiconductors N.V.,纳斯达克股票代码:NXPI)发布S32N7超高集成度处理器系列。该系列基于与S32N55相同的5纳米技术平台,旨在
    的头像 发表于 01-19 17:06 6.6w次阅读
    恩智浦全新S32N<b class='flag-5'>7</b><b class='flag-5'>处理器</b>释放软件定义汽车(SDV)的全部潜力

    Genio 720处理器规格参数_MTK8391高算力核心板方案

    Genio 720(MT8391)处理器规格参数,采用先进的6nm制程工艺,兼顾高性能与低功耗,适配无风扇设计及电池供电移动设备需求。CPU架构:八核处理器,包含2
    的头像 发表于 01-12 19:57 534次阅读
    Genio 720<b class='flag-5'>处理器</b>规格参数_MTK8391高算力核心板方案

    海光3350处理器能被广泛应用的原因

    集特海光3350工控主板GM7-5601配置了1海光3350处理器、8核16线程设计,2根DDR4内存插槽,最大支持64GB、4个千兆网口
    的头像 发表于 01-09 16:22 1099次阅读
    海光3350<b class='flag-5'>处理器</b>能被广泛应用的原因

    S32Z2:安全可靠的高性能实时处理器

    : NXP Semiconductors S32Z2实时处理器.pdf 、概述 S32Z2处理器能够以无与伦比的千兆赫兹速度安全地集成实时
    的头像 发表于 12-24 11:10 625次阅读

    S32E2:引领电动汽车控制与智能驱动的高性能实时处理器

    将详细介绍S32E2处理器的特点、应用场景、使能工具以及功能安全等方面的内容。 文件下载: NXP Semiconductors S32E2实时处理器.pdf
    的头像 发表于 12-24 11:10 580次阅读

    接口电路CJLSF0102系列一颗料同时替代TI与安世

    在国产替代浪潮下,工程师最怕“一颗料买不着、两料调不通”。长科技(CJ)推出的CJLSF0102BAN/CJLSF0102VAN,用一颗双通道自动双向总线电平转换
    的头像 发表于 11-13 17:19 1070次阅读
    长<b class='flag-5'>晶</b>接口电路CJLSF0102系列<b class='flag-5'>一颗</b>料同时替代TI与安世

    不到一块钱的带USB 2.4G收发 SOC芯片,集成2.4G射频 32位MCU

    MCU、2.4G射频、USB接口三大核心功能。传统方案可能需要多颗芯片才能实现,而XL2417U单个芯片即可搞定,采用SOP8封装,批量价不到一块,显著降低了BOM成本和PCB面积。X
    发表于 11-12 16:57

    英伟首片美国制造Blackwell下线,重塑AI芯片制造格局

    近日,美国亚利桑那州凤凰城的台积电 Fab 21 晶圆厂内,一块承载全球 AI 产业期待的特殊正式下线 —— 这是首片在美国本土制造的英伟
    的头像 发表于 10-22 17:21 1266次阅读

    基于兆芯开先KX-7000处理器的升腾M460 2笔记本电脑亮相

    ,基于KX-7000处理器的升腾M460 2新品笔记本也正式现身,标志着围绕KX-7000平台,升腾已经成功打造了套完整的信创PC产品矩阵。
    的头像 发表于 06-19 15:22 1647次阅读

    十万块一颗芯片值不值?ADM处理器CPU。#半导体#电子

    处理器
    芯广场
    发布于 :2025年05月26日 18:09:31