0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

B200一经面市,就只能做弟弟?Cerebras '巨无霸'能否逆袭成功?

Leena 来源:jf_69140917 作者:jf_69140917 2024-04-09 10:46 次阅读

Cerebras Systems 发布全球最大芯片 WSE3 搭载4万亿个晶体管。与英伟达 B200 GPU 的2080亿晶体管相比较,WSE3 的规模宛如巨人面对侏儒。其打破常规,不再将一个晶圆切割为多个单独芯片,而是巧妙地将一整个12英寸的晶圆转化为一块庞大芯片,总面积达到 46225 平方毫米,相当于84个常规芯片组合在一起。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

Cerebras 自2015年成立以来,坚持不懈地推出一系列 WSE 芯片,到如今第三代 WSE3,每一步都标志着其对制程工艺的深化掌握,这次更是采用了5纳米工艺,承台积电的技术优势。WSE系列以“世界最大芯片”而驰名,专注于满足AI大模型训练的高性能需求,同时具备出色的推理能力。在这一领域,Cerebras 不仅自立门户,更与高通展开合作,以其推理芯片进一步增强WSE3功能范畴。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

WSE3发布还伴随一系列承载其强劲计算力的服务器产品——CS1、CS2和CS3,这些服务器产品由AMDCPU赋能,共同构成高效的计算生态,旨在加速现代AI研究及实用性能向前迈进。

凭借其独特的设计理念和规模优势,WSE3预示着 AI 硬件技术的一次飞跃。异常强大的算力背后,是Cerebras对芯片工艺的极致追求与不被常规限制的创新胆识,WSE3正将这份精神通过每一次AI模型的训练和推理,传递至整个科技行业。

尽管有些人可能怀疑 WSE3 不过是一张巨型晶圆,但其真正的价值并不在于其体积,而在于其背后独特的设计理念和架构。WSE3 构造包括84个区域,其中包含高达90万个计算核心,每个区域内含有超过1万个核心。从架构层面来看,由核心(Cores)、芯片单元(Die)以及晶圆(Wafer)共同构成。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

wKgaomYCnKCAUuHKAAsg70N80iU841.png

Cerebras的计算架构大致可以划分为WSE、SwarmX 和 MemoryX三个部分。在处理大模型训练时,MemoryX存储设备储存权重数据,这些数据由DDR和Flash技术共同构成,最大提供高达1200TB存储空间。该设计意味着巨大数量级的模型参数可以一次性加载到设备中进行处理。在训练过程中,MemoryX上的权重数据将通过SwarmX传输至每个CS系统中的WSE,由WSE处理数据并完成向前传播计算过程,生产出预测值。然后,通过损失函数计算出预测值与真实值间的梯度,用这些梯度进行反向传播计算所有权重的梯度。计算得出的梯度数据随后回到SwarmX,经过汇总处理为全局梯度后送回MemoryX,MemoryX内的计算单元会直接更新权重,为下一轮的训练做准备。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

wKgZomYCnKCAAwB5AAgVr6DBGP8239.png

Cerebras Systems把一个晶圆的全部晶体管都用上,并未按常规将其切割,而是构建一个具有90万个计算核心的密集网络进行集中处理。松散耦合的计算和存储设计让 Cerebras 的 CS 系列服务器能够轻松实现数据并行,不使用其他复杂的并行训练方法。Cerebras 这一独特设计理念使其成为AI 训练领域的强劲竞争者。

深入探究Cerebras革命性 WSE 芯片会发现,每一颗计算核心都拥有一块48KB的SRAM存储单元。令人惊讶的是48KB被巧妙划分为八个6KB小区域,每个小区以32位宽数据通道进行操作,合起来就是一条256位宽数据高速公路。计算核心在每一个时钟周期都能够处理高达两个64位的读取通道以及一个64位的写入通道,合计可达192位。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

wKgaomYCnKGAB97sAAnpRZFsrgw582.png

Cerebras的真正威力还在于它的分布式存储与计算架构,使之擅长高效解决非结构化的稀疏计算问题,尤其是那些需要处理海量零值或接近零值数据的场景。为此,WSE3 提供令人震撼的 21PB每秒的片上存储带宽,以及超乎想象的214PB每秒的网络交互带宽。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

wKgaomYCnKKAO6kRABFzghBM77w378.png

Cerebras的设计理念深入人心,无需切割晶圆,就将所有晶体管整合成一个紧密相连的网络,该网络由高达90万个计算核心组成,实现集中加工处理。与此同时,Cerebras系列的CS服务器得益于计算与存储分离的创新设计,轻松实现数据并行处理,省去其他复杂并行训练方案的需要。这一设计不光为Cerebras赢得了与英伟达抗衡的实力,也为面对越来越庞大的模型规模——我们说的是达到万亿级参数——提供解决方案。在AI训练领域,Cerebras的 Wafer Scale Engine 设计无疑是它的巅峰时刻。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    447

    文章

    47821

    浏览量

    409207
  • 晶体管
    +关注

    关注

    77

    文章

    9058

    浏览量

    135242
  • AI
    AI
    +关注

    关注

    87

    文章

    26472

    浏览量

    264106
收藏 人收藏

    评论

    相关推荐

    智向未来,2024高通&广和通边缘智能技术进化日成功举办

    3月28日,2024高通&广和通边缘智能技术进化日在深圳成功举办,多位行业嘉宾和技术专家齐聚一堂,深度探讨如何利用多技术融合边缘智能打造数智化社会、推动新质生产力发展。
    的头像 发表于 03-29 10:41 539次阅读
    智向未来,2024高通&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;广和通边缘智能技术进化日<b class='flag-5'>成功</b>举办

    英伟达发布性能大幅提升的新款B200 AI GPU

    英伟达宣称,B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上一代,运算能力飞跃性提升,甚至能使大语言模型的训练速度翻番。
    的头像 发表于 03-20 09:37 217次阅读

    C程序中可用的存储类有哪些?

    register 存储类用于定义存储在寄存器中而不是 RAM 中的局部变量。这意味着变量的最大尺寸等于寄存器的大小(通常是一个词),且不能对它应用一元的 &apos;&amp;&apos; 运算符(因为它没有内存位置)。
    发表于 03-15 12:32 111次阅读

    Open RAN的未来及其对AT&amp;amp;T的意义

    3月14日消息,在“Connected America 2024”会议上,AT&amp;T高级副总裁兼网络首席技术官Yigal Elbaz讨论了Open RAN 的未来及其对AT&amp;T的意义。
    的头像 发表于 03-14 14:40 196次阅读

    深维科技-北京大学合作团队在FPGA&amp;apos;24布线加速竞赛中夺得佳绩!

    美国西部时间2024年3月4日,我司与北大合作团队在FPGA&apos;24布线加速竞赛中获得优异的成绩。
    的头像 发表于 03-07 11:43 717次阅读
    深维科技-北京大学合作团队在FPGA&<b class='flag-5'>amp</b>;<b class='flag-5'>apos</b>;24布线加速竞赛中夺得佳绩!

    戴尔发布英伟达B200 AI GPU:高功耗达1000W,创新性冷却工程设计必要

    市场传言,这款B200虽然运算性能更强,却又面临着惊人的能耗,最高或可至1000W,同比H100增长超过40%。由于搭载Hopper架构及HBM3e高带宽内存,英伟达B200被行业视为运行速度最高的AI芯片;
    的头像 发表于 03-05 09:30 1301次阅读

    ADE7753读TMODE寄存器temp = spireadchar(REG_TMODE) ,读出来的直是零的原因?

    ,GAIN_CONFIG); spireadlong(REG_RAENERGY); spiwriteint(REG_IRMSOS, IRMSOS_CONFIG); spiwriteint(REG_APOS
    发表于 12-25 07:47

    解决瑞萨RA2E1开发板在RT-Thread的版本中编译报错 error: &amp;apos;board_cfg.h&amp;apos; file not found

    在直播课程中,我主要基于KEIL、RASC、FSP这几个软件给大家演示,介绍如何在KEIL中打开RASC,已经从零开始配置一个新的外设(以新增UART1为例)。
    的头像 发表于 09-28 14:47 942次阅读
    解决瑞萨RA2E1开发板在RT-Thread的版本中编译报错 error: &<b class='flag-5'>amp</b>;<b class='flag-5'>apos</b>;board_cfg.h&<b class='flag-5'>amp</b>;<b class='flag-5'>apos</b>; file not found

    MATLAB课程之第三章v2 M文件知识(4)

    上堂课讲了一个示例程序! 让大家帮忙找错! 相信大家都能发现问题所在!找错的过程特别能提高编程水平。 看一下老师给出的结果! 完整代码! n = input(&apos;请输入百分制
    的头像 发表于 08-08 08:15 253次阅读
    MATLAB课程之第三章v2 M文件知识(4)

    你使用shell脚本中的2&amp;gt;&amp;amp;1了吗?

    run_cmax > ./starrc_cmax.logs 2>&amp;1中的 2>&amp;1是啥意思?
    的头像 发表于 07-30 14:44 1071次阅读

    宁畅推出“无忧焕液计划” 推进液冷从&amp;apos;奢侈&amp;apos;迈向&amp;apos;普惠&amp;apos;

    近年来,在政策引导、市场需求、技术升级等多种因素影响下,数据中心正在迎来发展新机遇。如何部署节能技术并兼顾算效、能耗、成本,成为考验数据中心建设与运营者的关键。   在此背景下,宁畅于6月28日召开“无忧焕液 智惠升级”媒体沟通会,与行业专家共探数据中心转型之策。会上,宁畅推出“无忧焕液计划”,旨在让液冷从“奢侈”走向“普惠”。    宁畅总裁秦晓宁在会上表示:“当前AI服务器需求暴涨,但80-90%的数据中心依然采用风冷
    的头像 发表于 06-29 14:53 477次阅读

    nuvoton的M0&amp;amp;M4系列单片机所带的EBI接口能否接SDRAM?

    请问nuvoton的M0&amp;amp;M4系列单片机所带的EBI接口能否接SDRAM?
    发表于 06-26 07:54

    寻迹智行新一代无人叉车&amp;apos;货叉联动&amp;apos;逆袭而来!

    受特殊环境影响,企业面临复工率低、人员短缺、人员集中风险、项目现场部署受限等诸多困境,促使企业快速推进“机器换人”的步伐。无人叉车融合了叉车技术和AGV技术,与普通AGV 相比,它不仅能完成点对点的物料搬运,同时能实现多个生产环节对接的物流运输,能适用于高位仓库、库外收货区、产线转运三大场景,近两年,无人叉车
    的头像 发表于 05-24 15:49 230次阅读
    寻迹智行新一代无人叉车&<b class='flag-5'>amp</b>;<b class='flag-5'>apos</b>;货叉联动&<b class='flag-5'>amp</b>;<b class='flag-5'>apos</b>;逆袭而来!

    在matlab中,简单地利用RS485协议对伺服电机进行控制

    首先利用usb转485串口线将伺服电机连接到电脑上,需要安装USB转UART的驱动,并且在matlab中设置串口,串口设置代码如下: %% 设置串口scom = serial(&apos
    发表于 05-16 16:26 1次下载
    在matlab中,简单地利用RS485协议对伺服电机进行控制

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),为true,你敢信?

    接下来咱们来尝试解决这个问题。假设 if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是一个“普通的变量”。它势必要有能力在执行的时候能够动态改动值。
    的头像 发表于 05-08 11:01 756次阅读
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),为true,你敢信?