0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Cerebras推出WSE-3 AI芯片,比NVIDIA H100大56倍

SDNLAB 来源:SDNLAB 2024-03-14 17:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Cerebras 是一家位于美国加利福尼亚州的初创公司,2019 年进入硬件市场,其首款超大人工智能芯片名为 Wafer Scale Engine (WSE) ,尺寸为 8 英寸 x 8 英寸,比最大的 GPU 大 56 倍,拥有 1.2 万亿个晶体管和 40 万个计算核心,是当时最快、最大的 AI 芯片。随后在 2021 年,Cerebras 推出了 WSE-2,这是一款 7 纳米芯片,其性能是原来的两倍,拥有 2.6 万亿个晶体管和 85 万个核心。

近日,Cerebras 宣布推出了第三代WSE-3,性能再次提高了近一倍。

8cb56d78-e1e2-11ee-a297-92fbcf53809c.png

01

Cerebras 推出 WSE-3 AI 芯片,比 NVIDIA H100 大 56 倍 WSE-3采用台积电5nm工艺,拥有超过4万亿个晶体管和90 万个核心,可提供 125 petaflops 的性能。这款芯片是台积电可以制造的最大的方形芯片。WSE-3拥有44GB 片上 SRAM,而不是片外 HBM3E 或 DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。

自推出以来,Cerebras 就将自己定位为英伟达GPU 驱动的人工智能系统的替代品。这家初创公司的宣传是:他们可以使用更少的芯片在 Cerebras 硬件上进行 AI训练,而不是使用数千个 GPU。据称,一台Cerebras服务器可以完成与 10 个 GPU 机架相同的工作。

下图是Cerebras WSE-3和英伟达 H100的对比。

8cd2762a-e1e2-11ee-a297-92fbcf53809c.png

Cerebras 的独特优势是将整个硅片直接转化为单一巨大的处理器,从而大幅提升计算性能和效率。英伟达、AMD英特尔等公司往往会把一块大晶圆切成多个小的部分来制造芯片,在充斥着 Infiniband、以太网、PCIe 和 NVLink 交换机的英伟达GPU 集群中,大量的功率和成本花费在重新链接芯片上,Cerebras的方法极大地减少了芯片之间的数据传输延迟,提高了能效比,并且在AI和ML任务中实现了前所未有的计算速度。

02

Cerebras CS-3 系统

Cerebras CS-3 是第三代 Wafer Scale 系统。其顶部具有 MTP/MPO 光纤连接,以及用于冷却的电源、风扇和冗余泵。该系统及其新芯片在相同的功耗和价格下实现了大约 2 倍的性能飞跃。

8ce05114-e1e2-11ee-a297-92fbcf53809c.png

Cerebras WSE-3 的核心数量是英伟达的 H100 Tensor Core 的 52 倍。与 Nvidia DGX H100 系统相比,由 WSE-3 芯片驱动的 Cerebras CS-3 系统的训练速度提高了 8 倍,内存增加了 1,900 倍,并且可以训练多达 24 万亿个参数的 AI 模型,这是其 600 倍。Cerebras 高管表示,CS-3的能力比 DGX H100 的能力还要大。在 GPU 上训练需要 30 天的 Llama 700 亿参数模型,使用CS-3 集群进行训练只需要一天。

8ceb5910-e1e2-11ee-a297-92fbcf53809c.png8cfd537c-e1e2-11ee-a297-92fbcf53809c.png

CS-3可以配置为多达2048个系统的集群,可实现高达 256 exaFLOPs 的 AI 计算,专为快速训练 GPT-5 规模的模型而设计。

8d0abbca-e1e2-11ee-a297-92fbcf53809c.png

Cerebras CS-3 适用于 2048 节点 256EF 集群

8d1ef59a-e1e2-11ee-a297-92fbcf53809c.png

适用于 GPT 5 规模的 Cerebras CS-3 集群

03

Cerebras AI编程

Cerebras 声称其平台比英伟达的平台更易于使用,原因在于 Cerebras 存储权重和激活的方式,Cerebras 不必扩展到系统中的多个 GPU,然后扩展到集群中的多个 GPU 服务器。

8d2fa638-e1e2-11ee-a297-92fbcf53809c.png  

除了代码更改很容易之外,Cerebras 表示它的训练速度比 Meta GPU 集群更快。当然,这只是理论上数据,当前还没有任何 2048 个 CS-3 集群已经投入运行,而 Meta 已经有了 AI GPU 集群。

8d384e50-e1e2-11ee-a297-92fbcf53809c.png

Llama 70B Meta VS Cerebras CS-3 集群

04

Cerebras 与高通合作开发人工智能推理

Cerebras 和高通建立了合作伙伴关系,目标是将推理成本降低 10 倍。Cerebras 表示,他们的解决方案将涉及应用神经网络技术,例如权重数据压缩等。该公司表示,经过 Cerebras 训练的网络将在高通公司的新型推理芯片AI 100 Ultra上高效运行。

这项工作使用了四种主要技术来定制 Cerebras 训练的模型:

8d594312-e1e2-11ee-a297-92fbcf53809c.png

稀疏性是 Cerebras 的秘密武器之一,Cerebras 能够在训练过程中利用动态、非结构化的稀疏性。高通的 Cloud AI100 具有对非结构化稀疏性的硬件支持,这种稀疏协同可以使性能提高2.5倍。

推测解码是一种前景广阔但迄今为止难以有效实施的行业技术,也被用来加快速度。这种技术使用一个大型LLM和一个小型LLM的组合来完成一个大型LLM的工作。小模型不太精确,但效率较高。大模型用于检查小模型的合理性。总体而言,组合效率更高,由于该技术总体上使用的计算量较少,因此速度可以提高 1.8 倍。

权重压缩为 MxFP6,这是一种行业 6 位微指数格式,与 FP16 相比,可节省 39% 的 DRAM 空间。高通的编译器将权重从 FP32 或 FP16 压缩为 MxFP6,Cloud AI100 的矢量引擎在软件中执行即时解压缩到 FP16。该技术可以将推理速度提高 2.2 倍。

神经架构搜索(NAS)是一种推理优化技术。该技术在训练期间考虑了目标硬件(Qualcomm Cloud AI 100)的优点和缺点,以支持在该硬件上高效运行的层类型、操作和激活函数。Cerebras 和 Qualcomm 在 NAS 方面的工作使推理速度提高了一倍。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109081
  • 晶体管
    +关注

    关注

    78

    文章

    10250

    浏览量

    146255
  • AI芯片
    +关注

    关注

    17

    文章

    2063

    浏览量

    36563
  • 人工智能芯片

    关注

    1

    文章

    122

    浏览量

    30806
  • DDR5
    +关注

    关注

    1

    文章

    464

    浏览量

    25608

原文标题:初创公司Cerebras 推出 WSE-3 AI 芯片,声称“吊打”英伟达 H100

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    BPI-AIM7 RK3588 AINvidia Jetson Nano 生态系统兼容的低功耗 AI 模块

    260 针金手指设计 :机械上与 Jetson Nano 载板 100% 兼容,可重复使用现有硬件投资。 PCIe 3.0 x4高速通道 :支持外部AI加速器(例如TensorRT加速器)。 3
    发表于 10-11 09:08

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的我我们讲解了这几种芯片的应用场景,设计流程、结构等。 CPU: 还为我们讲解了一种算法:哈希表算法 GPU: 介绍了英伟达H100GPU芯片。使用了一下关键技术: ①张量核
    发表于 09-12 16:07

    英伟达 H100 GPU 掉卡?做好这五点,让算力稳如泰山!

    H100服务器停工一天损失的算力成本可能维修费还高。今天,我们给大家总结一套“防掉卡秘籍”,从日常管理到环境把控,手把手教你把掉卡风险压到最低。一、供电是“生命线”,这3点必须盯紧H100
    的头像 发表于 09-05 11:03 714次阅读
    英伟达 <b class='flag-5'>H100</b> GPU 掉卡?做好这五点,让算力稳如泰山!

    NVIDIA 将恢复H20芯片在中国的销售 NVIDIA CEO 黄仁勋在美国和中国加大推广AI

    NVIDIA 将恢复 H20 在中国的销售,并宣布推出面向中国市场的全新且完全兼容的 GPU。 本月,NVIDIA 创始人兼首席执行官黄仁勋在美国和中国推广
    的头像 发表于 07-15 11:03 1870次阅读

    GPU 维修干货 | 英伟达 GPU H100 常见故障有哪些?

    上涨,英伟达H100GPU凭借其强大的算力,成为AI训练、高性能计算领域的核心硬件。然而,随着使用场景的复杂化,H100服务器故障率也逐渐攀升,轻则影响业务进度,重
    的头像 发表于 05-05 09:03 2456次阅读
    GPU 维修干货 | 英伟达 GPU <b class='flag-5'>H100</b> 常见故障有哪些?

    大算力芯片的生态突围与算力革命

    据的爆发式增长,大算力芯片已成为科技竞争的核心领域之一。   大算力芯片的核心应用场景丰富多样。在人工智能训练与推理方面,大模型(如 GPT、Llama)的训练需要超大规模算力(例如千亿参数级),通常依赖 GPU(如 NVIDIA
    的头像 发表于 04-13 00:02 2607次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI       美国加利福尼亚州圣何塞 —— GTC  —— 2025 年 3 月 18 日
    发表于 03-19 15:24 469次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业加速代理式 <b class='flag-5'>AI</b> 推理

    NVIDIA 与行业领先的存储企业共同推出面向 AI 时代的新型企业基础设施

    3 月 18 日 —— NVIDIA 今日推出NVIDIA AI 数据平台 —— 一项可自定义的参考设计,领先的存储提供商可用来构建全
    发表于 03-19 10:11 413次阅读
    <b class='flag-5'>NVIDIA</b> 与行业领先的存储企业共同<b class='flag-5'>推出</b>面向 <b class='flag-5'>AI</b> 时代的新型企业基础设施

    英伟达A100H100比较

    英伟达A100H100都是针对高性能计算和人工智能任务设计的GPU,但在性能和特性上存在显著差异。以下是对这两款GPU的比较: 1. 架构与核心规格: A100: 架构: 基于Ampere架构
    的头像 发表于 02-10 17:05 1.1w次阅读
    英伟达A<b class='flag-5'>100</b>和<b class='flag-5'>H100</b>比较

    晶科鑫SJK晶振在不同领域的应用

    在科技时代,高性能芯片的需求日益增长。据《财富》杂志报道,Cerebras Systems推出WSE-3 AI
    的头像 发表于 02-07 18:03 870次阅读

    NVIDIA推出个人AI超级计算机Project DIGITS

    NVIDIA 推出个人 AI 超级计算机 NVIDIA Project DIGITS,全球的 AI 研究员、数据科学家和学生都可获取
    的头像 发表于 01-08 11:03 1159次阅读

    NVIDIA推出面向RTX AI PC的AI基础模型

    NVIDIA 今日发布能在 NVIDIA RTX AI PC 本地运行的基础模型,为数字人、内容创作、生产力和开发提供强大助力。
    的头像 发表于 01-08 11:01 870次阅读

    NVIDIA推出多个生成式AI模型和蓝图

    NVIDIA 宣布推出多个生成式 AI 模型和蓝图,将 NVIDIA Omniverse 一体化进一步扩展至物理 AI 应用,如机器人、自动
    的头像 发表于 01-08 10:48 1022次阅读

    联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

    联发科近日宣布与NVIDIA合作设计NVIDIA GB10 Grace Blackwell超级芯片,将应用于NVIDIA 的个人AI超级计算
    的头像 发表于 01-07 16:26 829次阅读

    NVIDIA 推出高性价比的生成式 AI 超级计算机

    Jetson Orin Nano Super 可将生成式 AI 性能提升至1.7 ,支持科技爱好者、开发者和学生使用的主流模型。     NVIDIA 推出了一款全新的尺寸小巧的生成
    发表于 12-18 17:01 948次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>推出</b>高性价比的生成式 <b class='flag-5'>AI</b> 超级计算机