0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI初出企业Cerebras已申请IPO!称发布的AI芯片比GPU更适合大模型训练

Carol Li 来源:电子发烧友 作者:李弯弯 2024-06-26 00:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)近日,据外媒报道,研发出世界最大芯片的明星AI芯片独角兽Cerebras Systems已向证券监管机构秘密申请IPO。

Cerebras成立于2016年,总部在美国加州,专注于研发比GPU更适用于训练AI模型的晶圆级芯片,为复杂的AI应用构建计算机系统,并与阿布扎比科技集团G42等机构合作构建超级计算机。基于其最新旗舰芯片构建的服务器可轻松高效地训练万亿参数模型。

Cerebras已发布第三代AI芯片

技术实力方面,Cerebras公司采用独特的晶圆级集成技术,将整片晶圆作为一个单独的芯片来使用,实现了前所未有的集成度和性能。这种技术使得Cerebras的AI芯片在晶体管数量、计算能力和内存带宽等方面均达到了业界领先水平。

Cerebras的AI芯片具有强大的计算能力,能够支持训练业界最大的AI模型,包括参数规模高达数十万亿个的模型。这种高性能计算能力使得研究人员能够更快地测试想法、使用更多数据并解决新问题。

Cerebras的AI芯片采用了先进的通信架构,实现了全局性的低延迟、高带宽通信。这种通信架构使得多个Cerebras芯片之间能够高效地进行数据传输和协作,进一步提升了AI应用的性能。

产品方面,Cerebras的核心产品线WSE(Wafer Scale Engine)系列已经过更新三代。2019年8月,Cerebras发布第一颗芯片WSE,WSE作为Cerebras标志性产品,是史上最大的AI芯片之一。其设计突破了传统半导体制造的界限,采用了独特的晶圆级集成(Wafer-Scale Integration, WSI)技术,将整个晶圆作为一个单独的芯片来使用,这在当时是前所未有的。

这颗芯片采用台积电16nm制程,在46225mm²面积上集成了40万个AI核心和1.2万亿颗晶体管。同时,该芯片配备了18GB的片上静态随机存取存储器(SRAM),这一容量远大于大多数芯片的片外存储(DDR)。带宽达到100Pb/s(1Pb=1000TB),这一数值比现有芯片的相关参数高出一个单位(3个数量级)。

2021年,Cerebras推出第二代芯片WSE-2,搭载WSE-2芯片的AI超算系统CS-2也同期发布。WSE-2在继承了WSE的晶圆级集成技术的基础上,进一步提升了制程工艺和性能,成为当时业界领先的AI芯片之一。该芯片采用台积电7nm制程,相较于前代产品WSE的16nm工艺,进一步缩小了晶体管的尺寸,提高了集成度。与WSE相同,WSE-2也采用了整片晶圆作为单一芯片,面积约为462255mm²。晶体管数量达到了创纪录的2.6万亿个,相较于WSE的1.2万亿个晶体管,实现了翻倍的增长。

WSE-2集成了85万个专为AI应用优化的稀疏线性代数计算(SLAC)核心,相较于WSE的40万个核心,有了显著的提升。片上内存提升至40GB,相较于WSE的18GB,增加了近一倍。内存带宽高达20PB/s,相较于WSE的9PB/s,也有了显著的提升。

今年3月,Cerebras推出了第三代晶圆级芯片WSE-3和AI超级计算机CS-3。WSE-3采用台积电5nm制程,有90万个AI核心和4万亿颗晶体管。配备了44GB的片上SRAM缓存,相较于前代产品有了显著提升。这一大容量片上内存能够支持更大规模的AI模型训练,无需进行分区或重构,大大简化了训练工作流程。WSE-3的内存带宽高达21PB/s,峰值AI算力高达125 PetaFLOPS,相当于每秒能够执行12.5亿亿次浮点计算。

Cerebras 的AI芯片被认为更适合大模型训练

Cerebras的芯片被认为比GPU更适合用于大模型训练。其WSE系列芯片具有庞大的规模和惊人的性能。例如,WSE-3拥有超过4万亿个晶体管和46225mm²的硅片面积,堪称全球最大的AI芯片。与之相比,传统GPU的规模和性能通常较小。Cerebras的芯片能够在单个设备上容纳和训练比当前热门模型大得多的下一代前沿模型。

Cerebras的芯片搭载了大量的核心和内存。例如,WSE-3拥有900,000个核心和44GB内存,这使得它能够同时处理大量的数据和计算任务。传统GPU的核心数量和内存通常较小,可能需要多个GPU协同工作才能达到类似的性能。

Cerebras采用了片上内存的设计,这意味着内存和计算核心都在同一个芯片上,从而大大减少了数据传输的开销和延迟。相比之下,传统GPU的内存和计算核心是分离的,需要通过PCIe等接口进行数据传输,这可能导致性能瓶颈和延迟。

Cerebras的CS-3系统是基于WSE-3推出的,具备强大的系统支持。该系统拥有高达1.2PB的内存容量,能够训练比GPT-4和Gemini模型大10倍的下一代前沿模型。在大模型训练中,Cerebras的CS-3系统相较于GPU具有更低的代码复杂性和更高的易用性。开发人员可以更加高效地实现和训练大模型。

Cerebras的芯片通过保持整个晶圆的完整性来降低互连和网络成本以及功耗。这使得Cerebras的芯片在功耗和成本方面相较于多个GPU协同工作具有优势。

今年4月,Cerebras发文比较Cerebras CS-3与英伟达B200,称CS-3和英伟达DGX B200是2024年上市的两款最令人兴奋的AI硬件新品。从对比数据来看,无论AI训练性能还是能效,CS-3都做到倍杀DGX B200。

wKgZomZ6l4uAM3yGAAHe43y7_Gk033.png

写在最后

目前,AI大模型训练基本离不开GPU的支持,Cerebras发布的WSE系列芯片,给业界带来了新的思路,尤其是其今年发布的第三代产品WSE-3,能够支持训练业界最大的AI模型,包括参数规模高达24万亿个的模型。如果其能够顺利上市,一是对于其自身后续发展更有利,二是对于英伟达来说它可能会成长为一个较大的竞争对手。







声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5100

    浏览量

    134473
  • ipo
    ipo
    +关注

    关注

    1

    文章

    1271

    浏览量

    34643
  • AI芯片
    +关注

    关注

    17

    文章

    2065

    浏览量

    36570
  • 大模型
    +关注

    关注

    2

    文章

    3446

    浏览量

    4972
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    持续发展体现在: 1、收益递减 大模型的基础的需要极大的算力,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。 收益递减体现在: ①模型大小 ②
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型边缘部署 3、智能手机AI芯片 3.1概述 智能手机中最大的一块芯片就是应用处理器(AP)。AP中集成了CPU、GPU
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于
    发表于 09-12 16:07

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI云的转型。AI工厂依赖超大规模
    发表于 08-13 19:01

    Cognizant加速AI模型企业级开发

    -Cognizant推出AI Training Data Services,助力企业AI模型加速开发 Cognizant是数据与AI
    的头像 发表于 07-31 17:25 594次阅读

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    计算等类别AI芯片的及时、全面而富有远见的书。” 那么时至今日,这个世界发生了什么变化呢? 在这四年间,最重大的技术变革无疑就是大模型的横空出世,人类的时间仿佛被装上了加速器,从ChatGPT到
    发表于 07-28 13:54

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型模型升级AI摄像机,进行
    发表于 04-28 11:11

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    应用开发不用“等平台”,彻底释放开发效率和模型接入自由度。 自DeepSeek横空出世以来,这种更适合端侧部署,回答效率更高效的训练模式快速引爆了AI行业,主流大
    发表于 04-13 19:52

    摩尔线程GPU原生FP8计算助力AI训练

    并行训练和推理,显著提升了训练效率与稳定性。摩尔线程是国内率先原生支持FP8计算精度的国产GPU企业,此次开源不仅为AI
    的头像 发表于 03-17 17:05 1218次阅读
    摩尔线程<b class='flag-5'>GPU</b>原生FP8计算助力<b class='flag-5'>AI</b><b class='flag-5'>训练</b>

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    GPU是如何训练AI模型

    AI模型训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解
    的头像 发表于 12-19 17:54 1344次阅读

    亚马逊转向Trainium芯片,全力投入AI模型训练

    ,亚马逊AWS推出了两款芯片:Inferentia和Trainium。其中,Inferentia主要用于AI推理,而Trainium则专注于AI模型
    的头像 发表于 12-13 14:14 964次阅读