电子发烧友网报道(文/周凯扬)从最近英伟达公布的财报中就可以看出,AI应用的火热使其赚得盆满钵满,原本就在AI软硬件生态称王的英伟达,现今更是如日中天。而这样的处境也让不少AI芯片初创公司不好过,他们的产品有的还没落地,有的则难以与A100、H100这样的产品匹敌。这几年沉寂下去的AI芯片初创公司着实不少,但还是有的厂商敢于继续往这个市场里钻。
水平扩展性的限制
随着AI/ML的模型越来越大,甚至是以5年内翻4万倍的速度提升,要想在硬件上跟上软件进度已经越来越难了。可即便如此,从16nm到4nm,从低精度到脉动阵列,都给了我们巨大的优势去追随这些大模型。
但运行这些大模型终究不是靠单个芯片的力量,而是整个规模集群需要面临的问题,所以这就牵扯到了水平扩展性。工艺制程的提高带来了5倍的性能提升,芯片架构带来了14倍的性能提升,而水平扩展则要实现600倍的性能提升,才能满足未来的AI/ML计算要求。这也就是目前AI计算存在的问题,大模型往往需要更大的内存、更高的算力和更大的带宽,随着设备数量越多,这三大硬件要求的分配复杂程度就变得越来越高。
比如在GPU上就已经尝试了不少并行扩展方案,比如数据并行、流水线模型并行或张量模型并行等,但以上方案往往都会受到内存、带宽和参数量的限制,并没有单一通用的解决方案,大模型往往需要同时结合这三种方案,所以扩展效率不高。AI芯片公司Cerebras则想出了一个在大规模集群下提高水平扩展性的解决方案。
Cerebras的WSE
要说在AI芯片的初创公司里,走着独立无二路线的公司,Cerebras绝对能排得上名号。2019年,他们推出了WSE,一个晶圆大小的AI处理器,到了2021年,他们又推出了第二代的WSE-2,采用更先进的工艺将单个处理器的核心数推进至85万核。而这次Hot Chips上,他们则展示了用于对抗英伟达的解决方案。

WSE-2与GPU大小对比 / Cerebras
Cerebras选择了将内存和计算解耦的方案,利用内存扩展技术MemoryX,将模型权重存储在外部,然后将权重传输给WSE-2组成的CS-2系统,CS-2再将梯度传给外部存储。Cerebras还打造了一个互联方案SwarmX,用于连接多个CS-2系统,从而提高扩展性。
以Cerebras搭建的Andromeda超算为例,该超算由16个CS-2系统组成,拥有1350万个AI优化核心,稀疏算力高达1ExaFLOPs,稠密算力高达120PetaFLOPs。在这样强大的算力下,训练大模型只要几周的时间。而且在Cerebras不同规模的集群上,不同参数的大模型可以共享同样的代码,以同样的方式训练,省去了不少开发时间。
除了Andromeda以外,Cerebras也已经开始了下一个AI超算的部署,由64个CS-2系统组成的Condor Galaxy 1,该超算的算力将扩展至4ExaFLOPs的稀疏算力。而Condor Galaxy 1名字后的1,也意味着这仅仅是单个超算中心所用的系统而已,未来他们计划在2024年底之前扩展为9个超算中心,分布在美国各地,构建最大的分布式超算网络,总算力高达36ExaFLOPs,是英伟达Israel-1超算的9倍,是谷歌最大TPUv4集群的4倍。
写在最后
单从扩展性和性能的角度来看,Cerebras确实已经做到了一个新的高度。但对于购置这些GPU或AI芯片的云服务或互联网公司来说,GPU或许是一个更加通用的资源,在AI技术日新月异的当下,GPU总能凭借自己的软硬件生态快速找到自己的一席之地,并在高性能的王座上稳坐一段时间。这也就是AI爆款应用的市场导向决定的了,性能固然重要,但抢占先机才是最关键的一环。
水平扩展性的限制
随着AI/ML的模型越来越大,甚至是以5年内翻4万倍的速度提升,要想在硬件上跟上软件进度已经越来越难了。可即便如此,从16nm到4nm,从低精度到脉动阵列,都给了我们巨大的优势去追随这些大模型。
但运行这些大模型终究不是靠单个芯片的力量,而是整个规模集群需要面临的问题,所以这就牵扯到了水平扩展性。工艺制程的提高带来了5倍的性能提升,芯片架构带来了14倍的性能提升,而水平扩展则要实现600倍的性能提升,才能满足未来的AI/ML计算要求。这也就是目前AI计算存在的问题,大模型往往需要更大的内存、更高的算力和更大的带宽,随着设备数量越多,这三大硬件要求的分配复杂程度就变得越来越高。
比如在GPU上就已经尝试了不少并行扩展方案,比如数据并行、流水线模型并行或张量模型并行等,但以上方案往往都会受到内存、带宽和参数量的限制,并没有单一通用的解决方案,大模型往往需要同时结合这三种方案,所以扩展效率不高。AI芯片公司Cerebras则想出了一个在大规模集群下提高水平扩展性的解决方案。
Cerebras的WSE
要说在AI芯片的初创公司里,走着独立无二路线的公司,Cerebras绝对能排得上名号。2019年,他们推出了WSE,一个晶圆大小的AI处理器,到了2021年,他们又推出了第二代的WSE-2,采用更先进的工艺将单个处理器的核心数推进至85万核。而这次Hot Chips上,他们则展示了用于对抗英伟达的解决方案。

WSE-2与GPU大小对比 / Cerebras
Cerebras选择了将内存和计算解耦的方案,利用内存扩展技术MemoryX,将模型权重存储在外部,然后将权重传输给WSE-2组成的CS-2系统,CS-2再将梯度传给外部存储。Cerebras还打造了一个互联方案SwarmX,用于连接多个CS-2系统,从而提高扩展性。
以Cerebras搭建的Andromeda超算为例,该超算由16个CS-2系统组成,拥有1350万个AI优化核心,稀疏算力高达1ExaFLOPs,稠密算力高达120PetaFLOPs。在这样强大的算力下,训练大模型只要几周的时间。而且在Cerebras不同规模的集群上,不同参数的大模型可以共享同样的代码,以同样的方式训练,省去了不少开发时间。
除了Andromeda以外,Cerebras也已经开始了下一个AI超算的部署,由64个CS-2系统组成的Condor Galaxy 1,该超算的算力将扩展至4ExaFLOPs的稀疏算力。而Condor Galaxy 1名字后的1,也意味着这仅仅是单个超算中心所用的系统而已,未来他们计划在2024年底之前扩展为9个超算中心,分布在美国各地,构建最大的分布式超算网络,总算力高达36ExaFLOPs,是英伟达Israel-1超算的9倍,是谷歌最大TPUv4集群的4倍。
写在最后
单从扩展性和性能的角度来看,Cerebras确实已经做到了一个新的高度。但对于购置这些GPU或AI芯片的云服务或互联网公司来说,GPU或许是一个更加通用的资源,在AI技术日新月异的当下,GPU总能凭借自己的软硬件生态快速找到自己的一席之地,并在高性能的王座上稳坐一段时间。这也就是AI爆款应用的市场导向决定的了,性能固然重要,但抢占先机才是最关键的一环。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
AI
+关注
关注
89文章
38120浏览量
296662 -
英伟达
+关注
关注
23文章
4040浏览量
97673
发布评论请先 登录
相关推荐
热点推荐
英伟达重磅杀入Arm AI PC,N1X芯片跑分曝光!结果比较意外
电子发烧友网报道(文/黄山明)如今我们正处于信息时代迈入AI时代的过渡期,而作为AI时代最大的“卖铲人”,英伟达算是吃尽了时代的红利。不仅将公司
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战
的我我们讲解了这几种芯片的应用场景,设计流程、结构等。
CPU:
还为我们讲解了一种算法:哈希表算法
GPU:
介绍了英伟达H100GPU芯片。使用了一下关键技术:
①张量
发表于 09-12 16:07
外媒:英伟达正开发新款中国特供芯片B30A 或为旗舰AI芯品B300的阉割版
;或为旗舰AI芯品B300的阉割版 ;估计性能只有B300的50%--70%。 据外媒路透社报道,为了中国市场;英伟达正在加速研发基于最新Blackwell架构的AI
特朗普要叫停英伟达对华特供版 英伟达H20出口限制 或损失55亿美元
是“中国特供版”人工智能芯片;是英伟达公司为符合美国出口规定专门为中国市场开发的定制芯片,H20芯片
英伟达、高通布局AI投资版图,这些明星企业被收入囊中!
的模型并不会减少芯片的需求,相反,未来的计算需求只会增加,尤其是对计算基础设施的需求。 英伟达也在利用其雄厚的资金大幅增加了对各种初创公司的
IBM携手英伟达AI数据平台推动企业级AI创新
近日,IBM(纽约证券交易所:IBM)宣布与英伟达(纳斯达克股票代码:NVDA)开展全新合作,双方将基于英伟达 AI 数据平台参考架构(re
发表于 03-24 19:20
•415次阅读
新思科技携手英伟达加速芯片设计,提升芯片电子设计自动化效率
解决方案在英伟达 GPU和英伟达 CUDA-X库上所实现的加速 基于英伟达 GB200 Grac
发表于 03-19 17:59
•437次阅读
英伟达Blackwell芯片机架出现故障 订单下滑
Blackwell GB200机架订单。 一些客户正在等待改进版本的机架,或者计划购买该公司旧款的AI芯片。 微软最初计划在其位于凤凰城的一家工厂中安装至少5万块Blackwell芯片
英伟达组建ASIC团队,挖掘台湾设计服务人才
英伟达自2024年中旬起,便开始了从台湾地区半导体公司挖掘设计服务人才的行动。这一系列举措旨在组建自家的ASIC(专用集成电路)团队,以在现有的Tensor Core GPU之外,开辟一条全新的
苹果加速AI芯片研发,或终结与英伟达合作关系
近日,苹果公司正全力以赴地推进自研AI芯片的研发进程,旨在减少对于第三方芯片开发商的依赖。这一举措可能预示着,苹果与英伟
微软大手笔采购英伟达AI芯片
据全球知名市场调研机构Omdia的最新估计,微软在2024年的英伟达Hopper架构芯片采购计划上展现出了惊人的手笔。这一举动旨在帮助微软在构建下一代人工智能(AI)系统的激烈竞争中抢

英伟达愈发强势,AI芯片初创公司仍不服输
评论