0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Cerebras Systems宣布推出有史以来最大的芯片Wafer Scale Engine

M8kW_icbank 来源:半导体行业观察 2019-12-10 14:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

昨天,初创公司Cerebras Systems宣布推出有史以来最大的芯片Wafer Scale Engine(WSE)。

据悉,WSE拥有1.2万亿个晶体管,这是一个什么概念呢?比较一下,1971年英特尔首款4004处理器拥有2300个晶体管,最近,AMD推出的最新处理器拥有320亿个晶体管。由此可见WSE规模之庞大。

大多数芯片是在12英寸硅晶圆上制造的,并在芯片工厂中批量处理。但Cerebras Systems芯片是在单个晶圆上通过互联实现的单芯片。这些互连设计使其全部保持高速运行,可使万亿个晶体管全部一起工作。

Cerebras Wafer Scale Engine专门针对处理人工智能应用程序而设计的。该公司本周正在加利福尼亚州帕洛阿尔托的斯坦福大学举行的Hot Chips会议上讨论这项设计。

此前,三星已经制造了一个闪存芯片,即eUFS,拥有2万亿个晶体管。但Cerebras芯片拥有400,000个核心,42,225平方毫米。它比最大的Nvidia图形处理单元大 56.7倍,该单元的尺寸为815平方毫米和211亿个晶体管。

与传统芯片相比,WSE还包含3000倍的高速片上存储器,并且具有10000倍的存储器带宽。

该芯片来自Andrew Feldman领导的团队,后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给了AMD。

芯片尺寸在AI中非常重要,因为大芯片可以更快地处理信息,在更短的时间内产生答案。减少训练时间,使研究人员能够测试更多想法,使用更多数据并解决新问题。谷歌,Facebook,OpenAI,腾讯,百度和许多专业人士都认为,今天人工智能的主要限制是训练需要很长时间。因此,缩短训练时间就消除了整个行业进步的主要瓶颈。

当然,芯片制造商通常不会制造如此大的芯片。在单个晶圆上,在制造过程中通常会产生一些杂质,杂质会导致芯片发生故障。如果晶圆上只有一个芯片,它有杂质的几率是100%,杂质会使芯片失效。但Cerebras设计的芯片是有冗余的,因此一种杂质不会破坏整个芯片。

WSE有很多创新,通过解决限制芯片尺寸的数十年的技术挑战 - 例如交叉光罩连接,良率,功率输送,以及封装等,Cerebras Systems首席执行官费尔德曼说。“每个架构决策都是为了优化AI工作的性能。结果是,Cerebras WSE根据工作量提供了数百或数千倍于现有解决方案的性能,只需很小的功耗和空间。“

WSE通过加速神经网络训练的所有元素来实现这些性能提升。神经网络是多级计算反馈回路。较快的输入在循环中移动,循环学习的速度越快,从而减少了训练时间。

Linley Group首席分析师Linley Gwennap在一份声明中说:“Cerebras凭借其晶圆级技术实现了巨大的飞跃,在单片晶圆上实现了更多的处理性能。” 为了实现这一壮举,该公司已经解决了一系列工程难题,包括实施高速芯片到芯片通信,解决制造缺陷,封装如此大的芯片,以及电源和冷却等问题。通过将各种学科的顶级工程师聚集在一起,Cerebras在短短几年内创造了新技术并交付了产品。

据悉,该芯片面积比最大的GPU多56.7倍,Cerebras WSE提供更多内核进行计算,更多内存靠近内核,因此内核可以高效运行。由于这些大量的内核和内存位于单个芯片上,因此所有通信都在芯片内进行,这意味着它的低延迟通信带宽是巨大的,因此内核组可以以最高效率进行协作。

Cerebras WSE中的46,225平方毫米的硅包含400,000个AI优化,无缓存,无开销的计算内核和18千兆字节的本地、分布式、超高速SRAM内存,内存带宽为每秒9 PB。这些内核通过细粒度、全硬件、片上网状连接通信网络连接在一起,可提供每秒100 petabits的总带宽。更多内核,更多本地内存和低延迟高带宽结构共同构成了加速AI工作的最佳架构。

更多核心

WSE包含400,000个AI优化的计算核心。被称为稀疏线性代数核心的SLAC,计算核心灵活、可编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法

由于稀疏线性代数核心针对神经网络计算基元进行了优化,因此它们可实现最佳利用率 - 通常是GPU的三倍或四倍。此外,WSE核心包括Cerebras发明的稀疏性收集技术,以加速稀疏工作负载(包含零的工作负载)的计算性能,如深度学习

零在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是零。然而,乘以零是浪费硅、功率和时间,因为没有新的信息。

因为GPU和张量处理单元是密集的执行引擎 - 设计为永不遇到零的引擎 - 它们即使在零时也会乘以每个元素。当50%-98%的数据为零时,如深度学习中的情况一样,大多数乘法都被浪费了。由于Cerebras稀疏线性代数核不会乘以零,所有零数据都会被滤除,并且可以在硬件中跳过。

存储

内存是每个计算机体系结构的关键组件。更接近计算的内存转换为更快的计算,更低的延迟和更好的数据移动功效。高性能深度学习需要大量计算,并且频繁访问数据。这需要计算核心和存储器之间的紧密接近,这在GPU中并非如此,其中绝大多数存储器是很缓慢的,且在片外。

Cerebras Wafer Scale Engine包含更多内核,具有比迄今为止任何芯片更多的本地内存,并且在一个时钟周期内可以通过其核心访问18GB的片上内存。WSE上的核心本地内存集合可提供每秒9PB的内存带宽 - 比领先的图形处理单元多3,000倍的片上内存和10,000倍的内存带宽。

通信

Swarm通信结构是WSE上使用的处理器间通信结构,它可以传统通信技术的功耗的一小部分实现突破性带宽和低延迟。Swarm提供低延迟、高带宽的2D网格,可连接WSE上的所有400,000个核心,每秒带宽为100 petabits。

路由方面,Swarm为每个神经网络提供独特的优化通信路径。软件根据正在运行的特定用户定义的神经网络结构,配置通过400,000个核心的最佳通信路径以连接处理器。

Cerebras WSE的总带宽为每秒100 petabits。不需要诸如TCP / IP和MPI之类的通信协议支持,因此避免了它们的性能损失。该架构中的通信能量成本远低于每比特1焦耳,这比GPU低近两个数量级。通过结合大量带宽和极低的延迟,Swarm通信结构使Cerebras WSE能够比任何当前可用的解决方案更快地学习。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54389

    浏览量

    469054
  • 晶体管
    +关注

    关注

    78

    文章

    10436

    浏览量

    148552
  • Systems
    +关注

    关注

    0

    文章

    28

    浏览量

    20958

原文标题:反其道而行,世界最大芯片诞生

文章出处:【微信号:icbank,微信公众号:icbank】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Melexis宣布推出免代码三相风扇驱动芯片MLX80339

    Melexis宣布推出免代码三相风扇驱动芯片MLX80339,旨在为全球市场提供高效、低噪声的电机控制方案。MLX80339内置可通过简洁界面进行配置的预验证电机控制逻辑,无需进行繁琐的软件开发即可快速部署无刷直流(BLDC)电
    的头像 发表于 04-07 09:50 1091次阅读

    马斯克拟建全球最大芯片厂,进军2nm芯片制造!

    3月22日,马斯克宣布SpaceX、特斯拉携手人工智能公司xAI,正在建设史上规模最大芯片制造工厂“Terafab”,这是私营公司计划的最大半导体制造业务之一。
    的头像 发表于 03-25 16:14 381次阅读

    是德科技推出一系列全新Scale-up验证解决方案

    是德科技(NYSE: KEYS )推出一系列全新Scale-up验证解决方案,旨在帮助人工智能数据中心运营商应对计算集群日益密集复杂化过程中不断加剧的带宽、延迟及互操作性挑战。 该解决方案支持新兴
    的头像 发表于 03-06 10:01 619次阅读
    是德科技<b class='flag-5'>推出</b>一系列全新<b class='flag-5'>Scale</b>-up验证解决方案

    Power Integrations推出新款SCALE-iFlex LT门极驱动器

    Power Integrations的SCALE-iFlex LT即插即用型门极驱动器系统设计用来优化功率模块的并联运行,现已提供光纤接口选项。该新功能增强了系统对电磁干扰(EMI)的抗扰能力,并为储能系统和轨道交通辅助变换器的机械布局提供了更大的灵活性。
    的头像 发表于 02-28 09:41 344次阅读
    Power Integrations<b class='flag-5'>推出</b>新款<b class='flag-5'>SCALE</b>-iFlex LT门极驱动器

    Credo发布新品Blue Heron 224G AI Scale-Up Retimer芯片

    发布新品:Blue Heron 224G AI Scale‑Up Retimer芯片,该产品针对需求日益攀升的线缆与 PCB 背板连接应用进行专门优化,全面支持 UALink、ESUN 与以太网协议。
    的头像 发表于 02-06 15:32 619次阅读

    DSP717HF Wafer植球锡膏重磅推荐

    在先进封装工艺不断升级的背景下,植球材料的稳定性、精度与洁净度,正成为影响良率的关键因素。东莞市大为新材料技术有限公司推出高性能Wafer植球锡膏——DSP717HF,为高端封装提供可靠国产化
    的头像 发表于 02-05 14:17 554次阅读
    DSP717HF <b class='flag-5'>Wafer</b>植球锡膏重磅推荐

    THine发布无光学DSP芯片组,赋能下一代Scale-Up型AI网络“Slow and Wide”互联

    全球领先的无晶圆厂半导体供应商 THine Electronics, Inc.(东京证券交易所代码:6769,简称 “THine”)今日宣布,正式推出采用自主研发 ZERO EYE SKEW® 技术
    的头像 发表于 02-04 16:26 349次阅读

    基于Vitis Model Composer完成全流程AI Engine开发

    基于Vitis Model Composer进行AI Engine(AIE)开发,核心优势体现在AIE专属优化、开发流程简化、灵活的适配性、高效验证及量产适配等方面。
    的头像 发表于 12-31 11:20 6305次阅读
    基于Vitis Model Composer完成全流程AI <b class='flag-5'>Engine</b>开发

    IBM Storage Scale System 6000焕新升级

    没有数据的 AI 工厂就像没有燃料的引擎,根本无法运转。IBM Storage Scale System 6000 的全局命名空间和 Active File Management (AFM) 功能
    的头像 发表于 11-30 09:12 772次阅读

    谷歌与耶鲁大学合作发布最新C2S-Scale 27B模型

    我们很荣幸发布与耶鲁大学合作研究的 Cell2Sentence-Scale 27B (C2S-Scale),这是一个新的 270 亿参数基础模型,旨在理解单个细胞的 "语言"。C2S-Scale 建立在 Gemma 开放模型系列
    的头像 发表于 11-06 10:35 999次阅读

    Vicor携手Microgate打造全球最大地面光学望远镜

    在智利沙漠的中心 Cerro Armazones 山上,美国公司 Vicor 和意大利公司 Microgate 这两家技术领导者正在携手打造有史以来最大的地面光学望远镜 —— 极大望远镜 (ELT)。得益于高密度电源系统和革命性的自适应光学技术,这一工程壮举有望以前所未有
    的头像 发表于 09-26 14:01 896次阅读

    NVIDIA推出Spectrum-XGS以太网技术

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太网。这项跨区域扩展(scale-across)技术可将多个分布式数据中心组合成一个十亿瓦级 AI 超级工厂。
    的头像 发表于 08-27 12:51 1467次阅读

    比亚迪上市以来最大分红 豪掷120亿

    ,比亚迪将拿出 120 亿元回报股东。这是比亚迪上市以来最大分红金额。 公告显示,比亚迪 在2024 年度的权益分派方案为:公司以总股本 3,039,065,855 股为基数(其中 A 股 1,811,265,855 股,H 股 1,227,800,000 股),向全体
    的头像 发表于 07-28 16:51 861次阅读

    ipa干燥wafer原理

    IPA干燥晶圆(Wafer)的原理主要基于异丙醇(IPA)的物理化学特性,通过蒸汽冷凝、混合置换和表面张力作用实现晶圆表面的高效脱水。以下是其核心原理和过程的分步解释: 1. IPA蒸汽与水分的混合
    的头像 发表于 06-11 10:38 2759次阅读

    wafer清洗和湿法腐蚀区别一览

    在半导体制造中,wafer清洗和湿法腐蚀是两个看似相似但本质不同的工艺步骤。为了能让大家更好了解,下面我们就用具体来为大家描述一下其中的区别: Wafer清洗和湿法腐蚀是半导体制造中的两个关键工艺
    的头像 发表于 06-03 09:44 1025次阅读