0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

业界再一次出现对晶圆级处理器的商业尝试

M8kW_icbank 来源:半导体行业观察 2019-12-10 14:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

日前,在斯坦福大学举行的IEEE Hot Chips研讨会上,创业公司Cerebras推出了有史以来最大的芯片。按照他们的说法,这个大致是硅晶片尺寸的系统旨在将AI训练时间从几个月缩短到几分钟。

这是自二十世纪八十年代Trilogy Systems任务失败以来,业界再一次出现对晶圆级处理器的商业尝试。

下面,我们来谈一下有关这个芯片,你必须知道的六点::

数据

作为有史以来最大的芯片,Cerebras的Wafer Scale Engine(WSE)自然带有一堆最高级的。这是当中的一部分:

尺寸:46,225平方毫米。这大约是一张信纸大小的纸张的75%,但却是最大GPU的56倍。

晶体管:1.2万亿。Nvidia的GV100 Volta仅为21亿。

处理器核心:400,000。而GV100只有5,660。

内存:18千兆字节的片上SRAM,大约是GV100的3000倍。

内存带宽:每秒9 PB。据Cerebras称,这是我们最喜欢的GPU的10,000倍。

你为什么需要这个怪物?

Cerebras在其白皮书中提出了一个非常好的案例,为什么这么大的芯片有意义。

基本上,该公司认为,训练深度学习系统和其他人工智能系统的需求已经失控。该公司表示,训练将出现一种新模式——创建一个这样的系统,那就是一旦经过训练,就可以识别人或赢得Go游戏。但这在过去需要花费数周或数月的时间,并耗费数十万美元的计算时间。这个成本意味着实验的空间很小,这会扼杀新的想法和创新。

这家公司的答案是,全世界需要更多,更便宜的训练计算资源。而训练也需要几分钟而不是几个月,为此,您需要更多内核,更多靠近这些内核的内存,以及内核之间的低延迟,高带宽连接。

这些目标将对AI行业中的每个人造成影响。但是Cerebras也承认,这个想法推向了它的逻辑极端。一块大芯片为处理器内核和需要依赖它的内存提供了更多的硅片面积。只有当数据永远不必离开芯片上的短而密集的互连时,才能实现高带宽,低延迟的连接。因此这也是他们打造这样一个大芯片的原因。

在这400,000个内核中有什么?

根据该公司的说法,WSE的内核专门用于人工智能,但仍然具有可编程性,那就意味着该芯片并不会仅仅被限定在AI当中。这就是他们所谓的稀疏线性代数(Sparse Linear Algebra:SLA)核心。这些处理单元专门用于“人工智能”工作的“张量”操作,但它们还包括一项减少工作的功能,特别是对于深度学习网络。据该公司称,深度学习训练集中所有数据的50%至98%为zero。因此,非零数据“Sparse ”。

SLA核心通过简单地不将任何东西乘以零来减少工作量。内核具有内置的数据流元素,可以根据数据触发计算操作,因此当数据遇到零时,不会浪费时间。

他们是怎么做到的?

Cerebras庞大的单芯片背后的基本理念已经存在了几十年,但它也是不切实际的。

早在20世纪80年代,并行计算的先驱 Gene Amdahl就制定了加速大型机计算的计划——硅片大小的处理器。换句话说,就是将大部分数据保留在处理器本身而不是将其通过电路板推送到存储器和其他芯片。这样的计算将更快且更节能。

借助从风险投资家手上拿到的2.3亿美金,Amdahl创立了Trilogy Systems,并实现了他的愿望。但我们不得不承认,“晶圆级整合”的第一次商业尝试是一场灾难,据当时报道,它成功地将动词“to crater”引入金融新闻词典。

最基本的问题是芯片越大,良率越差。从逻辑上讲,这应该意味着晶圆级芯片将无利可图,因为您的产品总会存在缺陷。Cerebras的解决方案是添加一定量的冗余。据EE Times称,Swarm通信网络具有冗余链路,让产品工作时可以绕过受损核心。据透露,当中大约有1%的核心是备用的。

Cerebras还必须解决一些关键的制造限制问题。例如,芯片工具设计用于将其特征定义图案投射到相对较小的矩形上,并在晶圆上完美地反复进行。由于在晶片上的不同位置铸造不同图案的成本和难度,仅此一点就会使许多系统不能构建在单个晶片上。

但WSE就像一个典型的晶圆,完全由相同的芯片组成,就像你通常制造的一样。最大的不同之处在于他们与台积电合作开发了一种方法,用于在芯片之间的空间建立连接,这个区域称为scribe lines。而这个空间通常留空,因为芯片沿着那些线切割。

根据Tech Crunch的说法,Cerebras还必须发明一种方法,为芯片提供15千瓦的电源和冷却系统,并创造新的连接器,以便在加热时处理它扩展的方式。

这是制作晶圆级计算机的唯一方法吗?

当然不是。例如,加利福尼亚大学洛杉矶分校和 Illinois Urbana-Champaign的团队正在研究一种类似的系统,该系统也构建了裸处理器并进行了测试,并将它们安装在已经图案化所需的密集互连网络的硅片上。这种称为硅互连结构的概念允许这些小芯片紧密相连(相隔100微米),这就使得芯片间通信接近单个芯片的特性。

“这是我们一直在进行验证的研究”,伊利诺伊大学的 Rakesh Kumar说。

Kumar认为硅互连结构方法与Cerebras的单片晶圆级方案相比具有一些优势。首先,它允许设计师混合和匹配技术,并为每个技术使用最佳制造工艺。单片方法意味着为最关键的子系统逻辑选择最佳的制程,并将其用于存储器和其他原件,即使不适合它们。

Kumar建议,在这种方法中,Cerebras可以限制它可以放在处理器上的内存量。“他们在晶圆上有18千兆位的SRAM。也许这对今天的某些型号来说已经足够了,但明天和后天的型号呢?“

什么时候出来?

据“财富”杂志报道,Cerebras9月份将会向客户发货首批系统。据EE Times称,部分系统已经收到原型。该公司计划在11月的超级计算大会上公布完整系统的结果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20149

    浏览量

    247243
  • 芯片
    +关注

    关注

    462

    文章

    53543

    浏览量

    459222
  • 晶体管
    +关注

    关注

    78

    文章

    10264

    浏览量

    146313

原文标题:对于这颗有史以来最大的芯片,这六点你需要知道!

文章出处:【微信号:icbank,微信公众号:icbank】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    纳米制造多层衍射光学处理器可实现单向可见光成像

    用于单向可见光成像的多层衍射光学处理器纳米制造。 加州大学洛杉矶分校萨缪利工程学院的研究人员与博通公司光学系统部门合作,报告了种宽
    的头像 发表于 12-02 07:38 20次阅读
    <b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>纳米制造多层衍射光学<b class='flag-5'>处理器</b>可实现单向可见光成像

    半导体行业转移清洗为什么需要特氟龙夹和花篮?

    在半导体芯片的精密制造流程中,片薄薄的硅片成长为百亿晶体管的载体,需要经历数百道工序。在半导体芯片的微米制造流程中,
    的头像 发表于 11-18 15:22 168次阅读
    半导体行业<b class='flag-5'>晶</b><b class='flag-5'>圆</b>转移清洗为什么需要特氟龙<b class='flag-5'>晶</b><b class='flag-5'>圆</b>夹和花篮?

    MOSFET的直接漏极设计

    本文主要讲述什么是芯粒封装中的分立式功率器件。 分立式功率器件作为电源管理系统的核心单元,涵盖二极管、MOSFET、IGBT等关键产品,在个人计算机、服务等终端设备功率密度需求
    的头像 发表于 09-05 09:45 2953次阅读
    <b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>MOSFET的直接漏极设计

    简单认识MEMS电镀技术

    MEMS电镀是种在微机电系统制造过程中,整个硅表面通过电化学方法选择性沉积金属微结构
    的头像 发表于 09-01 16:07 1915次阅读
    简单认识MEMS<b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>电镀技术

    封装:连接密度提升的关键

    了解封装如何进步提高芯片的连接密度,为后续技术发展奠定基础。
    的头像 发表于 06-27 16:51 540次阅读

    什么是扇出封装技术

    扇出封装(FO-WLP)通过环氧树脂模塑料(EMC)扩展芯片有效面积,突破了扇入型封装的I/O密度限制,但其技术复杂度呈指数增长。
    的头像 发表于 06-05 16:25 1962次阅读
    什么是<b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>扇出封装技术

    减薄对后续划切的影响

    完成后,才会进入封装环节进行减薄处理为什么要减薄封装阶段对
    的头像 发表于 05-16 16:58 983次阅读
    减薄对后续<b class='flag-5'>晶</b><b class='flag-5'>圆</b>划切的影响

    扇出型封装技术的工艺流程

    上 。这种创新的封装方式自苹果A10处理器采用后,在节约主板表面面积方面成效显著。根据线路和焊脚与芯片尺寸的关系,WLP分为Fanin WLP(线路和焊脚限定在芯片尺寸以内)和Fanout WLP(可扩展至芯片尺寸之外,甚至实现芯片叠层) 。
    的头像 发表于 05-14 11:08 2223次阅读
    扇出型<b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>封装技术的工艺流程

    封装工艺中的封装技术

    我们看下个先进封装的关键概念——封装(Wafer Level Package,WLP)。
    的头像 发表于 05-14 10:32 1441次阅读
    封装工艺中的<b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>封装技术

    封装技术的概念和优劣势

    封装(WLP),也称为封装,是种直接在
    的头像 发表于 05-08 15:09 1702次阅读
    <b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>封装技术的概念和优劣势

    制备工艺与清洗工艺介绍

    制备是材料科学、热力学与精密控制的综合体现,每环节均凝聚着工程技术的极致追求。而清洗本质是半导体工业与污染物持续博弈的缩影,每
    的头像 发表于 05-07 15:12 2050次阅读
    <b class='flag-5'>晶</b><b class='flag-5'>圆</b>制备工艺与清洗工艺介绍

    一次消谐装置与二消谐装置区别、一次消谐与二消谐的区别

    绕组,处理低电压信号。 功能侧重:一次消谐通过非线性电阻抑制铁磁谐振,限制中性点位移电压;二消谐通过检测谐振信号并触发晶闸管短路阻尼
    的头像 发表于 05-07 09:58 3213次阅读
    <b class='flag-5'>一次</b>消谐装置与二<b class='flag-5'>次</b>消谐装置区别、<b class='flag-5'>一次</b>消谐<b class='flag-5'>器</b>与二<b class='flag-5'>次</b>消谐<b class='flag-5'>器</b>的区别

    签约顶级封装厂,普莱信巨量转移技术掀起封装和板封装的技术革命

    经过半年的测试,普莱信智能和某顶级封装厂就其巨量转移式板封装设备(FOPLP)设备XBonder Pro达成战略合作协议,这将是巨量转移技术在IC封装领域第一次规模化的应用,将掀起
    的头像 发表于 03-04 11:28 1109次阅读
    签约顶级封装厂,普莱信巨量转移技术掀起<b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>封装和板<b class='flag-5'>级</b>封装的技术革命

    深入探索:封装Bump工艺的关键点

    随着半导体技术的飞速发展,封装(WLP)作为先进封装技术的重要组成部分,正逐渐成为集成电路封装的主流趋势。在
    的头像 发表于 03-04 10:52 4459次阅读
    深入探索:<b class='flag-5'>晶</b><b class='flag-5'>圆</b><b class='flag-5'>级</b>封装Bump工艺的关键点

    AMC1210对AMC1305进行数字抽取滤波,输出后的数据是否需要用处理器进行一次平均和移位处理

    进行一次平均和移位处理?(我们查看ADS1255它最后一级滤波有一级取平均值。而AMC1210没有。)下图为AMC1210滤波框图与ADS
    发表于 01-14 08:21