0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

史上最大芯片将用于这两个项目

汽车玩家 来源:今日头条 作者:今日头条 2019-11-25 16:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今年 8 月,集成 1.2 万亿个晶体管的“史上最大芯片”The Cerebras Wafer Scale Engine(以下简称 WSE)诞生,在 11 月 19 日召开的 Supercomputing 2019 大会上,该芯片制造公司 Cerebras Systems 推出了搭载该芯片的计算机系统————Cerebras CS-1,这也将是世界上最强大的 AI 计算系统。美国两家国家实验室是该公司的客户,其中,阿贡国家实验室已成功部署并宣布,将用这套系统来发现癌症疗法和理解黑洞碰撞。

图 | Cerebras CS-1(来源:Cerebras Systems)

CS-1 搭载的并不是一个芯片,而是一整个晶圆。通常,硅芯片是从 8、10 或 12 英寸等不同规格的晶圆上单独切下来的。而 Cerebras 把晶圆切割成一个很大的长方形,每个芯片都相互连接,可以使每个晶体管都能像整体一样高速运转。一个典型处理器可能在一个芯片上有 100 亿个晶体管,而 CS-1 搭载的整个晶片上所有核的晶体管总数超过 1.2 万亿个。

在 AI 计算中,芯片尺寸至关重要,但是高级处理器必须要有专用的硬件和软件系统相配合才能实现理想的性能。Cerebras 公司 CEO Andrew Feldman 在接受媒体采访时说:“你无法将法拉利发动机放入大众汽车中来获得法拉利性能。如果你想获得 1,000 倍的性能提升,你要做的就是消除瓶颈。”CS-1 系统设计和 Cerebras 软件平台相结合,可以充分用到从 WSE 上的 40 多万个计算内核和 18 GB 高性能片上存储器中提取的每一点的处理能力。

GIF 图 | Cerebras 晶片规模的引擎(来源:Cerebras Systems)

GPU 集群需要消耗数十个机架并且需要专有的 InfiniBand 进行集群不同,CS-1 不需要大量修改现有模型,并且用户只需将基于标准的 100Gb 以太网链路插入交换机就可以启动培训模型。

CS-1 有 15 个机架,大概是 26 英寸高(66.04 厘米)。Andrew Feldman 表示,CS-1 是“最快的 AI 计算机”。CS-1 计算机的机器学习能力相当于数百架基于 GPU 的计算机能力,这些计算会消耗数百千瓦。但 CS-1 仅消耗 17 千瓦,占标准机架能耗的三分之一。他把 CS-1 和谷歌的 TPU 计算集群相比,强调谷歌的 TPU2 机器学习集群需要 10 个机架和超过 100 千瓦的功耗,才能提供一个 CS-1 机箱三分之一的性能。

Feldman 说:“我们是由 40 万个专用 AI 处理器组成的 AI 机器。”CS-1 由 40 万核、1 万亿晶体管大小的处理器芯片驱动,可以将原本需要至少几周的大型神经网络训练任务缩短到几分钟甚至几秒钟。但是,Cerebras 并没有提供用标准 AI 基准(如新的 MLPeRF 标准)衡量性能的数据。相反,它通过让潜在客户在 Cerebras 的机器上训练他们自己的神经网络模型来吸引潜在客户。

另外,Cerebras 还公布了一些系统软件的细节,该软件允许用户使用 Pytorch 和 Tensorflow 之类的 ML 标准框架来编写他们的机器学习模型。强大的图形编译器可自动将这些模型转换为 CS-1 的优化可执行文件,而丰富的工具集可实现直观的模型调试和性能分析。

图 | Cerebras 软件系统允许用户使用 Pytorch 和 Tensorflow 之类的 ML 标准框架来编写他们的机器学习模型(来源:Cerebras Systems)

这是如何实现的呢?通过解决一个优化问题,确保所有层以大致相同的速度完成它们的任务处理,且与相邻层是连续的。这样信息就可以实现在网络中畅通无阻。该软件可以在多台计算机上执行这个优化问题,如果把 32 个 CS-1 连接在一起,那么这一组计算机所构成的大型计算机的性能可以提高约 32 倍。

Feldman 说:“GPU 集群无法实现相同的效果,你得到的不是一个大型计算机的算力,仍然是一堆小机器所能实现的算力。”他认为 CS-1 和 GPU 集群形成了鲜明的对比。

CS-1 的第一个应用是预测癌症药物反应,这是美国能源部和美国国家癌症研究所合作的一个项目。能源部负责人工智能与技术的副部长 Dimitri Kusnezov 在一份声明中说:“在能源部,我们相信公私合作是加速美国人工智能研究的重要组成部分。”“我们期待与 Cerebras 建立长期而富有成效的合作关系,这将有助于定义下一代人工智能技术,并改变能源部的运作、业务和使命。”或许这也是 Feldman 能筹集到数亿美元并雇用大量员工的原因。

图 | 阿贡实验室(Argonne National Laboratory)

阿贡实验室与 Cerebras 的合作已经有两年了。其计算总监 Rick Stevens 在新闻发布会上表示:“通过部署 CS-1,我们大大缩短了神经网络的训练时间,使我们的研究人员能够更高效地开展深度学习研究,在癌症、创伤性脑损伤以及当今和未来对社会有重要意义的其他领域取得重大进展。”

阿贡实验室是全球最大的超级计算机站点之一,而 CS-1 可以使这个站点比现有的 AI 加速器得到 100 到 1000 倍的提升,有望在 2021 年实现 Aurora 百万兆级超算的能力。一台百万兆级的计算机一瞬间进行的计算量,相当于地球上的所有人每天每秒都不停地计算四年。

除了用在研究抗癌药物之外,该系统还将被用来帮助理解黑洞碰撞行为及其引力波。此前做过类似研究的 Theta 超级计算机,在研究黑洞碰撞问题时需要调动超算所配置的 4392 个节点中的 1024 个节点,每个节点包含了一个 64 核处理器和 16 GB 的高带宽封装内存(MCDRAM),192 GB 的 DDR4 RAM 和 128 GB 的 SSD

Cerebras 的另一个客户劳伦斯·利弗莫尔国家实验室也来头不小,拥有世界排名第三的 Sequoia 超级计算机。CS-1 也有望进一步增强其模拟计算能力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20325

    浏览量

    254693
  • 晶体管
    +关注

    关注

    78

    文章

    10434

    浏览量

    148542
  • AI
    AI
    +关注

    关注

    91

    文章

    40940

    浏览量

    302515
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    FreeRTOS_SMP_Example_S32K358_2xCores示例配置并实现了一SMP项目两个核心的中断频率比较高时报故障,怎么解决?

    我参考FreeRTOS_SMP_Example_S32K358_2xCores示例配置并实现了一 SMP 项目。RTD6.0.0但是,当我的两个核心的中断频率比较高时,会出现种故障
    发表于 03-30 08:23

    图像上两个多边形的ROI区域,如何获得这两个ROI区域重合部分的ROI

    labview中,图像上两个多边形的ROI区域,如何获得这两个ROI区域重合部分的ROI
    发表于 03-16 14:03

    两个RS485-Modbus主站如何通讯

    本产品能很好解决Master-1主站向模块写入数据,Master-2主站读取数据;Master-2主站向模块写入数据,Master-1主站读取数据。由此解决两个主站之间的互相读通信难题。
    发表于 02-08 15:32 0次下载

    使用博图(TIA Portal)监控PROFINET从站通讯状态的两个方法

    如何使用博图监控Profinet从站通讯状态,这里有两个方法供你选择。 方法一 | 使用DeviceStates指令 创建全局数据块 在博图项目中,创建一全局数据块(DB),用于存储
    的头像 发表于 01-17 11:21 1485次阅读
    使用博图(TIA Portal)监控PROFINET从站通讯状态的<b class='flag-5'>两个</b>方法

    曙光存储连续斩获两个行业奖项

    近期,曙光存储连续斩获两个行业奖项,自研技术产品在国产突破、AI行业应用等方面的成果获得广泛关注。
    的头像 发表于 01-15 16:28 2699次阅读

    时钟芯片与晶振:微小世界的两个巨人

    如今,我们常常遇到一些看似相似,但实则截然不同的概念。今天,我们就来探讨一下时钟芯片与晶振的区别。首先,我们要了解什么是时钟芯片和晶振。简单来说,它们都是电子设备中的重要组成部分,用于提供稳定的时间
    的头像 发表于 12-30 17:44 6953次阅读
    时钟<b class='flag-5'>芯片</b>与晶振:微小世界的<b class='flag-5'>两个</b>巨人

    FreeRtos 能否同时使用两个 CPU?

    的情况下,CM0 更愿意专门用于管理外设。 - 是否有在 CM0 和 CM4 中同时运行代码的简单示例或教程? - FreeRtos 能否同时使用两个 CPU?
    发表于 11-11 08:28

    锂电池生产“发热”难题?这两个模块轻松搞定!

    在锂电池生产与测试过程中,温度管理是确保品质与安全的关键环节。本文将探讨锂电池生产测试中的温度挑战,并推荐款适合的测温模块,帮助工程师更好地进行温度监测与管理,提升锂电池生产的品质与安全性。前言在
    的头像 发表于 10-10 11:38 531次阅读
    锂电池生产“发热”难题?<b class='flag-5'>这两个</b>模块轻松搞定!

    硬件SPI两个CS操作两个norflash,怎么互斥操作两个norflash?

    硬件SPI两个CS操作两个norflash,怎么互斥操作两个norflash,有一norflash被模拟成U盘,会在中断中操作spi。
    发表于 09-26 06:18

    基本半导体连获两个行业奖项

    近日,基本半导体凭借在碳化硅模块领域的突出表现,连获“国产SiC模块TOP企业奖”和“年度优秀功率器件产品奖”两个行业奖项。
    的头像 发表于 09-05 16:31 1224次阅读

    是否有可能在 FX10 中嵌入一电源传输堆栈并使用这两个引脚进行通信?

    电阻接地。这应该允许 FX10 知道电缆连接方向并相应地控制内部 USB 多路复用器。 将来是否有可能在 FX10 中嵌入一电源传输堆栈并使用这两个引脚进行通信?
    发表于 07-21 07:59

    请问一蓝牙芯片可以同时传输两个不同的数据吗?

    现在有两个不同的数据,想用一蓝牙芯片进行传输,可以做到吗?求解
    发表于 07-07 06:28

    看到STM8L152用两个IO用两个或非门检测两个通断,是什么原理呢?

    图中两个按键开关是两个干簧管,为什么不直接对GND设计来检测这个干簧管通断呢? 这样设计的原理是什么?
    发表于 06-12 06:25

    用于四频 GSM / GPRS / EDGE 的 Tx-Rx FEM,带两个 Rx 交换机端口和双频 TD-SCDMA skyworksinc

    电子发烧友网为你提供()用于四频 GSM / GPRS / EDGE 的 Tx-Rx FEM,带两个 Rx 交换机端口和双频 TD-SCDMA相关产品参数、数据手册,更有用于四频 GSM
    发表于 05-29 18:31
    <b class='flag-5'>用于</b>四频 GSM / GPRS / EDGE 的 Tx-Rx FEM,带<b class='flag-5'>两个</b> Rx 交换机端口和双频 TD-SCDMA skyworksinc

    永磁电机 VS 普通电机,这两个有何区别?

    · 电机是现代工业的心脏,广泛应用于各个领域。永磁电机和普通电机作为种主要类型,到底有何区别?今天小编带你一起来了解下:‌ ü 运行效率: ①永磁电机因无需外部励磁,显著降低能量损耗,效率普遍高出
    的头像 发表于 05-29 08:41 5718次阅读