0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

比40台基于GPU的服务器更牛的是什么?一台有40个GPU的服务器!

DPVg_AI_era 来源:lq 2019-02-13 10:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

比40台基于GPU的服务器更牛的是什么?一台有40个GPU的服务器!来自伊利诺伊州立大学计算机工程副教授及其团队将于2月,为包含多达40个GPU的晶圆级计算机提供案例。这个多处理器“怪物”将计算速度提高了近19倍,并将能耗和信号延迟的总和降低了140倍以上。

搭载40个GPU的服务器,就问你怕不怕!

早在20世纪80年代,并行计算先驱Gene Amdahl就策划了一项加速大型机计算的计划:一种硅晶片大小的处理器。通过将大部分数据保存在处理器本身,而不是将其通过电路板传输到内存和其他芯片上,计算速度会更快,能源效率也会更高。

Amdahl从风投那里获得了2.3亿美元的投资,这在当时是最多的。而后他创立了Trilogy Systems公司,将自己的梦想变成了现实。

这是“晶圆级集成”的首次商业尝试,结果成了一场灾难。

伊利诺伊大学厄巴纳-香槟分校和加州大学洛杉矶分校的工程师们认为,现在是时候再尝试一次了。

在2月即将举行的IEEE高性能计算机体系结构国际研讨会上,伊利诺伊州立大学计算机工程副教授Rakesh Kumar及其合作者将为包含多达40个GPU的晶圆级计算机提供案例。

这个多处理器“怪物”将计算速度提高了近19倍,并将能耗和信号延迟的总和降低了140倍以上

Kumar表示:“我们试图解决的一个大问题是计算单元之间的通信开销。”

基于保证质量的普通尺寸芯片,寻找连接技术是关键

超级计算机通常将应用程序分布在数百个GPU上,这些GPU位于不同的印刷电路板上,并通过长途数据链路进行通信。

与芯片本身内部的互连相比,这些链路吸收能量并且速度慢。更重要的是,由于芯片和印刷电路板的机械特性之间不匹配,处理器必须保存在严格限制其可以使用的输入和输出数量的封装中。

因此,将数据从一个GPU转移到另一个GPU需要大量的开销

所需要的是GPU模块之间的连接,这些连接与芯片上的互连一样快,低能耗且丰富。如此快速的连接将把这40个GPU集成到一起,成为一个巨大的GPU。

一种解决方案是:使用标准的芯片制造技术在同一块硅片上构建所有40个GPU,并在它们之间添加互连。

但正是这种思路扼杀了Amdahl在20世纪80年代的尝试。

当你在制作一个芯片时,总是有出现缺陷的可能性,而出现缺陷的可能性会随着芯片的大小而增加。如果你的芯片大小与餐盘一样大小,几乎可以保证在它上面有一个系统“杀戮”的缺陷。

因此,从已经通过质量测试的普通尺寸的GPU芯片开始,寻找一种更好地连接它们的技术,是更有意义的。

这个团队相信他们的silicon interconnect fabric(SiIF)的技术,用硅代替电路板,芯片与电路板之间没有机械上的不匹配,因此不需要芯片封装

SiIF晶圆上有一层或多层2微米宽的铜互连,间距最小可达4微米。这相当于芯片上最高级别的互连。

在要插入GPU的点中,硅片上的铜柱间距约为5微米。GPU在这些上方对齐,按下并加热。

这种成熟的工艺称为热压结合(thermal compression bonding),使铜柱与GPU的铜互连线融合。伊利诺斯州和加州大学洛杉矶分校的研究人员表示,窄小的互连和紧密的间距意味着你可以在一块芯片上压缩至少25倍的输入和输出。

Kumar和他的同事在设计晶圆级GPU时,必须考虑许多限制因素,包括可以从晶圆上移除多少热量、晶圆处理器如何能够最快速地相互通信,以及如何在整个晶圆上传输电力。

结果证明,功率是其中一个较为有限的约束条件

在芯片的标准1伏电源下,SiIF晶圆片的布线将消耗整整2千瓦。相反,Kumar的团队将电压供应提高到48伏,减少了所需的电流,从而减少了电力损失。这种解决方案需要在晶圆片周围分布电压调节器和信号调理电容器,从而占用原本可以用于更多GPU模块的空间。

尽管如此,在一个设计中,他们还是能够挤进41个GPU。他们测试了这种设计模拟的情况,发现它在消耗比40台标准GPU服务器更少的能量的情况下,加快了计算和数据移动。

SiIF晶圆级GPU克服了早期晶圆级工作无法解决的问题

Horst技术咨询公司的Robert W. Horst说:“SiIF晶圆级GPU克服了早期晶圆级工作无法解决的问题。”

二十多年前,在Tandem Computer公司,Horst参与开发了唯一一款商业化的晶圆级产品——一种在证券交易所取代高速硬盘的内存系统。他预计降温将是最具挑战性的方面之一。“如果你在这么近的距离内加入这么多逻辑,功耗可能会相当高,”他说。

Kumar表示,该团队已经开始着手构建一个晶圆级原型处理器系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53581

    浏览量

    459489
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5102

    浏览量

    134485
  • 服务器
    +关注

    关注

    13

    文章

    10102

    浏览量

    90913

原文标题:ISU教授疯狂实验:搭建40个GPU晶圆级计算机,能耗、延迟降低140倍!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    服务器数据恢复—RAIDZ多块硬盘离线导致服务器崩溃的数据恢复案例

    服务器数据恢复环境&故障: 一台服务器32块硬盘,采用Windows操作系统。 服务器在正常运行的时候突然变得不可用。没有异常断电、进水、异常操作、机房不稳定等外部因素。
    的头像 发表于 09-18 12:29 530次阅读
    <b class='flag-5'>服务器</b>数据恢复—RAIDZ多块硬盘离线导致<b class='flag-5'>服务器</b>崩溃的数据恢复案例

    服务器数据恢复—服务器上的卷被误删数据如何恢复?

    工作人员不慎将一台服务器上的卷误删除,服务器上有组raid5阵列。需要恢复误删除的数据。
    的头像 发表于 08-14 11:33 749次阅读
    <b class='flag-5'>服务器</b>数据恢复—<b class='flag-5'>服务器</b>上的卷被误删数据如何恢复?

    硅谷GPU服务器是什么意思?使用指南详解

    硅谷GPU服务器本质上是种IaaS(基础设施即服务)产品,它将物理服务器上的GPU资源通过虚
    的头像 发表于 06-16 09:41 428次阅读

    服务器数据恢复—服务器部分数据目录项被破坏的数据恢复案例

    一台安装linux系统的服务器意外断电。管理员重启服务器后进行检测,发现服务器上部分文件丢失。管理员没有进行任何操作,直接将服务器正常关机并
    的头像 发表于 05-08 15:16 364次阅读

    GPU服务器与CPU服务器的区别:文就能给您说透这两者该怎么选!

    最近,小编这里收到很多企业客户的提问:"我们的业务到底该选GPU服务器还是CPU服务器?" 作为深耕算力领域8年的工程师,今天小编用简单明了的内容给您讲透两者的本质区别,帮您避开选型坑。
    的头像 发表于 04-23 13:18 1389次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>服务器</b>与CPU<b class='flag-5'>服务器</b>的区别:<b class='flag-5'>一</b>文就能给您说透这两者该怎么选!

    DeepSeek企业级部署服务器资源计算 以raksmart裸机云服务器为例

    以RakSmart裸机云服务器为例,针对DeepSeek企业级部署的服务器资源计算指南,涵盖GPU/CPU/内存/存储/网络等核心维度的详细计算方法与配置推荐,主机推荐小编为您整理发布以raksmart裸机云
    的头像 发表于 03-21 10:17 825次阅读

    高性能GPU服务器推荐

    面对市场上种类繁多的GPU服务器,如何选择款适合自身需求的设备呢?接下来,AI部落小编为您推荐。
    的头像 发表于 03-20 10:14 869次阅读

    服务器数据恢复—服务器raid5阵列硬盘出现坏道掉线如何恢复服务器数据?

    一台服务器中有组由16块SAS接口的硬盘组建的raid5阵列。 服务器磁盘阵列中有2块硬盘离线,服务器上跑的应用崩溃。 经过后续的分析发现丢失的数据为虚拟机文件,包含4
    的头像 发表于 02-28 13:20 662次阅读
    <b class='flag-5'>服务器</b>数据恢复—<b class='flag-5'>服务器</b>raid5阵列硬盘出现坏道掉线如何恢复<b class='flag-5'>服务器</b>数据?

    服务器数据恢复—Zfs文件系统服务器数据恢复案例

    服务器数据恢复环境&故障: 一台zfs文件系统的服务器,管理员误操作删除了服务器上的数据。
    的头像 发表于 01-16 17:27 638次阅读

    中国加速服务器市场前景广阔

    服务器市场的巨大潜力,也预示着该领域即将迎来崭新的发展阶段。 在加速服务器市场中,GPU服务器
    的头像 发表于 01-07 10:22 721次阅读

    租用gpu服务器多少钱一个月?

    租用GPU服务器的费用因提供商、GPU型号和实例规格而异。例如,NVIDIATeslaT4每月约¥2800,NVIDIAA100每月约¥3600,AMDRadeonProWX8200每月约
    的头像 发表于 12-31 09:13 1472次阅读

    影响服务器GPU租用价格的因素

    服务器GPU租用的价格受多种因素影响,包括GPU型号和性能、租用时长、带宽和流量、地理位置、供应和需求以及服务质量等。下面,AI部落小编为您详细介绍。
    的头像 发表于 12-30 10:38 886次阅读

    GPU加速云服务器怎么用的

    GPU加速云服务器是将GPU硬件与云计算服务相结合,通过云服务提供商的平台,用户可以根据需求灵活租用带有
    的头像 发表于 12-26 11:58 864次阅读

    GPU服务器租用费用贵吗

    在云计算领域,GPU服务器因其强大的计算能力和图形处理能力,被广泛应用于多个领域。然而,对于许多企业和个人开发者来说,GPU服务器的租用费用仍然是
    的头像 发表于 12-19 17:55 1126次阅读

    法兰克福gpu服务器怎么用

    使用法兰克福GPU服务器,可以按照以下步骤进行,法兰克福gpu服务器怎么用,主机推荐小编为您整理发布法兰克福gpu
    的头像 发表于 12-18 10:28 644次阅读