0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌、Facebook 和微软的下一代高性能计算机的新蓝图

芯长征科技 来源:半导体行业观察 作者:编译自hpcwire 2022-10-26 10:06 次阅读

在最近的开放计算项目峰会上出现了准备改变传统服务器架构的新一代设计,谷歌、Facebook 和微软在峰会上展示了高性能计算机的新蓝图。

在加利福尼亚州圣克拉拉举行的贸易展上展示的硬件表明,云提供商继续降低 CPU 的优先级,同时更多地关注网络、存储和加速器,如 GPUAI 芯片。服务器制造商可以复制和改进 OCP 设计。

本次峰会上的焦点之一是 Meta 设计的名为 Grand Teton 的服务器,该公司正在为数据中心部署该服务器以运行人工智能应用程序。Meta 的工程副总裁 Alexis Bjorlin 在一篇博客文章中表示,Meta 的目标是为其大型数据中心带来更多的 AI 能力,这支撑了其社交媒体平台上的许多功能,同时也为其 metaverse 的未来做好准备。

半导体研究机构 SemiAnalysis 的创始人 Dylan Patel 表示,OCP 包括服务器世界的名人录——Meta、Google 和其他公司——在戴尔、HPE 和联想的标准机架之前,所有很酷的新硬件都在这里出现。

“当我们谈论硬件时,它的功率要高得多,但也很高效。它可能是高功率,因为它用于 Facebook 的 AI,或者它可能是高功率,因为它是一个非常密集的服务器,”Patel 说。

Patel 还指出,许多下一代服务器也展示了代号为 Sapphire Rapids 的 Intel 下一代 Xeon 服务器 CPU 和 AMD 即将推出的 Genoa。

Bjorlin 上个月表示,Meta 计划到2025 年建立拥有超过 4,000 个加速器的大型集群。这些核心将被组织为一个网格,加速器之间的带宽将达到每秒 1 TB。Bjorlin 上个月在 AI 硬件峰会上的一次演讲中详细介绍了这些计划,但没有分享硬件细节。该公司广泛使用 Nvidia GPU。

Meta 的服务器设计基本方法包括去除不必要的组件,并在系统和芯片级别缩小硬件。系统和芯片尺寸的缩小将有助于创建 AI 训练集群,这些集群将消耗更多功率,同时也提供显着更高的每瓦性能。

Bjorlin 在 Grand Teton 的公告中说,深度学习模型正在显著增长到数十万亿个参数,并且“可能需要 zettaflop 的计算来训练”。

“人工智能和机器学习模型正变得越来越强大和复杂,需要更多高性能基础设施来匹配,”Bjorlin 说。

Grand Teton 是 2021 年推出的 Zion-EX 横向扩展系统的继任者。Grand Teton 的速度明显快于其前身,主机到 GPU 带宽提高了四倍,计算能力和吞吐量提高了两倍。

“与包含多个独立子系统的 Zion-EX 相比,Grand Teton 还具有集成底盘,”Bjorlin 说。

微软展示了一个名为 Mt. Shasta 的模块化系统,这是一个可以容纳人工智能和高性能计算加速器的机箱。该模块通过 48 伏电源馈入高性能服务器。该模块可以热插拔并容纳多个加速器。该系统由 Molex 和 Quanta 设计,并与 OCP 的 Open Rack V3 设计兼容,该设计为系统打开了机架级分解。

微软在一篇博文中表示,Mt. Shasta 模块解决了在数据中心实施加速器时面临的常见问题。加速器可以在数据中心的电源、冷却和连接指南内轻松实施,并自动与基于软件的管理接口进行硬件控制。节点级挂钩使模块可热插拔,这在 PCI Gen 3.0 接口中也很困难,该接口较旧,但仍在较旧的服务器上使用。

Insight 64 首席分析师 Nathan Brookwood 表示,加速器的多样化服务器硬件一直是当务之急,但今年围绕 CXL(Compute Express Link)引起了很多兴奋,因为它提供了轻松添加一系列加速器的钩子。

“很明显,那些在云中部署的人——你看到的是谷歌、微软等——他们知道他们需要什么。他们可能会去掉 HPE 和戴尔在通用企业级产品中投入的更多花里胡哨的东西,”Brookwood说。

CXL 是一个关键的构建块,旨在改变服务器的设计、定制和配置方式。CXL 允许更轻松地选择和组装服务器的构建块。该技术提供了计算、内存和存储系统之间的通信链接,并包括跨服务器提供和管理计算的工具。

“CXL 正在迅速被接受,这令人惊讶,因为支持它的通用处理器尚未发布,包括 [Intel 的] Sapphire Rapids 和 [AMD 的] Genoa,”Brookwood 说。

虽然 Facebook 的 Grand Teton 是一个集成服务器,但 Google 专注于未来的“多脑”服务器,它将存储、加速器、内存和基础设施处理单元整合到单独的托盘中。模块化硬件架构基于包括 CXL 和 NVMe 在内的互连以及 OpenBMC 和 RedFish 等分布式系统管理工具。

Brookwood 说,小型服务器制造商同样对 CXL 感到兴奋。

“随着这些产品的推出,我认为小型服务器制造商,尤其是云计算领域的制造商,将会关注这一点,”Brookwood说。

IT 基础设施公司 Wiwynn 是台湾纬创资通集团的子公司,专注于定制服务器设计的构建模块。该公司以前专门从事 OCP 的集成服务器设计,但今年的重点是根据特定要求构建的定制设计。

Wiwynn 的构建模块包括 OCP 认证的冷却、电源、组件、互连、NIC 和安全模块。CXL 互连也在设计中,位于中间以促进存储、内存和处理单元之间的通信。

该设计适用于英特尔和 AMD 的各种 x86 服务器芯片,以及 Ampere 的 CPU 等 Arm 服务器芯片。它还支持英特尔的 Habana Gaudi AI 处理器等加速器。

Wiwynn 销售支持执行董事 Steven Hwang 在 OCP 峰会前的新闻发布会上表示,客户对构建块的关注点发生了变化,因为他们有兴趣构建更接近其数据中心要求的服务器。

具体来说,人们对功率转换组件很感兴趣,Hwang 说,并补充说,“许多数据中心正在走向绿色,能源变得非常非常敏感……所以从直流到交流和交流到直流的功率损耗肯定是人们可以立即从中受益的东西。”

在 OCP,谷歌、微软、Nvidia 和 AMD 还合作创建了一个名为 Caliptra 的规范,允许系统制造商在芯片和系统级别嵌入安全层。该规范在 0.5 版中,侧重于在硅中创建信任根。

微软 Azure 首席技术官 Mark Russinovich 在一篇博客文章中表示:“作为可重用的开源、硅级块,用于集成到片上系统(例如 CPU、GPU 和加速器)中,Caliptra 提供了可信赖且易于验证的证明。”

Caliptra 规范包括一系列用于存储和加密数据的块,并确保只有授权方才能访问安全飞地中的数据。它还确保数据的安全性,因此在本地或云中时不会受到 Spectre 和 Meltdown 等基于硬件的黑客攻击。云提供商对 Caliptra 感兴趣,以改进机密计算产品和保护虚拟机。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5202

    浏览量

    132638
  • 服务器
    +关注

    关注

    12

    文章

    8125

    浏览量

    82543
  • 虚拟机
    +关注

    关注

    1

    文章

    855

    浏览量

    27382

原文标题:下一代服务器设计蓝图浮现!

文章出处:【微信号:芯长征科技,微信公众号:芯长征科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    欣喜收到《量子计算机——重构未来》书,感谢电子发烧友论坛提供了个让我了解量子计算机的机会! 自己对电子计算机有点了解,但对量子
    发表于 03-05 17:37

    【昉·星光 2 高性能RISC-V单板计算机体验】VisionFive2开箱+安装Ubuntu

    【昉·星光 2 高性能RISC-V单板计算机体验】VisionFive2开箱+安装Ubuntu 前言 很感谢赛昉科技及iCeasy提供的样片,让我第次接触高性能的RISC-V的开发板
    发表于 02-21 17:49

    什么是HPC高性能计算

    高性能计算(HighPerformanceComputing,简称HPC),是指利用集群、网格、超算等计算机技术,通过合理地组织计算机资源以及运用适合的算法和程序,提高
    的头像 发表于 02-19 13:27 193次阅读
    什么是HPC<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>

    工业计算机和PLC的区别

    存在一些区别。 首先,工业计算机是一种高性能的通用计算机,它具有强大的计算、存储和通信能力。工业计算机一般采用标准的x86架构,可以运行各类
    的头像 发表于 12-15 10:10 522次阅读

    媒体聚焦 | ​RENSAS瑞萨公开下一代车用处理器蓝图,全面拥抱平台化

    媒体聚焦 | ​RENSAS瑞萨公开下一代车用处理器蓝图,全面拥抱平台化
    的头像 发表于 11-28 13:34 224次阅读
    媒体聚焦 | ​RENSAS瑞萨公开<b class='flag-5'>下一代</b>车用处理器<b class='flag-5'>蓝图</b>,全面拥抱平台化

    计算机硬件和软件组成

    未来:高性能(速度快)、人性化(傻瓜式)、网络化(电信网/计算机网/有线电视网三网合一)、多媒体(计算机技术+视频技术)、智能化(模拟人)
    的头像 发表于 10-28 11:13 1314次阅读
    <b class='flag-5'>计算机</b>硬件和软件组成

    工业计算机的应用

    工业计算机在半导体设备上的应用,具体在哪方面。比如说图像处理使用什么样的计算机,工业控制使用哪方面的计算机
    发表于 09-12 14:19

    【昉·星光 2 高性能RISC-V单板计算机体验】2更换Debian操作系统

    接上两篇:【昉·星光 2 高性能RISC-V单板计算机体验】1初识赛昉科技StarFive - RISC-V技术论坛 - 电子技术论坛- 广受欢迎的专业电子论坛! https
    发表于 08-31 00:03

    【昉·星光 2 高性能RISC-V单板计算机体验】与星光 2的第一次邂逅

    能有机会近距离使用这样一块全球首款集成3D GPU的高性能量产RISC-V 单板计算机
    的头像 发表于 08-04 09:12 732次阅读
    【昉·星光 2 <b class='flag-5'>高性能</b>RISC-V单板<b class='flag-5'>计算机</b>体验】与星光 2的第一次邂逅

    【昉·星光 2 高性能RISC-V单板计算机体验】使用之:星光 2开箱之硬件分析

    在上面办公、播放视频和玩3D游戏,等等。虽然基于JH7110芯片的VisionFive 2目前在性能上还无法和传统PC、笔记本电脑去比较。RISC-V能够迈向桌面端应用,能够迈向高性能市场。当下一代基于JH8100的单板
    发表于 07-28 15:02

    【昉·星光 2 高性能RISC-V单板计算机体验】+3、系统功能测试

    【昉·星光 2 高性能RISC-V单板计算机体验】+3、系统功能测试
    的头像 发表于 07-26 08:59 944次阅读
    【昉·星光 2 <b class='flag-5'>高性能</b>RISC-V单板<b class='flag-5'>计算机</b>体验】+3、系统功能测试

    谷歌披露量子计算机新突破

    谷歌披露量子计算机新突破 量子计算越加被看重,很多的科技巨头包括IBM、谷歌微软等以及众多的初创公司都在量子
    的头像 发表于 07-05 18:17 1188次阅读

    下一代互联网体系结构的研究(2)#计算机网络

    计算机网络
    未来加油dz
    发布于 :2023年06月06日 11:15:18

    下一代互联网体系结构的研究(1)#计算机网络

    计算机网络
    未来加油dz
    发布于 :2023年06月06日 11:14:33

    【RISC-V专题】昉·星光 2(VisionFive 2)RISC-V单板计算机免费试用

    VisionFive 2是全球首款集成3D GPU的高性能量产RISC-V 单板计算机 。与上一代相比,VisionFive 2全面升级,在处理器工作频率、多媒体处理能力、可扩展性等方面都有显着提升
    发表于 05-16 11:26