0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌、Facebook 和微软的下一代高性能计算机的新蓝图

芯长征科技 来源:半导体行业观察 作者:编译自hpcwire 2022-10-26 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在最近的开放计算项目峰会上出现了准备改变传统服务器架构的新一代设计,谷歌、Facebook 和微软在峰会上展示了高性能计算机的新蓝图。

在加利福尼亚州圣克拉拉举行的贸易展上展示的硬件表明,云提供商继续降低 CPU 的优先级,同时更多地关注网络、存储和加速器,如 GPUAI 芯片。服务器制造商可以复制和改进 OCP 设计。

本次峰会上的焦点之一是 Meta 设计的名为 Grand Teton 的服务器,该公司正在为数据中心部署该服务器以运行人工智能应用程序。Meta 的工程副总裁 Alexis Bjorlin 在一篇博客文章中表示,Meta 的目标是为其大型数据中心带来更多的 AI 能力,这支撑了其社交媒体平台上的许多功能,同时也为其 metaverse 的未来做好准备。

半导体研究机构 SemiAnalysis 的创始人 Dylan Patel 表示,OCP 包括服务器世界的名人录——Meta、Google 和其他公司——在戴尔、HPE 和联想的标准机架之前,所有很酷的新硬件都在这里出现。

“当我们谈论硬件时,它的功率要高得多,但也很高效。它可能是高功率,因为它用于 Facebook 的 AI,或者它可能是高功率,因为它是一个非常密集的服务器,”Patel 说。

Patel 还指出,许多下一代服务器也展示了代号为 Sapphire Rapids 的 Intel 下一代 Xeon 服务器 CPU 和 AMD 即将推出的 Genoa。

Bjorlin 上个月表示,Meta 计划到2025 年建立拥有超过 4,000 个加速器的大型集群。这些核心将被组织为一个网格,加速器之间的带宽将达到每秒 1 TB。Bjorlin 上个月在 AI 硬件峰会上的一次演讲中详细介绍了这些计划,但没有分享硬件细节。该公司广泛使用 Nvidia GPU。

Meta 的服务器设计基本方法包括去除不必要的组件,并在系统和芯片级别缩小硬件。系统和芯片尺寸的缩小将有助于创建 AI 训练集群,这些集群将消耗更多功率,同时也提供显着更高的每瓦性能。

Bjorlin 在 Grand Teton 的公告中说,深度学习模型正在显著增长到数十万亿个参数,并且“可能需要 zettaflop 的计算来训练”。

“人工智能和机器学习模型正变得越来越强大和复杂,需要更多高性能基础设施来匹配,”Bjorlin 说。

Grand Teton 是 2021 年推出的 Zion-EX 横向扩展系统的继任者。Grand Teton 的速度明显快于其前身,主机到 GPU 带宽提高了四倍,计算能力和吞吐量提高了两倍。

“与包含多个独立子系统的 Zion-EX 相比,Grand Teton 还具有集成底盘,”Bjorlin 说。

微软展示了一个名为 Mt. Shasta 的模块化系统,这是一个可以容纳人工智能和高性能计算加速器的机箱。该模块通过 48 伏电源馈入高性能服务器。该模块可以热插拔并容纳多个加速器。该系统由 Molex 和 Quanta 设计,并与 OCP 的 Open Rack V3 设计兼容,该设计为系统打开了机架级分解。

微软在一篇博文中表示,Mt. Shasta 模块解决了在数据中心实施加速器时面临的常见问题。加速器可以在数据中心的电源、冷却和连接指南内轻松实施,并自动与基于软件的管理接口进行硬件控制。节点级挂钩使模块可热插拔,这在 PCI Gen 3.0 接口中也很困难,该接口较旧,但仍在较旧的服务器上使用。

Insight 64 首席分析师 Nathan Brookwood 表示,加速器的多样化服务器硬件一直是当务之急,但今年围绕 CXL(Compute Express Link)引起了很多兴奋,因为它提供了轻松添加一系列加速器的钩子。

“很明显,那些在云中部署的人——你看到的是谷歌、微软等——他们知道他们需要什么。他们可能会去掉 HPE 和戴尔在通用企业级产品中投入的更多花里胡哨的东西,”Brookwood说。

CXL 是一个关键的构建块,旨在改变服务器的设计、定制和配置方式。CXL 允许更轻松地选择和组装服务器的构建块。该技术提供了计算、内存和存储系统之间的通信链接,并包括跨服务器提供和管理计算的工具。

“CXL 正在迅速被接受,这令人惊讶,因为支持它的通用处理器尚未发布,包括 [Intel 的] Sapphire Rapids 和 [AMD 的] Genoa,”Brookwood 说。

虽然 Facebook 的 Grand Teton 是一个集成服务器,但 Google 专注于未来的“多脑”服务器,它将存储、加速器、内存和基础设施处理单元整合到单独的托盘中。模块化硬件架构基于包括 CXL 和 NVMe 在内的互连以及 OpenBMC 和 RedFish 等分布式系统管理工具。

Brookwood 说,小型服务器制造商同样对 CXL 感到兴奋。

“随着这些产品的推出,我认为小型服务器制造商,尤其是云计算领域的制造商,将会关注这一点,”Brookwood说。

IT 基础设施公司 Wiwynn 是台湾纬创资通集团的子公司,专注于定制服务器设计的构建模块。该公司以前专门从事 OCP 的集成服务器设计,但今年的重点是根据特定要求构建的定制设计。

Wiwynn 的构建模块包括 OCP 认证的冷却、电源、组件、互连、NIC 和安全模块。CXL 互连也在设计中,位于中间以促进存储、内存和处理单元之间的通信。

该设计适用于英特尔和 AMD 的各种 x86 服务器芯片,以及 Ampere 的 CPU 等 Arm 服务器芯片。它还支持英特尔的 Habana Gaudi AI 处理器等加速器。

Wiwynn 销售支持执行董事 Steven Hwang 在 OCP 峰会前的新闻发布会上表示,客户对构建块的关注点发生了变化,因为他们有兴趣构建更接近其数据中心要求的服务器。

具体来说,人们对功率转换组件很感兴趣,Hwang 说,并补充说,“许多数据中心正在走向绿色,能源变得非常非常敏感……所以从直流到交流和交流到直流的功率损耗肯定是人们可以立即从中受益的东西。”

在 OCP,谷歌、微软、Nvidia 和 AMD 还合作创建了一个名为 Caliptra 的规范,允许系统制造商在芯片和系统级别嵌入安全层。该规范在 0.5 版中,侧重于在硅中创建信任根。

微软 Azure 首席技术官 Mark Russinovich 在一篇博客文章中表示:“作为可重用的开源、硅级块,用于集成到片上系统(例如 CPU、GPU 和加速器)中,Caliptra 提供了可信赖且易于验证的证明。”

Caliptra 规范包括一系列用于存储和加密数据的块,并确保只有授权方才能访问安全飞地中的数据。它还确保数据的安全性,因此在本地或云中时不会受到 Spectre 和 Meltdown 等基于硬件的黑客攻击。云提供商对 Caliptra 感兴趣,以改进机密计算产品和保护虚拟机。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5650

    浏览量

    139057
  • 服务器
    +关注

    关注

    13

    文章

    10097

    浏览量

    90907
  • 虚拟机
    +关注

    关注

    1

    文章

    968

    浏览量

    30185

原文标题:下一代服务器设计蓝图浮现!

文章出处:【微信号:芯长征科技,微信公众号:芯长征科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Amphenol 400POS 0.635MM PITCH COM - HPC 连接器:高性能嵌入式应用新选择

    : Amphenol FCI COM-HPC板对板连接器.pdf 、COM - HPC 标准概述 COM - HPC 是由 PICMG 发起的开放标准,旨在为嵌入式计算机领域的高性能计算机模块
    的头像 发表于 12-11 10:30 60次阅读

    贸泽电子开售全新Arduino UNO Q单板计算机

    贸泽电子开售全新Arduino UNO Q单板计算机。Arduino UNO Q单板计算机(SBC)将高性能计算与实时控制结合,提供理想的创新平台。
    的头像 发表于 11-08 09:50 976次阅读

    AI眼镜或成为下一代手机?谷歌、苹果等巨头扎堆布局

    近年来,AI智能眼镜赛道迎来爆发式增长。谷歌、苹果、Meta、亚马逊等科技巨头纷纷加快布局,将AI眼镜视为下一代人机交互的关键入口。从消费级产品到行业专用设备,多样化的AI眼镜正逐步走入现实,甚至业内预测:AI眼镜或将替代智能手机。
    的头像 发表于 11-05 17:44 486次阅读

    Microchip推出下一代Switchtec Gen 6 PCIe交换芯片

    随着人工智能(AI)工作负载和高性能计算(HPC)应用对数据传输速度与低延迟的需求持续激增,Microchip Technology Inc.(微芯科技公司)宣布推出下一代Switchtec Gen 6 PCIe交换芯片。
    的头像 发表于 10-18 11:12 1148次阅读

    适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc

    电子发烧友网为你提供()适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM相关产品参数、数据手册,更有适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM的引脚图、接线图、封装
    发表于 09-05 18:34
    适用于<b class='flag-5'>下一代</b> GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc

    玄铁下一代旗舰处理器C930:双算力引擎,助力 RISC-V高性能计算

    加速场景的C系列,安全和实时性方面的R系列,赋能端测的E系列,以及搭建多核系统方案的玄铁系列,还有DIC技术等等。 高性能CPU IP玄铁C930 玄铁下一代旗舰处理器C930采用15级乱序超标量流水线设计,支持CHI协议,具备多核多cluster可扩展能力,拥有6译码宽
    的头像 发表于 07-18 13:35 2956次阅读

    季丰电子启用全新高性能仿真计算机集群

    季丰已成功部署并正式启用全新一代高性能仿真计算机集群。此次升级是公司在研发基础设施领域的项战略性投资,旨在通过技术驱动,全面提升项目交付的效率、规模与可靠性。
    的头像 发表于 07-15 11:04 710次阅读

    下一代高速芯片晶体管解制造问题解决了!

    ,10埃)开始直使用到A7。 从这些外壁叉片晶体管的量产中获得的知识可能有助于下一代互补场效应晶体管(CFET)的生产。 目前,领先的芯片制造商——英特尔、台积电和三星——正在利用其 18A、N2
    发表于 06-20 10:40

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级计算机将在 NVIDIA Vera Rubin 架构上运行。
    的头像 发表于 06-12 15:39 840次阅读

    文带你了解工业计算机尺寸

    工业计算机是现代自动化、人工智能(AI)和边缘计算的支柱。这些坚固耐用的系统旨在承受恶劣的环境,同时为关键应用提供可靠的性能。然而,由于有这么多可用的外形尺寸,为您的工业计算机选择合适
    的头像 发表于 04-24 13:35 798次阅读
    <b class='flag-5'>一</b>文带你了解工业<b class='flag-5'>计算机</b>尺寸

    中国下一代半导体研究超越美国

    美国机构分析,认为中国在支持下一代计算机的基础研究方面处于领先地位。如果这些研究商业化,有人担心美国为保持其在半导体设计和生产方面的优势而实施的出口管制可能会失效。 乔治城大学新兴技术观察站(ETO
    的头像 发表于 03-06 17:12 701次阅读

    Quantinuum“Reimei”量子计算机在RIKEN正式运行

    )成功安装并全面投入运行。 此次合作中,RIKEN为“Reimei”量子计算机提供了世界级的基础设施,包括为其量身定制的设计、准备及交付工作。这里程碑式的成就不仅标志着Quantinuum在量子计算领域的持续突破,也预示着未来
    的头像 发表于 02-17 10:21 806次阅读

    日英联手开发下一代量子计算机

    近日,据报道,日本国立产业技术综合研究所(AIST)与全球芯片巨头英特尔公司正携手合作,致力于开发下一代量子计算机。这举措预示着量子计算领域将迎来新的突破。 据了解,此次合作将充分利
    的头像 发表于 02-07 14:26 786次阅读

    诚迈科技成都高性能信创计算机产线下线

    近日,诚迈科技在四川省成都市建设的高性能信创计算机产线下线仪式圆满举行。四川省、成都市、武侯区等相关单位领导出席。
    的头像 发表于 01-24 10:16 855次阅读

    云端超级计算机使用教程

    云端超级计算机种基于云计算高性能计算服务,它将大量计算资源和存储资源集中在
    的头像 发表于 12-17 10:19 970次阅读