0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AWS推出由AWS设计的AWS Trainium2芯片系列

旺材芯片 来源:旺材芯片 2023-11-29 17:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一年多来,我们一直期待Amazon Web Services在今年的re:Invent大会上为其本土服务器推出 Graviton4 处理器。正如预期,AWS首席执行官Adam Selipsky推出了第四代 Graviton CPU系列,包括去年针对HPC工作负载的超频Graviton3E处理器。

Selipsky在主题演讲期间没有强制举起Graviton4 芯片,这很奇怪。

Graviton4 提高了各种工作负载的性价比和能效标准

正如我们所预料的那样,Graviton4 也基于 Arm Ltd 的“Demeter”Neoverse V2 内核,该内核与 Nvidia 的“Grace”CG100 CPU 一样基于 Armv9 架构。(Nvidia 官方并没有给 Grace 一个与其 GPU 命名方案一致的产品名称,所以我们就暂且这样命名。C代表CPU,G代表Grace。)我们在2017年对Demeter V2核心进行了深入研究。9月份,Arm发布了“Genesis”计算子系统,与之前由AWS部署在Graviton3和Graviton3E处理器中使用的“Zeus”V1 内核相比,V2 内核的每时钟指令数提高了13%。

显然,这在 IPC中并不是一个大的跳跃,因为核心数量也在跳跃,这就是为什么我们还假设 AWS已经放弃了代工合作伙伴台积电用于蚀刻 Graviton3 和 Graviton3E 芯片的5纳米工艺,而是更密集且有些成熟的4纳米工艺。同样的4N工艺还用于制造 Nvidia 的 Grace CPU 及其“Hopper”GH100 GPU——这两款产品都席卷了生成式 AI 世界。

Graviton4 封装上有 96 个 V2 核心,比 Graviton3 和 Graviton3E 提升了 50%,而且与 8 个 DDR5 内存控制器相比,Graviton4 上有 12 个 DDR5 控制器,并且Graviton4使用的 DDR5内存速度频率提升了16.7%,达到5.6 GHz。通过数学计算,Graviton4 每个插槽的内存带宽为536.7 GB/秒,比之前的Graviton3和Graviton3E处理器提供的307.2 GB/秒高出 75%。

在 Selipsky 的演示以及 AWS 发布的有关 Graviton4 的有限规格中,该公司表示通用 Web 应用程序在 Graviton4 上的运行速度比在 Graviton3 上快 30%(不是 Graviton3E,它超频且很热),但数据库的运行速度将提高 40%,大型 Java 应用程序的运行速度将提高 45%。现在,这可能意味着AWS已经在V2核心中实现了同步多线程 (SMT),为每个核心提供两个线程,就像英特尔AMD 的 X86 处理器以及一些 Arm 芯片过去所做的那样。

我们不这么认为,下面的比较显着特征表显示每个套接字有 96 个线程,而不是 192 个线程。我们认为每个套接字有 96 个线程,并且每个核心的二级缓存加倍至2MB对Java和数据库应用程序的性能产生了巨大的影响。您可以通过添加双向SMT获得3倍的vCPU,但这不会为您提供3倍的内存。与 Graviton3 芯片相比,它的内存仍然只有 1.5 倍。

AWS 在其博客中提到的有关使用 Graviton4 芯片的新 R8g 实例的其他内容也让我们犹豫不决:“R8g 实例提供了更大的实例大小,比当前一代 R7g 实例多出 3 倍的 vCPU 和 3 倍的内存。”

R8g 拥有 96 个核心和十几个内存控制器(均比 Graviton3 提升了 1.5 倍),您只会期望 R8g 的 vCPU 数量是使用 Graviton3 芯片的 R7g 实例的 1.5 倍,而内存容量仅是使用 Graviton3 芯片的 R7g 实例的 1.5 倍。因此,我们认为这是 Graviton 系列的第一个双插槽实现。这也是我们认为 Graviton4 芯片拥有大约 9500 万到 1 亿个晶体管的原因之一,而不是您预期的 8250 万个晶体管(如果 AWS 只是在 Graviton3 设计中添加 50% 的核心并保持不变)。我们认为,L2 缓存加倍、增加四个 DDR5 内存控制器以及一对现在也进行线速加密的 I/O 控制器也增加了晶体管预算。

Graviton4在另一个方面也值得注意。过去,Neoverse模块以32核或64核模块完成,Arm建议使用具有UCI-Express或CCIX互连的小芯片来构建更大的处理器复合体。制作自己的 Arm CPU设计的公司总是可以实现单片芯片,出于延迟和功耗的原因,您会这样做。这些互连不是免费的,尤其是具有 96 个内核的芯片,其产量会比 32 个内核或 64 核心低得多。这也是有代价的。

因此,从上面的芯片照片来看,我们认为 Graviton4 是一个双小芯片封装,其中一个小芯片与另一个小芯片旋转了 180 度。这可能就是为什么封装上中央核心复合体左侧和右侧的存储控制器小芯片彼此偏移的原因。

我们认为 Graviton4 与前几代芯片的比较如下:

4bb344a4-8e99-11ee-939d-92fbcf53809c.jpg

诚然猜测,我们认为 Graviton4 的性能比 Graviton3E 稍差,但达到该目标所需的功耗却低了近一半,并且内存容量高出 50%,带宽高出 75%,功耗大约为 130 瓦。功率包络具有更低且更理想的 2.7 GHz 时钟速度。

根据我们估计的这些数字(粗体红色斜体显示),Graviton4 芯片的每瓦性能(按 ECU 性能单位测量)与 Graviton3 大致相同,这几乎是您在工艺适度缩减的情况下所希望的一切。

随着更多细节的出现,我们将更新这个故事。

还有一件事:AWS 在其公告中表示(但 Selipsky 并没有在他的主题演讲中吹嘘),迄今为止,它已在其机群中部署了超过 200 万个 Graviton 处理器,并拥有超过 50,000 个客户使用过它们。

这是一个非常可观的 CPU 数量,如果 AWS 没有开始内部生产 Graviton,这些芯片将全部来自 Intel、AMD,甚至可能来自 Ampere Computing。但他们没有。这就是为什么将您的业务计划固定给超大规模提供商和云构建商是一个冒险的提议。

Trainum2旨在云中提供最高性能、最节能的AI模型训练基础设施

此外,AWS还在大会上推出了由 AWS 设计的AWS Trainium2 芯片系列。

Graviton4 和 Trainium2 标志着 AWS 芯片设计的最新创新。随着每一代芯片的推出,AWS 都提供了更好的性价比和能效,除了采用 AMD、Intel 和 NVIDIA 等第三方最新芯片的芯片/实例组合之外,还为客户提供了更多选择,以运行几乎任何应用程序或Amazon Elastic Compute Cloud (Amazon EC2) 上的工作负载。

据了解,Trainium2 的设计速度比第一代 Trainium 芯片快 4 倍,并且能够部署在多达 100,000 个芯片的 EC2 UltraCluster 中,从而可以在一个简单的环境中训练基础模型 (FM) 和大型语言模型 (LLM)。时间的一小部分,同时将能源效率提高了 2 倍。

AWS 计算和网络副总裁 David Brown 表示:“硅支撑着每个客户工作负载,使其成为 AWS 创新的关键领域。”“通过将我们的芯片设计重点放在对客户重要的实际工作负载上,我们能够为他们提供最先进的云基础设施。Graviton4 标志着我们在短短五年内推出的第四代芯片,是我们为各种工作负载打造的最强大、最节能的芯片。随着人们对生成式 AI 兴趣的高涨,Tranium2 将帮助客户以更低的成本和更高的能源效率更快地训练他们的 ML 模型。”

当今新兴的生成式人工智能应用背后的 FM 和 LLM 接受过海量数据集的培训。这些模型使客户能够通过创建各种新内容(包括文本、音频、图像、视频甚至软件代码)来完全重新想象用户体验。当今最先进的 FM 和 LLM 的参数范围从数千亿到数万亿不等,需要可靠的高性能计算能力,能够扩展到数万个机器学习芯片。AWS 已经提供了最广泛、最深入的采用 ML 芯片的 Amazon EC2 实例选择,包括最新的 NVIDIA GPU、Trainium 和 Inferentia2。如今,包括 Databricks、Helixon、Money Forward 和 Amazon Search 团队在内的客户使用 Trainium 来训练大规模深度学习模型,充分利用 Trainium 的高性能、规模、可靠性和低成本。但即使拥有当今最快的加速实例,客户也希望获得更高的性能和规模,以便以更低的成本更快地训练这些日益复杂的模型,同时减少他们使用的能源量。

Trainium2 芯片专为 FM 和 LLM 的高性能训练而设计,参数高达数万亿个。与第一代 Trainium 芯片相比,Trainium2 的训练性能提高了 4 倍,内存容量提高了 3 倍,同时能效(性能/瓦特)提高了 2 倍。Trainium2 将在 Amazon EC2 Trn2 实例中提供,单个实例中包含 16 个 Trainium 芯片。Trn2 实例旨在使客户能够在下一代 EC2 UltraCluster 中扩展多达 100,000 个 Trainium2 芯片,与 AWS Elastic Fabric Adapter (EFA) 拍级网络互连,提供高达 65 exaflops 的计算能力,并为客户提供对超级计算机的按需访问一流的性能。凭借这种规模,客户可以在数周而不是数月内培训 3000 亿个参数的 LLM。通过以显着降低的成本提供最高的横向扩展 ML 训练性能,Trn2 实例可以帮助客户解锁并加速生成 AI 的下一波进步。

一家人工智能安全和研究公司Anthropic表示,“我们正在与 AWS 密切合作,使用 Trainium 芯片开发未来的基础模型。Trainium2 将帮助我们大规模构建和训练模型,对于我们的一些关键工作负载,我们预计它的速度至少比第一代 Trainium 芯片快 4 倍。我们与 AWS 的合作将帮助各种规模的组织释放新的可能性,因为他们将 Anthropic 最先进的人工智能系统与 AWS 安全、可靠的云技术结合使用。”

来源:EETOP







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    114

    文章

    17875

    浏览量

    195087
  • smt
    smt
    +关注

    关注

    45

    文章

    3214

    浏览量

    77051
  • 机器学习
    +关注

    关注

    67

    文章

    8562

    浏览量

    137209
  • AWS
    AWS
    +关注

    关注

    0

    文章

    444

    浏览量

    26631
  • DDR5
    +关注

    关注

    1

    文章

    483

    浏览量

    25809

原文标题:AWS推出下一代自研芯片

文章出处:【微信号:wc_ysj,微信公众号:旺材芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Renesas RX65N Cloud Kit快速上手:AWS云连接演示指南

    Renesas RX65N Cloud Kit快速上手:AWS云连接演示指南 作为电子工程师,我们经常需要探索新的硬件平台和开发工具,以满足不断变化的项目需求。Renesas RX65N Cloud
    的头像 发表于 04-13 16:10 77次阅读

    瑞萨RX65N云套件AWS云连接演示快速上手指南

    瑞萨RX65N云套件AWS云连接演示快速上手指南 在物联网应用日益广泛的今天,瑞萨RX65N云套件为开发者提供了一个便捷的平台来实现设备与云的连接。本文将详细介绍如何在瑞萨RX65N云套件上安装并
    的头像 发表于 04-13 16:00 78次阅读

    NVIDIA与亚马逊云科技深化合作伙伴关系

    NVIDIA 和亚马逊云科技 (AWS) 扩展双方合作,增强在 AWS 平台上的 NVIDIA 驱动的数据处理能力,并增加对 NVIDIA Nemotron 开放模型系列的支持。
    的头像 发表于 03-23 15:17 448次阅读

    意法半导体与亚马逊云计算服务深化战略合作

    ‍‍‍‍‍‍‍‍ 意法半导体(ST)近日宣布与亚马逊云计算服务(AWS)拓展战略协作,达成一项为期多年、价值数十亿美元的商业协议,涵盖多个产品类别。通过此次合作,意法半导体将成为AWS计算基础设施
    的头像 发表于 02-28 11:46 510次阅读

    【新品发布】艾为推出双通道零漂移运算放大器AWS796X2系列产品

    AWS796X2系列产品。AWS796X2系列超高精度低噪声CMOS运算放大器包括AWS79632和AW
    的头像 发表于 02-02 18:32 760次阅读
    【新品发布】艾为<b class='flag-5'>推出</b>双通道零漂移运算放大器<b class='flag-5'>AWS796X2</b><b class='flag-5'>系列</b>产品

    AWS安全入门:数据上云前必知的基础防线

    前言智能废料分拣系统在工厂边缘运行,通过AWS云服务将分拣准确率从70%提升至97%,背后是一套完整的云安全体系在默默守护。亚马逊云科技作为全球领先的云计算服务提供商,在全球拥有数百万活跃客户,包括
    的头像 发表于 01-07 13:43 1392次阅读
    <b class='flag-5'>AWS</b>安全入门:数据上云前必知的基础防线

    NVIDIA和AWS扩展全栈合作伙伴关系

    亚马逊云科技(AWS)将 NVIDIA NVLink Fusion 集成到其定制芯片中,包括新一代 Tranium4 芯片、Graviton 和 AWS Nitro System。
    的头像 发表于 12-13 09:20 1110次阅读

    亚马逊发布新一代AI芯片Trainium3,性能提升4倍

    电子发烧友网报道(文/李弯弯)在拉斯维加斯举办的2025年亚马逊云科技re:Invent全球大会上,亚马逊云科技(AWS推出新一代人工智能(AI)训练芯片Trainium 3,预告了
    的头像 发表于 12-09 08:37 8862次阅读
    亚马逊发布新一代AI<b class='flag-5'>芯片</b><b class='flag-5'>Trainium</b>3,性能提升4倍

    FreeRTOS与uC/OS-II如何选择?

    选择 FreeRTOS : 成本是首要考虑因素(MIT 许可证非常友好)。 你需要最庞大的社区支持和最丰富的学习资源(尤其是新手)。 你的项目涉及物联网连接、云服务(AWS FreeRTOS 集成
    发表于 11-13 07:15

    Tata Communications与AWS达成合作

    Communications与Amazon.com, Inc.旗下公司Amazon Web Services(AWS)联合宣布,双方将在印度构建先进的AI就绪网络。 此次战略合作将建立连接AWS三大基础设施节点
    的头像 发表于 07-30 21:47 1446次阅读

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括 NVIDIA Blackwell 加速
    的头像 发表于 07-28 14:31 1120次阅读
    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    Grameenphone参与爱立信与AWS Gen-AI实验室项目

    爱立信×AWS 「Gen-AI实验室」旨在推动运营商在OSS/BSS中的AI应用突破。通过结构化、结果导向的协作方式,实验室将爱立信在OSS/BSS产品组合和行业专业知识方面的深厚积累,与AWS
    的头像 发表于 07-16 10:49 1.6w次阅读

    请问55912是否支持WLAN卸载和AnyCloud(AWS+MQTT) 功能吗?

    我可以知道 55912 是否支持 WLAN 卸载和 AnyCloud(AWS+MQTT) 功能吗? 如果是的话,我可以知道什么时候计划在 ModusToolbox 系统上线吗?
    发表于 07-09 06:42

    【新品发布】艾为车规级AWS79062SPR-Q1,高带宽轨到轨运算放大器的新巅峰

    近年来随着新能源汽车的发展,汽车行业呈现智能化、更安全发展趋势,对芯片性能、适配性、可靠性、安全性等方面提出了更高要求。艾为推出AWS79062SPR-Q1车规级低噪声CMOS双通道运算放大器
    的头像 发表于 05-29 18:03 912次阅读
    【新品发布】艾为车规级<b class='flag-5'>AWS</b>79062SPR-Q1,高带宽轨到轨运算放大器的新巅峰

    艾为电子推出AWS73431系列并联电压基准

    随着信息时代科学技术的飞速发展,工业设备和电子产品呈现出智能化、共享化、高度集成化的发展趋势,这对芯片的性能、适配性、可靠性以及安全性等方面都提出了更高的要求。
    的头像 发表于 05-15 09:36 931次阅读
    艾为电子<b class='flag-5'>推出</b><b class='flag-5'>AWS</b>73431<b class='flag-5'>系列</b>并联电压基准