0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AWS推出由AWS设计的AWS Trainium2芯片系列

旺材芯片 来源:旺材芯片 2023-11-29 17:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一年多来,我们一直期待Amazon Web Services在今年的re:Invent大会上为其本土服务器推出 Graviton4 处理器。正如预期,AWS首席执行官Adam Selipsky推出了第四代 Graviton CPU系列,包括去年针对HPC工作负载的超频Graviton3E处理器。

Selipsky在主题演讲期间没有强制举起Graviton4 芯片,这很奇怪。

Graviton4 提高了各种工作负载的性价比和能效标准

正如我们所预料的那样,Graviton4 也基于 Arm Ltd 的“Demeter”Neoverse V2 内核,该内核与 Nvidia 的“Grace”CG100 CPU 一样基于 Armv9 架构。(Nvidia 官方并没有给 Grace 一个与其 GPU 命名方案一致的产品名称,所以我们就暂且这样命名。C代表CPU,G代表Grace。)我们在2017年对Demeter V2核心进行了深入研究。9月份,Arm发布了“Genesis”计算子系统,与之前由AWS部署在Graviton3和Graviton3E处理器中使用的“Zeus”V1 内核相比,V2 内核的每时钟指令数提高了13%。

显然,这在 IPC中并不是一个大的跳跃,因为核心数量也在跳跃,这就是为什么我们还假设 AWS已经放弃了代工合作伙伴台积电用于蚀刻 Graviton3 和 Graviton3E 芯片的5纳米工艺,而是更密集且有些成熟的4纳米工艺。同样的4N工艺还用于制造 Nvidia 的 Grace CPU 及其“Hopper”GH100 GPU——这两款产品都席卷了生成式 AI 世界。

Graviton4 封装上有 96 个 V2 核心,比 Graviton3 和 Graviton3E 提升了 50%,而且与 8 个 DDR5 内存控制器相比,Graviton4 上有 12 个 DDR5 控制器,并且Graviton4使用的 DDR5内存速度频率提升了16.7%,达到5.6 GHz。通过数学计算,Graviton4 每个插槽的内存带宽为536.7 GB/秒,比之前的Graviton3和Graviton3E处理器提供的307.2 GB/秒高出 75%。

在 Selipsky 的演示以及 AWS 发布的有关 Graviton4 的有限规格中,该公司表示通用 Web 应用程序在 Graviton4 上的运行速度比在 Graviton3 上快 30%(不是 Graviton3E,它超频且很热),但数据库的运行速度将提高 40%,大型 Java 应用程序的运行速度将提高 45%。现在,这可能意味着AWS已经在V2核心中实现了同步多线程 (SMT),为每个核心提供两个线程,就像英特尔AMD 的 X86 处理器以及一些 Arm 芯片过去所做的那样。

我们不这么认为,下面的比较显着特征表显示每个套接字有 96 个线程,而不是 192 个线程。我们认为每个套接字有 96 个线程,并且每个核心的二级缓存加倍至2MB对Java和数据库应用程序的性能产生了巨大的影响。您可以通过添加双向SMT获得3倍的vCPU,但这不会为您提供3倍的内存。与 Graviton3 芯片相比,它的内存仍然只有 1.5 倍。

AWS 在其博客中提到的有关使用 Graviton4 芯片的新 R8g 实例的其他内容也让我们犹豫不决:“R8g 实例提供了更大的实例大小,比当前一代 R7g 实例多出 3 倍的 vCPU 和 3 倍的内存。”

R8g 拥有 96 个核心和十几个内存控制器(均比 Graviton3 提升了 1.5 倍),您只会期望 R8g 的 vCPU 数量是使用 Graviton3 芯片的 R7g 实例的 1.5 倍,而内存容量仅是使用 Graviton3 芯片的 R7g 实例的 1.5 倍。因此,我们认为这是 Graviton 系列的第一个双插槽实现。这也是我们认为 Graviton4 芯片拥有大约 9500 万到 1 亿个晶体管的原因之一,而不是您预期的 8250 万个晶体管(如果 AWS 只是在 Graviton3 设计中添加 50% 的核心并保持不变)。我们认为,L2 缓存加倍、增加四个 DDR5 内存控制器以及一对现在也进行线速加密的 I/O 控制器也增加了晶体管预算。

Graviton4在另一个方面也值得注意。过去,Neoverse模块以32核或64核模块完成,Arm建议使用具有UCI-Express或CCIX互连的小芯片来构建更大的处理器复合体。制作自己的 Arm CPU设计的公司总是可以实现单片芯片,出于延迟和功耗的原因,您会这样做。这些互连不是免费的,尤其是具有 96 个内核的芯片,其产量会比 32 个内核或 64 核心低得多。这也是有代价的。

因此,从上面的芯片照片来看,我们认为 Graviton4 是一个双小芯片封装,其中一个小芯片与另一个小芯片旋转了 180 度。这可能就是为什么封装上中央核心复合体左侧和右侧的存储控制器小芯片彼此偏移的原因。

我们认为 Graviton4 与前几代芯片的比较如下:

4bb344a4-8e99-11ee-939d-92fbcf53809c.jpg

诚然猜测,我们认为 Graviton4 的性能比 Graviton3E 稍差,但达到该目标所需的功耗却低了近一半,并且内存容量高出 50%,带宽高出 75%,功耗大约为 130 瓦。功率包络具有更低且更理想的 2.7 GHz 时钟速度。

根据我们估计的这些数字(粗体红色斜体显示),Graviton4 芯片的每瓦性能(按 ECU 性能单位测量)与 Graviton3 大致相同,这几乎是您在工艺适度缩减的情况下所希望的一切。

随着更多细节的出现,我们将更新这个故事。

还有一件事:AWS 在其公告中表示(但 Selipsky 并没有在他的主题演讲中吹嘘),迄今为止,它已在其机群中部署了超过 200 万个 Graviton 处理器,并拥有超过 50,000 个客户使用过它们。

这是一个非常可观的 CPU 数量,如果 AWS 没有开始内部生产 Graviton,这些芯片将全部来自 Intel、AMD,甚至可能来自 Ampere Computing。但他们没有。这就是为什么将您的业务计划固定给超大规模提供商和云构建商是一个冒险的提议。

Trainum2旨在云中提供最高性能、最节能的AI模型训练基础设施

此外,AWS还在大会上推出了由 AWS 设计的AWS Trainium2 芯片系列。

Graviton4 和 Trainium2 标志着 AWS 芯片设计的最新创新。随着每一代芯片的推出,AWS 都提供了更好的性价比和能效,除了采用 AMD、Intel 和 NVIDIA 等第三方最新芯片的芯片/实例组合之外,还为客户提供了更多选择,以运行几乎任何应用程序或Amazon Elastic Compute Cloud (Amazon EC2) 上的工作负载。

据了解,Trainium2 的设计速度比第一代 Trainium 芯片快 4 倍,并且能够部署在多达 100,000 个芯片的 EC2 UltraCluster 中,从而可以在一个简单的环境中训练基础模型 (FM) 和大型语言模型 (LLM)。时间的一小部分,同时将能源效率提高了 2 倍。

AWS 计算和网络副总裁 David Brown 表示:“硅支撑着每个客户工作负载,使其成为 AWS 创新的关键领域。”“通过将我们的芯片设计重点放在对客户重要的实际工作负载上,我们能够为他们提供最先进的云基础设施。Graviton4 标志着我们在短短五年内推出的第四代芯片,是我们为各种工作负载打造的最强大、最节能的芯片。随着人们对生成式 AI 兴趣的高涨,Tranium2 将帮助客户以更低的成本和更高的能源效率更快地训练他们的 ML 模型。”

当今新兴的生成式人工智能应用背后的 FM 和 LLM 接受过海量数据集的培训。这些模型使客户能够通过创建各种新内容(包括文本、音频、图像、视频甚至软件代码)来完全重新想象用户体验。当今最先进的 FM 和 LLM 的参数范围从数千亿到数万亿不等,需要可靠的高性能计算能力,能够扩展到数万个机器学习芯片。AWS 已经提供了最广泛、最深入的采用 ML 芯片的 Amazon EC2 实例选择,包括最新的 NVIDIA GPU、Trainium 和 Inferentia2。如今,包括 Databricks、Helixon、Money Forward 和 Amazon Search 团队在内的客户使用 Trainium 来训练大规模深度学习模型,充分利用 Trainium 的高性能、规模、可靠性和低成本。但即使拥有当今最快的加速实例,客户也希望获得更高的性能和规模,以便以更低的成本更快地训练这些日益复杂的模型,同时减少他们使用的能源量。

Trainium2 芯片专为 FM 和 LLM 的高性能训练而设计,参数高达数万亿个。与第一代 Trainium 芯片相比,Trainium2 的训练性能提高了 4 倍,内存容量提高了 3 倍,同时能效(性能/瓦特)提高了 2 倍。Trainium2 将在 Amazon EC2 Trn2 实例中提供,单个实例中包含 16 个 Trainium 芯片。Trn2 实例旨在使客户能够在下一代 EC2 UltraCluster 中扩展多达 100,000 个 Trainium2 芯片,与 AWS Elastic Fabric Adapter (EFA) 拍级网络互连,提供高达 65 exaflops 的计算能力,并为客户提供对超级计算机的按需访问一流的性能。凭借这种规模,客户可以在数周而不是数月内培训 3000 亿个参数的 LLM。通过以显着降低的成本提供最高的横向扩展 ML 训练性能,Trn2 实例可以帮助客户解锁并加速生成 AI 的下一波进步。

一家人工智能安全和研究公司Anthropic表示,“我们正在与 AWS 密切合作,使用 Trainium 芯片开发未来的基础模型。Trainium2 将帮助我们大规模构建和训练模型,对于我们的一些关键工作负载,我们预计它的速度至少比第一代 Trainium 芯片快 4 倍。我们与 AWS 的合作将帮助各种规模的组织释放新的可能性,因为他们将 Anthropic 最先进的人工智能系统与 AWS 安全、可靠的云技术结合使用。”

来源:EETOP







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    114

    文章

    17648

    浏览量

    190291
  • smt
    smt
    +关注

    关注

    45

    文章

    3148

    浏览量

    75130
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • AWS
    AWS
    +关注

    关注

    0

    文章

    443

    浏览量

    26315
  • DDR5
    +关注

    关注

    1

    文章

    467

    浏览量

    25611

原文标题:AWS推出下一代自研芯片

文章出处:【微信号:wc_ysj,微信公众号:旺材芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊发布新一代AI芯片Trainium3,性能提升4倍

    电子发烧友网报道(文/李弯弯)在拉斯维加斯举办的2025年亚马逊云科技re:Invent全球大会上,亚马逊云科技(AWS推出新一代人工智能(AI)训练芯片Trainium 3,预告了
    的头像 发表于 12-09 08:37 5369次阅读
    亚马逊发布新一代AI<b class='flag-5'>芯片</b><b class='flag-5'>Trainium</b>3,性能提升4倍

    Tata Communications与AWS达成合作

    Communications与Amazon.com, Inc.旗下公司Amazon Web Services(AWS)联合宣布,双方将在印度构建先进的AI就绪网络。 此次战略合作将建立连接AWS三大基础设施节点
    的头像 发表于 07-30 21:47 653次阅读

    Grameenphone参与爱立信与AWS Gen-AI实验室项目

    爱立信×AWS 「Gen-AI实验室」旨在推动运营商在OSS/BSS中的AI应用突破。通过结构化、结果导向的协作方式,实验室将爱立信在OSS/BSS产品组合和行业专业知识方面的深厚积累,与AWS
    的头像 发表于 07-16 10:49 1.6w次阅读

    请问55912是否支持WLAN卸载和AnyCloud(AWS+MQTT) 功能吗?

    我可以知道 55912 是否支持 WLAN 卸载和 AnyCloud(AWS+MQTT) 功能吗? 如果是的话,我可以知道什么时候计划在 ModusToolbox 系统上线吗?
    发表于 07-09 06:42

    【新品发布】艾为车规级AWS79062SPR-Q1,高带宽轨到轨运算放大器的新巅峰

    近年来随着新能源汽车的发展,汽车行业呈现智能化、更安全发展趋势,对芯片性能、适配性、可靠性、安全性等方面提出了更高要求。艾为推出AWS79062SPR-Q1车规级低噪声CMOS双通道运算放大器
    的头像 发表于 05-29 18:03 703次阅读
    【新品发布】艾为车规级<b class='flag-5'>AWS</b>79062SPR-Q1,高带宽轨到轨运算放大器的新巅峰

    Arm+AWS实现AI定义汽车 基于Arm KleidiAI优化并由AWS提供支持

    文中介绍的车载生成式 AI 应用演示 Arm KleidiAI 进行优化并由 AWS 所提供的服务进行支持,展示了新兴技术如何帮助解决汽车行业的实际挑战。该解决方案可实现 1 至 3 秒的响应时间并将开发时间缩短数周,证明更高效且离线可用的生成式 AI 应用不仅能够实现
    的头像 发表于 04-03 19:24 1676次阅读
    Arm+<b class='flag-5'>AWS</b>实现AI定义汽车  基于Arm KleidiAI优化并由<b class='flag-5'>AWS</b>提供支持

    在Amazon Web Services* Compute Cloud实例中运行时Benchmark_App失败了的原因?

    AWS* EC2 实例上使用 [i]-infer_precision CPU:bf16 参数时,ran Benchmark_App 失败,但未能完成。
    发表于 03-05 10:08

    AWS Graviton4处理器上运行大语言模型的性能评估

    亚马逊云科技 (AWS) 新一代基于 Arm 架构的定制 CPU —— AWS Graviton4 处理器已于 2024 年 7 月正式上线。这款先进的处理器基于 64 位 Arm 指令集架构的 Arm Neoverse V2
    的头像 发表于 02-24 10:28 1245次阅读
    在<b class='flag-5'>AWS</b> Graviton4处理器上运行大语言模型的性能评估

    伟创力珠海B11工厂荣获AWS Core Level认证

    近日,伟创力珠海B11工厂在国际可持续水管理领域取得了重大突破,成功获得国际可持续水管理联盟(Alliance for Water Stewardship,简称AWS)Core Level认证。这一
    的头像 发表于 01-21 14:42 1127次阅读

    亚马逊云科技发布Amazon Trainium2实例

    近期,亚马逊云科技宣布了一项重要更新:基于Amazon Trainium2的全新Amazon Elastic Compute Cloud(Amazon EC2)Trn2实例现已正式推出
    的头像 发表于 12-27 14:57 893次阅读

    芯享程半导体发布高性能运算放大器AWS8611

    上海芯享程半导体有限公司近日宣布,正式推出其最新研发的4.5V到60V零温漂低失调电压低噪声运算放大器——AWS8611。这款高性能运算放大器芯片以其独特的技术优势和创新设计,成为精密数据采集
    的头像 发表于 12-27 14:15 1304次阅读

    Arm Neoverse 驱动 AWS Graviton4,加速云计算新时代

    满足性能提升、成本降低以及符合监管和可持续发展目标的新能效基准。 近日,Arm与亚马逊云科技(AWS)的长期合作,正致力于通过专用芯片和计算技术,推动云计算向更高性能、更高效和更可持续的方向发展。在AWS re:Invent 2
    的头像 发表于 12-23 17:38 964次阅读

    Arm与AWS合作深化,AWS Graviton4展现显著进展

    Arm与亚马逊云科技(AWS)的长期合作关系,一直致力于为云计算领域带来性能更强劲、更高效和可持续的解决方案。双方通过专用芯片和计算技术的结合,不断推动云计算的发展。 在近期举行的AWS re
    的头像 发表于 12-18 14:17 851次阅读

    亚马逊转向Trainium芯片,全力投入AI模型训练

    ,亚马逊AWS推出了两款芯片:Inferentia和Trainium。其中,Inferentia主要用于AI推理,而Trainium则专注于
    的头像 发表于 12-13 14:14 964次阅读

    苹果或与博通携手研发人工智能芯片

    工智能芯片进行预训练。 Dupin指出,多年来,苹果一直依赖AWS芯片,如Graviton和Inferentia,为Siri、搜索、App Store、Apple Music和Apple Maps等服务提供
    的头像 发表于 12-12 14:01 901次阅读