0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AWS推出由AWS设计的AWS Trainium2芯片系列

旺材芯片 来源:旺材芯片 2023-11-29 17:30 次阅读

一年多来,我们一直期待Amazon Web Services在今年的re:Invent大会上为其本土服务器推出 Graviton4 处理器。正如预期,AWS首席执行官Adam Selipsky推出了第四代 Graviton CPU系列,包括去年针对HPC工作负载的超频Graviton3E处理器。

Selipsky在主题演讲期间没有强制举起Graviton4 芯片,这很奇怪。

Graviton4 提高了各种工作负载的性价比和能效标准

正如我们所预料的那样,Graviton4 也基于 Arm Ltd 的“Demeter”Neoverse V2 内核,该内核与 Nvidia 的“Grace”CG100 CPU 一样基于 Armv9 架构。(Nvidia 官方并没有给 Grace 一个与其 GPU 命名方案一致的产品名称,所以我们就暂且这样命名。C代表CPU,G代表Grace。)我们在2017年对Demeter V2核心进行了深入研究。9月份,Arm发布了“Genesis”计算子系统,与之前由AWS部署在Graviton3和Graviton3E处理器中使用的“Zeus”V1 内核相比,V2 内核的每时钟指令数提高了13%。

显然,这在 IPC中并不是一个大的跳跃,因为核心数量也在跳跃,这就是为什么我们还假设 AWS已经放弃了代工合作伙伴台积电用于蚀刻 Graviton3 和 Graviton3E 芯片的5纳米工艺,而是更密集且有些成熟的4纳米工艺。同样的4N工艺还用于制造 Nvidia 的 Grace CPU 及其“Hopper”GH100 GPU——这两款产品都席卷了生成式 AI 世界。

Graviton4 封装上有 96 个 V2 核心,比 Graviton3 和 Graviton3E 提升了 50%,而且与 8 个 DDR5 内存控制器相比,Graviton4 上有 12 个 DDR5 控制器,并且Graviton4使用的 DDR5内存速度频率提升了16.7%,达到5.6 GHz。通过数学计算,Graviton4 每个插槽的内存带宽为536.7 GB/秒,比之前的Graviton3和Graviton3E处理器提供的307.2 GB/秒高出 75%。

在 Selipsky 的演示以及 AWS 发布的有关 Graviton4 的有限规格中,该公司表示通用 Web 应用程序在 Graviton4 上的运行速度比在 Graviton3 上快 30%(不是 Graviton3E,它超频且很热),但数据库的运行速度将提高 40%,大型 Java 应用程序的运行速度将提高 45%。现在,这可能意味着AWS已经在V2核心中实现了同步多线程 (SMT),为每个核心提供两个线程,就像英特尔AMD 的 X86 处理器以及一些 Arm 芯片过去所做的那样。

我们不这么认为,下面的比较显着特征表显示每个套接字有 96 个线程,而不是 192 个线程。我们认为每个套接字有 96 个线程,并且每个核心的二级缓存加倍至2MB对Java和数据库应用程序的性能产生了巨大的影响。您可以通过添加双向SMT获得3倍的vCPU,但这不会为您提供3倍的内存。与 Graviton3 芯片相比,它的内存仍然只有 1.5 倍。

AWS 在其博客中提到的有关使用 Graviton4 芯片的新 R8g 实例的其他内容也让我们犹豫不决:“R8g 实例提供了更大的实例大小,比当前一代 R7g 实例多出 3 倍的 vCPU 和 3 倍的内存。”

R8g 拥有 96 个核心和十几个内存控制器(均比 Graviton3 提升了 1.5 倍),您只会期望 R8g 的 vCPU 数量是使用 Graviton3 芯片的 R7g 实例的 1.5 倍,而内存容量仅是使用 Graviton3 芯片的 R7g 实例的 1.5 倍。因此,我们认为这是 Graviton 系列的第一个双插槽实现。这也是我们认为 Graviton4 芯片拥有大约 9500 万到 1 亿个晶体管的原因之一,而不是您预期的 8250 万个晶体管(如果 AWS 只是在 Graviton3 设计中添加 50% 的核心并保持不变)。我们认为,L2 缓存加倍、增加四个 DDR5 内存控制器以及一对现在也进行线速加密的 I/O 控制器也增加了晶体管预算。

Graviton4在另一个方面也值得注意。过去,Neoverse模块以32核或64核模块完成,Arm建议使用具有UCI-Express或CCIX互连的小芯片来构建更大的处理器复合体。制作自己的 Arm CPU设计的公司总是可以实现单片芯片,出于延迟和功耗的原因,您会这样做。这些互连不是免费的,尤其是具有 96 个内核的芯片,其产量会比 32 个内核或 64 核心低得多。这也是有代价的。

因此,从上面的芯片照片来看,我们认为 Graviton4 是一个双小芯片封装,其中一个小芯片与另一个小芯片旋转了 180 度。这可能就是为什么封装上中央核心复合体左侧和右侧的存储控制器小芯片彼此偏移的原因。

我们认为 Graviton4 与前几代芯片的比较如下:

4bb344a4-8e99-11ee-939d-92fbcf53809c.jpg

诚然猜测,我们认为 Graviton4 的性能比 Graviton3E 稍差,但达到该目标所需的功耗却低了近一半,并且内存容量高出 50%,带宽高出 75%,功耗大约为 130 瓦。功率包络具有更低且更理想的 2.7 GHz 时钟速度。

根据我们估计的这些数字(粗体红色斜体显示),Graviton4 芯片的每瓦性能(按 ECU 性能单位测量)与 Graviton3 大致相同,这几乎是您在工艺适度缩减的情况下所希望的一切。

随着更多细节的出现,我们将更新这个故事。

还有一件事:AWS 在其公告中表示(但 Selipsky 并没有在他的主题演讲中吹嘘),迄今为止,它已在其机群中部署了超过 200 万个 Graviton 处理器,并拥有超过 50,000 个客户使用过它们。

这是一个非常可观的 CPU 数量,如果 AWS 没有开始内部生产 Graviton,这些芯片将全部来自 Intel、AMD,甚至可能来自 Ampere Computing。但他们没有。这就是为什么将您的业务计划固定给超大规模提供商和云构建商是一个冒险的提议。

Trainum2旨在云中提供最高性能、最节能的AI模型训练基础设施

此外,AWS还在大会上推出了由 AWS 设计的AWS Trainium2 芯片系列。

Graviton4 和 Trainium2 标志着 AWS 芯片设计的最新创新。随着每一代芯片的推出,AWS 都提供了更好的性价比和能效,除了采用 AMD、Intel 和 NVIDIA 等第三方最新芯片的芯片/实例组合之外,还为客户提供了更多选择,以运行几乎任何应用程序或Amazon Elastic Compute Cloud (Amazon EC2) 上的工作负载。

据了解,Trainium2 的设计速度比第一代 Trainium 芯片快 4 倍,并且能够部署在多达 100,000 个芯片的 EC2 UltraCluster 中,从而可以在一个简单的环境中训练基础模型 (FM) 和大型语言模型 (LLM)。时间的一小部分,同时将能源效率提高了 2 倍。

AWS 计算和网络副总裁 David Brown 表示:“硅支撑着每个客户工作负载,使其成为 AWS 创新的关键领域。”“通过将我们的芯片设计重点放在对客户重要的实际工作负载上,我们能够为他们提供最先进的云基础设施。Graviton4 标志着我们在短短五年内推出的第四代芯片,是我们为各种工作负载打造的最强大、最节能的芯片。随着人们对生成式 AI 兴趣的高涨,Tranium2 将帮助客户以更低的成本和更高的能源效率更快地训练他们的 ML 模型。”

当今新兴的生成式人工智能应用背后的 FM 和 LLM 接受过海量数据集的培训。这些模型使客户能够通过创建各种新内容(包括文本、音频、图像、视频甚至软件代码)来完全重新想象用户体验。当今最先进的 FM 和 LLM 的参数范围从数千亿到数万亿不等,需要可靠的高性能计算能力,能够扩展到数万个机器学习芯片。AWS 已经提供了最广泛、最深入的采用 ML 芯片的 Amazon EC2 实例选择,包括最新的 NVIDIA GPU、Trainium 和 Inferentia2。如今,包括 Databricks、Helixon、Money Forward 和 Amazon Search 团队在内的客户使用 Trainium 来训练大规模深度学习模型,充分利用 Trainium 的高性能、规模、可靠性和低成本。但即使拥有当今最快的加速实例,客户也希望获得更高的性能和规模,以便以更低的成本更快地训练这些日益复杂的模型,同时减少他们使用的能源量。

Trainium2 芯片专为 FM 和 LLM 的高性能训练而设计,参数高达数万亿个。与第一代 Trainium 芯片相比,Trainium2 的训练性能提高了 4 倍,内存容量提高了 3 倍,同时能效(性能/瓦特)提高了 2 倍。Trainium2 将在 Amazon EC2 Trn2 实例中提供,单个实例中包含 16 个 Trainium 芯片。Trn2 实例旨在使客户能够在下一代 EC2 UltraCluster 中扩展多达 100,000 个 Trainium2 芯片,与 AWS Elastic Fabric Adapter (EFA) 拍级网络互连,提供高达 65 exaflops 的计算能力,并为客户提供对超级计算机的按需访问一流的性能。凭借这种规模,客户可以在数周而不是数月内培训 3000 亿个参数的 LLM。通过以显着降低的成本提供最高的横向扩展 ML 训练性能,Trn2 实例可以帮助客户解锁并加速生成 AI 的下一波进步。

一家人工智能安全和研究公司Anthropic表示,“我们正在与 AWS 密切合作,使用 Trainium 芯片开发未来的基础模型。Trainium2 将帮助我们大规模构建和训练模型,对于我们的一些关键工作负载,我们预计它的速度至少比第一代 Trainium 芯片快 4 倍。我们与 AWS 的合作将帮助各种规模的组织释放新的可能性,因为他们将 Anthropic 最先进的人工智能系统与 AWS 安全、可靠的云技术结合使用。”

来源:EETOP







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    112

    文章

    15223

    浏览量

    171189
  • smt
    smt
    +关注

    关注

    36

    文章

    2722

    浏览量

    67431
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130561
  • AWS
    AWS
    +关注

    关注

    0

    文章

    393

    浏览量

    23931
  • DDR5
    +关注

    关注

    1

    文章

    370

    浏览量

    23603

原文标题:AWS推出下一代自研芯片

文章出处:【微信号:wc_ysj,微信公众号:旺材芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    亚马逊推新,阿里达摩院退出,融资规模大幅下滑后量子计算还是好生意吗?

    电子发烧友网报道(文/吴子鹏)在亚马逊的“AWS re:Invent 2023”活动中,其云计算部门AWS宣布推出两款新的自研芯片,分别是Graviton4和
    的头像 发表于 11-30 00:12 2640次阅读
    亚马逊推新,阿里达摩院退出,融资规模大幅下滑后量子计算还是好生意吗?

    stm32 AWS云连接怎么使用?

    stm32 AWS云连接怎么使用,官方的扩展包看不明白
    发表于 04-01 07:21

    爱立信旗下Vonage与AWS推出新欺诈保护解决方案

    近日,爱立信旗下的全球云通信平台 Vonage 与亚马逊网络服务(AWS)达成重要合作。双方将结合 Vonage 基于通信 API 与网络 API 的平台、爱立信的 5G 网络能力以及 AWS 的广泛服务,通过 AWS Mark
    的头像 发表于 03-06 09:28 176次阅读

    安装和使用AWS角度传感器的注意事项

    安装和使用AWS角度传感器的注意事项  安装和使用AWS角度传感器是一项重要而复杂的任务。这些传感器通常用于监控和收集环境数据,如温度、湿度、气压等,以帮助监控设备的状态和预测可能发生的问题。在安装
    的头像 发表于 01-04 16:00 192次阅读

    亚马逊AWSTrainium2 AI架构

    AWS最新推出Trainium2 AI训练引擎在re:Invent 2023主机上首次亮相,引起广泛关注,通过与AWS实验室的Gadi Hutt的交流和对技术文档的挖掘,可以试图深入
    发表于 12-14 11:48 167次阅读
    亚马逊<b class='flag-5'>AWS</b>的<b class='flag-5'>Trainium2</b> AI架构

    AWS成为第一个提供NVIDIA GH200 Grace Hopper超级芯片的提供商

    2023年的AWS re:Invent大会上,AWS和NVIDIA宣布AWS将成为第一个提供NVIDIA GH200 Grace Hopper超级芯片的云服务提供商。
    的头像 发表于 11-30 09:24 329次阅读
    <b class='flag-5'>AWS</b>成为第一个提供NVIDIA GH200 Grace Hopper超级<b class='flag-5'>芯片</b>的提供商

    AT32基于FreeRTOS的AWS MQTT客户端

    AT32基于FreeRTOS的AWS MQTT客户端建立一个MQTT客户端与 AWS IoT Core进行通讯,用户可以基于这个范例去开发属于自己的应用。
    发表于 10-26 06:03

    Commvault加入AWS ISV工作负载迁移计划(WMP)

    Commvault积极参与相关计划,加快客户上云速度,其备份和恢复解决方案已通过AWS合作伙伴解决方案架构师验证 中国北京,2023年9月7日——全球本地、云和SaaS环境智能数据管理领域的公认
    的头像 发表于 09-08 16:33 370次阅读

    使用AWS Greengras和Lambdas 进行推论样品的情况

    aws_cloud_to_edge_pipeline.zip 2. 从卸载下载软件包的目录, 导航到 aws_ greengass_ usecase/ 目录。 cd
    发表于 08-03 08:48

    立讯电子荣获AWS黄金级认证

    近日,立讯精密旗下昆山联滔电子有限公司、立讯电子科技(昆山)有限公司分别通过第三方检测、检验和认证机构TUV莱茵审核,荣获国际可持续水管理联盟(AWS)黄金级认证,成为立讯精密首批获此荣誉的两个工厂
    的头像 发表于 07-25 16:53 467次阅读

    基于AWS的物联网虚拟环境站

    电子发烧友网站提供《基于AWS的物联网虚拟环境站.zip》资料免费下载
    发表于 07-05 11:03 0次下载
    基于<b class='flag-5'>AWS</b>的物联网虚拟环境站

    使用AWS的IoT环境站第2部分

    电子发烧友网站提供《使用AWS的IoT环境站第2部分.zip》资料免费下载
    发表于 07-04 14:26 0次下载
    使用<b class='flag-5'>AWS</b>的IoT环境站第2部分

    联发科linkIt One的AWS IoT黑客系列开源分享

    电子发烧友网站提供《联发科linkIt One的AWS IoT黑客系列开源分享.zip》资料免费下载
    发表于 06-20 15:19 0次下载
    联发科linkIt One的<b class='flag-5'>AWS</b> IoT黑客<b class='flag-5'>系列</b>开源分享

    AWS DeepRacer到自动驾驶漫游车

    电子发烧友网站提供《AWS DeepRacer到自动驾驶漫游车.zip》资料免费下载
    发表于 06-19 10:47 0次下载
    <b class='flag-5'>AWS</b> DeepRacer到自动驾驶漫游车

    AWS的使命——剑指x86,扶Arm上位

    AWS是少数几个敢于挑战英特尔王座的厂商之一,并且带来了强大的冲击。2015年初,AWS收购了一家名为Annapurna Labs的半导体公司,投资约3.7亿美元。这家以色列初创公司曾是Arm的授权厂商。
    的头像 发表于 06-09 17:33 698次阅读
    <b class='flag-5'>AWS</b>的使命——剑指x86,扶Arm上位