0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊云科技宣布Amazon Trainium2实例正式可用

全球TMT 来源:全球TMT 作者:全球TMT 2024-12-06 09:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

亚马逊云科技推出新一代AI训练芯片Amazon Trainium3

全新Amazon EC2 Trn2实例采用亚马逊云科技最新的Trainium2 AI芯片,性价比较当前基于GPU的EC2实例提升30-40%

全新Amazon EC2 Trn2 UltraServers采用NeuronLink超速互连技术,将四个Trn2服务器连接成一个大型服务器,能够在亚马逊云科技上为超大规模模型提供超快速的训练和推理

北京2024年12月5日/美通社/ -- 亚马逊云科技在2024 re:Invent全球大会上,宣布基于Amazon Trainium2的Amazon Elastic Compute Cloud(Amazon EC2)Trn2实例正式可用,并推出全新的Amazon EC2 Trn2 UltraServers,让用户以优越的性价比训练和部署最新的人工智能模型,以及未来的大语言模型(LLM)和基础模型(FM)。此外,亚马逊云科技还发布了新一代Amazon Trainium3芯片。

wKgZO2dRoUKAalitAABcr--ZvVY405.jpg


Amazon Trainium2芯片


Amazon EC2 Trn2 UltraServers


Amazon EC2 Trn2 实例服务器模块

与当前基于GPU的EC2 P5e和P5en实例相比,Amazon EC2 Trn2实例的性价比提升30-40%。它配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和部署具有数十亿参数的大型语言模型(LLMs)。

全新推出的Amazon EC2 Trn2 UltraServers服务器机型配备64个相互连接的Trainium2芯片,采用NeuronLink超速互连技术,可提供高达83.2 Petaflops浮点算力,其计算、内存和网络能力是单一实例的四倍,能够支持训练和部署超大规模的模型。

亚马逊云科技携手Anthropic正打造名为Project Rainier的EC2 UltraCluster,其包含数十万颗Trainium2 芯片,所达到的超级算力比他们当前一代领先AI模型训练所需算力高出5倍以上。

亚马逊云科技推出了新一代AI芯片Trainium3,帮助客户更快速地构建更大规模的模型,并在部署时提供更优的实时性能。

亚马逊云科技计算和网络副总裁David Brown表示:"Amazon Trainium2是专为支持大型、前沿的生成式AI工作负载而设计的,能够满足训练和推理的需求,并在亚马逊云科技上提供卓越的性价比。随着模型参数接近万亿,我们意识到客户需要一种创新的方法来高效训练和运行规模庞大的工作负载。在亚马逊云科技上,全新的Amazon EC2 Trn2 UltraServers提供超快速的训练和推理性能,帮助各类企业以更快的速度和更低的成本训练和部署世界上最大的模型。"

随着模型规模的不断扩大,客户希望缩短训练时间和推理延迟,这对计算和网络基础设施提出了更高的要求。亚马逊云科技已提供广泛的Amazon EC2加速实例选择,包括基于GPU和机器学习芯片的实例。然而,即使是目前最快的加速实例,客户仍希望实现更高的性能和更大的可扩展性,以更低的成本更快地训练这些日益复杂的模型。随着模型复杂性和数据量的增加,因为并行化的限制,单纯扩大集群规模已无法有效缩短训练时间。同时,实时推理的需求也超出了单实例架构的承载能力。

Amazon EC2 Trn2实例为深度学习和生成式AI提供卓越性能

与当前基于GPU的EC2实例相比,Amazon EC2 Trn2的性价比提升30%至40%。单个Trn2实例集成了16个Trainium2 芯片,通过NeuronLink超速高带宽、低延迟的芯片之间的互联,可提供高达20.8 Petaflops浮点算力,非常适合训练和部署数十亿参数的模型。

Amazon EC2 Trn2 UltraServers满足全球超大模型日益增长的AI计算需求

对于需要更强算力的超大模型,Amazon EC2 Trn2 UltraServers使客户能够突破单个Trn2实例的限制进行扩展,从而减少训练时间,加快投放市场的速度,实现快速迭代以提高模型准确性。作为全新的EC2产品,Trn2 UltraServers利用NeuronLink超速互联将四个Trn2服务器连接为一个巨型服务器。客户通过全新Trn2 UltraServers,可以在64个Trainium2芯片上扩展他们的生成式AI工作负载。在推理工作负载方面,客户可以使用Trn2 UltraServers提升生产环境中万亿参数模型的实时推理性能。亚马逊云科技正在与Anthropic共同构建一个名为Project Rainier的 EC2 UltraCluster计算集群,该集群由Trn2 UltraServers组成,能够在数十万个Trainium2芯片之间通过第三代低延迟的PB级EFA网络进行分布式模型训练——其运算能力比Anthropic当前一代领先AI模型训练所需算力高出5倍以上。该项目完成后,预计将成为全球最大可用的AI计算集群,供Anthropic构建和部署未来模型使用。

Anthropic专注于AI安全和研究,致力于打造可靠、可解释和可控的AI系统。Anthropic的旗舰产品Claude是全球数百万用户信赖的大型语言模型。作为Anthropic与亚马逊云科技深化合作的一部分,Anthropic已开始优化Claude模型,以便在亚马逊最先进的AI硬件Trainium2上运行。Anthropic将使用数十万个Trainium2芯片,该规模是其之前集群的五倍以上,为使用Amazon Bedrock上的Claude 客户提供卓越的性能表现。

Databricks Mosaic AI使企业能够构建和部署高质量的智能体系统。该系统基于数据湖仓原生架构,用户可以轻松、安全地使用企业数据定制模型,从而提供更准确和特定领域的输出。得益于Trainium的高性能和成本效益,客户能够以较低的成本在Mosaic AI上扩展模型训练。随着全球客户对Mosaic AI需求的不断增长,Trainium2的推出将为Databricks及其客户带来重大优势。作为全球最大的数据和AI公司之一,Databricks计划使用Trainium2为客户提供更优的性能,并将总体拥有成本降低多达30%。

Hugging Face是全球领先的AI开发者开源平台,拥有超过200万个模型、数据集和AI应用,其用户社区涵盖了超过500万名研究人员、数据科学家、机器学习工程师和软件开发者。在过去几年中,Hugging Face与亚马逊云科技合作,帮助开发者通过Optimum Neuron开源库体验Amazon Inferentia和Amazon Trainium的性能与成本优势。该库已集成到Hugging Face Inference Endpoints中,并在新的HUGS自部署服务中进行了优化,用户可以在亚马逊云科技Marketplace获取。随着Trainium2的发布,Hugging Face用户将享受更高的性能,从而更快地开发和部署模型。

poolside致力于构建一个由AI驱动的世界,以推动有经济价值的工作和科学进步。他们相信,软件开发将成为神经网络中第一个达到人类智慧水平的重要能力。为此,poolside正在打造基础模型(FMs)、API和助手应用,以将生成式AI的优势带给开发者。而为了实现这一目标的关键就在于他们构建和运行产品所用的基础设施。借助Amazon Trainium2,poolside的客户将获得优于其他AI加速器的性价比扩展其服务。此外,Poolside计划利用Amazon EC2 Trainium2 UltraServers训练未来的模型,这将比使用Amazon EC2 P5实例预计可节省40%的成本。

Amazon Trainium3芯片,专为新一代前沿生成式AI工作负载的高性能需求而设计

亚马逊云科技发布了新一代AI训练芯片Amazon Trainium3。Trainium3是亚马逊云科技首款采用3纳米工艺制造的芯片,在性能、能效和密度上树立了新标杆。搭载Trainium3的UltraServers性能预计将是Trn2 UltraServers的4倍,使客户在构建模型时能够更快迭代,并在部署时提供卓越的实时性能。首批基于Trainium3的实例预计将在2025年末上线。

Amazon Neuron Software助力客户充分发挥Trainium2性能

Amazon Neuron SDK包括编译器、运行时库和工具,帮助开发者优化模型以在Trainium上运行。它让开发者具有在Trainium芯片上优化模型以获得最佳性能的能力。它与JAX和PyTorch等热门框架原生集成,使客户在Trainium上使用现有代码和工作流时只需进行少量代码修改。同时,Neuron支持Hugging Face模型库中的超过10万个模型。通过Neuron Kernel Interface(NKI),开发者可以直接访问裸机的Trainium芯片,编写计算内核以最大限度地提升计算密集型工作负载的性能。

Amazon Neuron旨在简化使用JAX等流行框架在Trainium2上训练和部署模型,同时尽量减少代码更改和对特定供应商解决方案的依赖。谷歌支持亚马逊云科技通过其原生的OpenXLA集成,使客户能够使用JAX进行大规模训练和推理,提供简单灵活的编码路径,帮助用户快速上手Trn2实例。随着行业内广泛的开源协作,以及Trainium2的推出,谷歌预计JAX在机器学习社区的应用将显著增加,这将成为整个机器学习生态系统的重要里程碑。

目前,Amazon EC2 Trn2实例在美国东部(俄亥俄)区域已正式可用,其他区域也即将推出。Amazon EC2 Trn2 UltraServers目前预览可用。


审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53562

    浏览量

    459355
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5102

    浏览量

    134480
  • 服务器
    +关注

    关注

    13

    文章

    10096

    浏览量

    90904
  • 亚马逊
    +关注

    关注

    8

    文章

    2722

    浏览量

    85444
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊发布新一代AI芯片Trainium3,性能提升4倍

    Trainium 4的开发计划。亚马逊表示,这款芯片能够比英伟达市场领先的图形处理单元(GPU)更便宜、更高效地驱动AI模型背后的密集计算。     作为亚马逊首款3纳米工艺AI芯片,Trai
    的头像 发表于 12-09 08:37 6040次阅读
    <b class='flag-5'>亚马逊</b>发布新一代AI芯片<b class='flag-5'>Trainium</b>3,性能提升4倍

    亚马逊科技上线Amazon Nova多模态嵌入模型

    专为Agentic RAG与语义搜索量身打造,以行业顶尖的准确率实现跨模态检索 北京2025年10月29日 /美通社/ -- 亚马逊科技宣布Amazon Nova Multimod
    的头像 发表于 10-29 17:15 123次阅读
    <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技上线<b class='flag-5'>Amazon</b> Nova多模态嵌入模型

    亚马逊科技Amazon Bedrock AgentCore正式可用,引领Agent走向全面落地

    Amazon Bedrock AgentCore打破原型困境,助力Agent安全、可扩展、高可靠地投入生产   北京——2025年10月14日  亚马逊科技宣布
    的头像 发表于 10-14 17:06 615次阅读
    <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技<b class='flag-5'>Amazon</b> Bedrock AgentCore正式<b class='flag-5'>可用</b>,引领Agent走向全面落地

    亚马逊科技推出Amazon Quick Suite,引领Agentic AI驱动的工作新范式

    Amazon Quick Suite帮助客户 突破 信息碎片化、应用孤岛 化 和重复性 工作 的 干扰 , 专注于**真正重要的 事情上 。 要点概述 Amazon Quick Suite是亚马逊
    的头像 发表于 10-10 14:50 468次阅读

    亚马逊科技在中国区域推出Amazon Graviton4实例 以自研芯片驱动企业算力升级

    北京2025年9月10日 /美通社/ -- 亚马逊科技宣布,通过与光环新网和西数据的紧密合作,在亚马逊
    的头像 发表于 09-10 20:51 561次阅读

    亚马逊科技推出Amazon DocumentDB Serverless,简化数据库管理并大幅节省成本

    北京2025年8月15日 /美通社/ -- 亚马逊科技日前宣布Amazon DocumentDB Serverless已正式可用,这是
    的头像 发表于 08-15 13:11 431次阅读

    亚马逊科技推出Amazon Nova Act SDK预览版,加速浏览器自动化Agent落地

    北京2025年8月5日 /美通社/ -- 亚马逊科技日前宣布,推出Amazon Nova Act SDK有限预览版,可快速帮助客户将基于浏览器的Agent从原型部署至生产环境。该SD
    的头像 发表于 08-06 08:42 655次阅读

    亚马逊功能最强模型Amazon Nova Premier现已正式可用

    北京 2025年5月6日 /美通社/ -- 亚马逊日前宣布Amazon Nova Premier已正式可用,进一步扩展了Amazon Nov
    的头像 发表于 05-09 18:18 453次阅读
    <b class='flag-5'>亚马逊</b>功能最强模型<b class='flag-5'>Amazon</b> Nova Premier现已正式<b class='flag-5'>可用</b>

    亚马逊科技推出Amazon GameLift Streams助力开发者实现游戏全平台跨设备串流

    亚马逊科技全新功能可助力游戏开发者触达全球更多玩家,拓展变现机会并提升收入   北京 ——2025 年 3 月 13 日 亚马逊科技宣布
    发表于 03-13 13:36 383次阅读

    NeuroBlade携手亚马逊EC2 F2实例,加速数据分析

    数据分析加速领域的领航者NeuroBlade,近日宣布亚马逊科技(AWS)最新推出的Amazon Elastic Compute Cloud (
    的头像 发表于 12-31 11:37 821次阅读

    亚马逊科技发布Amazon Trainium2实例

    近期,亚马逊科技宣布了一项重要更新:基于Amazon Trainium2的全新Amazon E
    的头像 发表于 12-27 14:57 894次阅读

    亚马逊科技发布Amazon Q Developer,助力工作负载转型

    在近日举行的2024亚马逊科技re:Invent全球大会上,一项旨在加速大规模传统工作负载转型的新功能——Amazon Q Developer,正式亮相。这款功能强大的软件开发生成式人工智能(AI
    的头像 发表于 12-26 11:32 914次阅读

    亚马逊科技发布Amazon Bedrock新功能

    近日,亚马逊科技宣布了一项重要更新——为其完全托管的Amazon Bedrock服务增添了多项创新功能。Amazon Bedrock旨在通
    的头像 发表于 12-25 15:52 784次阅读

    亚马逊科技发布Amazon S3新功能

    近日,亚马逊科技宣布了一项重大更新,为其旗舰产品Amazon Simple Storage Service(简称Amazon S3)推出了
    的头像 发表于 12-20 11:03 923次阅读

    亚马逊转向Trainium芯片,全力投入AI模型训练

    近日,亚马逊宣布了一项重大决策,决定停止Inferentia AI芯片的开发,转而将全部精力投入到Trainium芯片的研发上,以此作为与英伟达竞争的新策略。 自2018年进军AI芯片领域以来
    的头像 发表于 12-13 14:14 966次阅读