0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Amazon EC2 Inf2实例正式可用 助力低成本、高性能的生成式AI推理

全球TMT 来源:全球TMT 作者:全球TMT 2023-04-21 14:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深度学习(DL)的创新,特别是大语言模型(LLM)的快速发展,已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如生成式AI或医疗保健和生命科学的高级研究。亚马逊云科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速深度学习工作负载的大规模应用。

亚马逊云科技在2022 re:Invent 全球大会上,以其最新的自研机器学习推理芯片Amazon Inferentia2为基础,发布了AmazonEC2 Inf2系列实例的预览版。AmazonEC2 Inf2类型实例专门针对全球大规模运行高性能深度学习推理应用程序,为部署在EC2上的生成式AI应用提供最佳性价比,其中包含GPT-J或开放式预训练Transformer(OPT)语言模型。

现在,亚马逊云科技宣布Amazon EC2 Inf2实例正式可用。

Inf2实例是AmazonEC2上首个推理优化的实例,支持可扩展的分布式推理,可实现多个inferentia2芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与Amazon EC2 Inf1实例相比,Inf2实例的吞吐量提高4倍,延迟降低10倍。

新Inf2实例的亮点

Inf2实例目前有四种可用实例类型,最高扩展至12个Amazon Inferentia2芯片和192个vCPU配置。在BF16或FP16数据类型下,它们能够提供2.3 petaFLOPS的综合计算能力,并具有芯片间超高速NeuronLink互连的功能。NeuronLink可在多个Inferentia2芯片上扩展大模型,避免通信瓶颈,实现更高性能的推理。

每个Inferentia2芯片内有32 GB的高带宽内存(HBM),最高配置的Inf2 实例可提供高达384 GB的共享加速器内存,总内存带宽为9.8 TB/s。对于需要大内存支持的的大型语言模型而言,这种带宽对于支持模型推理尤为重要。

基于专门为深度学习工作负载而构建的Amazon Inferentia2芯片的Amazon EC2 Inf2,相比同类实例,单位功率性能高出了50%。

AmazonInferentia2的创新之处

与亚马逊自研机器学习训练芯片Amazon Trainium类似,每个Amazon Inferentia2芯片都配有两个经过优化的NeuronCore-v2引擎、高带宽内存(HBM)堆栈和专用的集体计算引擎,以便在执行多加速器推理时实现计算与通信的并行。

每个NeuronCore-v2都有专为深度学习算法构建的标量、向量和张量三种引擎,其中张量引擎针对矩阵运算进行了优化;标量引擎针对ReLU(修正线性单元)函数等元素性操作进行了优化;向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。

以下是Amazon Inferentia2芯片和服务器硬件其他创新总结:

数据类型——Amazon Inferentia2 支持多种数据类型,包括FP32、TF32、BF16、FP16 和UINT8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置FP8(cFP8)数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和I/O 要求。

动态执行和动态输入形状——Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器DSP),因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。

自定义运算符——Amazon Inferentia2支持用C++语言编写的自定义运算符。Neuron自定义C++运算符使用户能够编写在NeuronCore上天然运行的C++自定义运算符。用户可以使用标准的PyTorch自定义运算符编程接口将CPU 自定义运算符迁移到Neuron 并实现新的实验运算符,所有这些都无需对NeuronCore 硬件有任何深入了解。

NeuronLink v2——Inf2实例是AmazonEC2类型中首个将NeuronLink V2 用于推理优化的实例,NeuronLink v2 为Inferentia2芯片间的提供超高速连接,加强分布式推理性能。NeuronLink v2使用all-reduce等聚合通信(CC)运算符,将高性能推理管道扩展到所有的推理芯片上。

新Inf2实例现已可用

用户可在亚马逊云科技美东(俄亥俄州)和美东(北弗吉尼亚州)地区启动Inf2实例,以按需、预留和竞价实例或Savings Plan方式调用。用户仅需为其实际使用的服务付费。如需了解更多相关信息,请访问Amazon EC2定价网站。

Inf2实例可使用亚马逊云科技深度学习镜像进行部署,并可通过Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon ParallelCluster等托管服务调用。

如需了解更多信息,请访问Amazon EC2 Inf2实例页面,并将相关反馈发送给Amazon re:Post for EC2;或垂询您的AmazonSupport联系人。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    339

    文章

    31241

    浏览量

    266587
  • AI
    AI
    +关注

    关注

    91

    文章

    41138

    浏览量

    302608
  • 亚马逊
    +关注

    关注

    8

    文章

    2736

    浏览量

    85890
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124635
  • 生成式AI
    +关注

    关注

    0

    文章

    538

    浏览量

    1133
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RZ/V2M:助力嵌入设备的Vision AI高性能芯片

    RZ/V2M:助力嵌入设备的Vision AI高性能芯片 在当今嵌入设备飞速发展的时代,Vi
    的头像 发表于 04-01 13:50 191次阅读

    SGM8541/2/4:低成本高性能CMOS运算放大器的卓越之选

    SGM8541/2/4:低成本高性能CMOS运算放大器的卓越之选 在电子设计的世界里,运算放大器是一个不可或缺的基础元件。今天,我们要深入探讨SGMICRO推出的SGM8541(单通道
    的头像 发表于 03-10 11:40 221次阅读

    新品 | AI Pyramid AI Pyramid-Pro,面向本地推理与智能交互的高性能AI PC

    AIPyramid是一款金字塔形状的高性能AIPC,专为本地AI推理与边缘智能应用而生。内置AxeraAX8850SoC,集成八核Cortex-A55处理器与24TOPS@INT8NPU,轻松应对
    的头像 发表于 02-06 17:24 3902次阅读
    新品 | <b class='flag-5'>AI</b> Pyramid <b class='flag-5'>AI</b> Pyramid-Pro,面向本地<b class='flag-5'>推理</b>与智能交互的<b class='flag-5'>高性能</b><b class='flag-5'>AI</b> PC

    ADA4851系列运算放大器:高性能低成本的完美结合

    ADA4851系列运算放大器:高性能低成本的完美结合 在电子工程师的设计世界里,寻找一款性能出色且成本合理的运算放大器并非易事。而今天要给大家介绍的ADA4851 - 1/ADA48
    的头像 发表于 01-23 16:20 353次阅读

    低成本CMOS高速轨到轨放大器ADA4891-2高性能与多功能的完美结合

    的ADA4891-1/ADA4891-2/ADA4891-3/ADA4891-4系列CMOS高速放大器,它以低成本实现高性能,为众多应用场景提供了理想解决方案。 文件下载: ADA4891-2
    的头像 发表于 01-22 16:45 453次阅读

    低成本高性能之选,TI单通道模拟开关助力便携设备

    低成本高性能之选,TI单通道模拟开关助力便携设备 在我们日常使用的电子产品中,模拟开关无处不在,它是信号切换和路由的关键部件。好的模拟开关不仅能提高信号传输的质量,还能降低功耗,延长设备的续航时间
    的头像 发表于 01-15 09:30 275次阅读

    亚马逊云科技推出全新的Amazon AI Factories 将客户现有基础设施转化为高性能AI环境

    亚马逊云科技在2025 re:Invent全球大会上,宣布推出全新的Amazon AI Factories,助力企业将现有基础设施转化为高性能AI
    的头像 发表于 12-13 13:44 859次阅读

    亚马逊新一代自研服务器芯片Graviton5问世,性能提升25%

    ,基于Graviton5的全新EC2 M9g实例性能提升高达25%,其每个芯片配备192核及5倍扩容缓存,助力客户在扩展工作负载、提升应用性能
    的头像 发表于 12-09 08:33 5633次阅读

    同系列性能更强!面向高性能 AI 应用,AXU2CGB-I 有何亮点?

    AXU2CGB-I 是一款基于 AMD Zynq UltraScale+ MPSoC XCZU2CG 的高性能 AI FPGA 开发平台,它在架构、存储配置与接口资源上进行了高规格设计
    的头像 发表于 11-12 16:56 1544次阅读
    同系列<b class='flag-5'>性能</b>更强!面向<b class='flag-5'>高性能</b> <b class='flag-5'>AI</b> 应用,AXU<b class='flag-5'>2</b>CGB-I 有何亮点?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源来提升泛化性能。 4、具身智能与渗透
    发表于 09-18 15:31

    亚马逊云科技在中国区域推出Amazon Graviton4实例 以自研芯片驱动企业算力升级

    Graviton4处理器的Amazon Elastic Compute Cloud(Amazon EC2)C8g、M8g和R8g实例,针对客户不同类型的工作负载进行优化。与
    的头像 发表于 09-10 20:51 906次阅读

    车载电器EMC整改:如何低成本实现高性能抗干扰

    南柯电子|车载电器EMC整改:如何低成本实现高性能抗干扰
    的头像 发表于 09-09 09:57 840次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    NVIDIA Quantum-2交换机等主流设备。 平滑扩展:与现有400G/100G设备无缝互通,降低数据中心升级成本。 多场景覆盖:从AI训练集群的“大象流”到AI
    发表于 08-13 19:01

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括由 NVIDIA Blackwell 加速
    的头像 发表于 07-28 14:31 1130次阅读
    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现了网络全流量深度解析能力与AI智能推理
    发表于 07-16 15:29