0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

​使用AWS Graviton降低Amazon SageMaker推理成本

jf_9aVl32Dp 来源:Arm软件开发者 作者:Arm软件开发者 2023-05-28 09:31 次阅读

作者:Sunita Nadampalli

Amazon SageMaker(https://aws.amazon.com/sagemaker/)提供了多种机器学习(ML)基础设施和模型部署选项,以帮助满足您的ML推理需求。它是一个完全托管的服务,并与MLOps工具集成,因此您可以努力扩展模型部署,降低推理成本,在生产中更有效地管理模型,并减轻操作负担。SageMaker提供多个推理选项(https://docs.aws.amazon.com/sagemaker/latest/dg/deploy-model.html#deploy-model-options),因此您可以选择最适合您工作负载的选项。

新一代CPU由于内置的专用指令在ML推理方面提供了显着的性能提升。在本文中,我们重点介绍如何利用基于AWS Graviton3(https://aws.amazon.com/ec2/graviton/)的Amazon Elastic Compute Cloud(EC2)C7g实例(https://aws.amazon.com/blogs/aws/new-amazon-ec2-c7g-instances-powered-by-aws-graviton3-processors/),以帮助在Amazon SageMaker上进行实时推理(https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html)时将推理成本降低高达50%,相对于可比较的EC2实例。我们展示了如何评估推理性能并在几个步骤中将您的ML工作负载切换到AWS Graviton实例。

为了涵盖广泛的客户应用程序,本文讨论了PyTorch、TensorFlow、XGBoost和scikit-learn框架的推理性能。我们涵盖了计算机视觉(CV)、自然语言处理(NLP)、分类和排名场景,以及用于基准测试的ml.c6g、ml.c7g、ml.c5和ml.c6i SageMaker实例。

基准测试结果

AWS Graviton3基于EC2 C7g实例相对于Amazon SageMaker上的可比EC2实例,可以为PyTorch、TensorFlow、XGBoost和scikit-learn模型推理带来高达50%的成本节省,同时推理的延迟也得到了降低 。

为了进行比较,我们使用了四种不同的实例类型:

• c7g.4xlarge(https://aws.amazon.com/ec2/instance-types/c7g/)

• c6g.4xlarge(https://aws.amazon.com/ec2/instance-types/c6g/)

• c6i.4xlarge(https://aws.amazon.com/ec2/instance-types/c6i/)

• c5.4xlarge(https://aws.amazon.com/ec2/instance-types/c5/)

这四个实例都有16个vCPU和32 GiB内存。

在下面的图表中,我们测量了四种实例类型每百万推理的成本。我们进一步将每百万推理成本结果归一化为c5.4xlarge实例,该实例在图表的Y轴上测量为1。您可以看到,对于XGBoost模型,c7g.4xlarge(AWS Graviton3)的每百万推理成本约为c5.4xlarge的50%,约为c6i.4xlarge的40%;对于PyTorch NLP模型,与c5和c6i.4xlarge实例相比,成本节省约30-50%。对于其他模型和框架,与c5和c6i.4xlarge实例相比,我们测得至少30%的成本节省。

0ff646be-fccc-11ed-90ce-dac502259ad0.jpg

与前面的推理成本比较图类似,下图显示了相同四种实例类型的模型p90延迟。我们进一步将延迟结果标准化为c5.4xlarge实例,在图表的Y轴中测量为1。c7g.4xlarge(AWS Graviton3)模型推理延迟比在c5.4xlage和c6i.4xla格上测量的延迟高出50%。

10273f94-fccc-11ed-90ce-dac502259ad0.jpg

迁移到AWS Graviton实例

要将模型部署到AWS Graviton实例,可以使用AWS深度学习容器(DLC)(https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-graviton-containers-sm-support-only),也可以自带与ARMv8.2体系结构兼容的容器(https://github.com/aws/deep-learning-containers#building-your-image)。

将模型迁移(或新部署)到AWS Graviton实例很简单,因为AWS不仅为使用PyTorch、TensorFlow、scikit-learn和XGBoost托管模型提供容器,而且模型在架构上也是不可知的。您也可以带上自己的库,但请确保您的容器是用支持ARMv8.2体系结构的环境构建的。有关更多信息,请参阅构建自己的算法容器(https://sagemaker-examples.readthedocs.io/en/latest/advanced_functionality/scikit_bring_your_own/scikit_bring_your_own.html)。

您需要完成三个步骤才能部署模型:

1.创建SageMaker模型。除其他参数外,它将包含有关模型文件位置、将用于部署的容器以及推理脚本的位置的信息。(如果已经在计算优化推理实例中部署了现有模型,则可以跳过此步骤。)

2.创建端点配置。这将包含有关端点所需的实例类型的信息(例如,对于AWS Graviton3,为ml.c7g.xlarge)、在上一步中创建的模型的名称以及每个端点的实例数。

3.使用在上一步中创建的端点配置启动端点。

有关详细说明,请参阅使用Amazon SageMaker在基于AWS Graviton的实例上运行机器学习推理工作负载(https://aws.amazon.com/blogs/machine-learning/run-machine-learning-inference-workloads-on-aws-graviton-based-instances-with-amazon-sagemaker/)。

性能基准管理方法

我们使用Amazon SageMaker Inference Recommender(https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html)来自动化不同实例的性能基准测试。该服务根据不同实例的延迟和成本来比较ML模型的性能,并推荐以最低成本提供最佳性能的实例和配置。我们使用推理推荐器收集了上述性能数据。有关更多详细信息,请参阅GitHub回购。


您可以使用示例笔记本(https://github.com/aws/amazon-sagemaker-examples/blob/main/sagemaker-inference-recommender/huggingface-inference-recommender/huggingface-inference-recommender.ipynb)来运行基准测试并再现结果。我们使用以下模型进行基准测试:

1.PyTorch–ResNet50图像分类,DistilBERT情感分析,RoBERTa填充掩码和RoBERTa情感分析
2.TensorFlow–TF Hub ResNet 50和ML Commons TensorFlow BERT。
3.XGBoost和scikit learn–我们测试了四个模型,以涵盖分类器、排序器和线性回归场景。



结论

相对于Amazon SageMaker上的可比EC2实例,AWS使用基于Graviton3的EC2 C7g实例测量了PyTorch,TensorFlow,XGBoost和scikit-learn模型推理高达50%的成本节省。您可以按照本文提供的步骤将现有推理用例迁移到AWS Graviton或部署新的ML模型。您还可以参考AWS Graviton技术指南(https://github.com/aws/aws-graviton-getting-started),该指南提供了优化库和最佳实践列表,可帮助您在不同工作负载上使用AWS Graviton实例实现成本效益。

如果您发现使用情况,在AWS Graviton上没有观察到类似的性能提升,请与我们联系。我们将继续添加更多性能改进,使AWS Graviton成为最具成本效益和高效的通用ML推理处理器。”


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10446

    浏览量

    206567
  • Amazon
    +关注

    关注

    1

    文章

    115

    浏览量

    17062
  • AWS
    AWS
    +关注

    关注

    0

    文章

    393

    浏览量

    23931

原文标题:​使用AWS Graviton降低Amazon SageMaker推理成本

文章出处:【微信号:Arm软件开发者,微信公众号:Arm软件开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    交互式查询服务Amazon Athena的使用

    aws服务从入门到精通 Amazon Athena操作
    发表于 08-29 07:48

    ARM Neoverse IP的AWS实例上etcd分布式键对值存储性能提升

    是在给定时间段内完成的总操作数。在本文中,我们比较了AWS M6g实例(基于 Arm Neoverse IP的 Graviton2)与M5实例(基于 Xeon Platinum 8000系列)上的etcd吞吐量和延迟,以展示Gravit
    发表于 07-06 17:37

    Arm Neoverse V1的AWS Graviton3在深度学习推理工作负载方面的作用

    机器学习 (ML) 是云和边缘基础设施中增长最快的部分之一。在 ML 中,深度学习推理预计会增长得更快。在本博客中,我们比较了三种 Amazon Web Services (AWS) EC2 云实例
    发表于 08-31 15:03

    AWS云中使用Arm处理器设计Arm处理器

    1、在AWS云中使用Arm处理器设计Arm处理器  Amazon Web Services (AWS) 宣布推出基于 Arm 的全新 AWS Gra
    发表于 09-02 15:55

    使用Arm服务器减少基因组学的时间和成本

    1、使用Arm服务器减少基因组学的时间和成本  我们现在可以展示三种主要aligners在Arm架构AWS Graviton3上的性能。AWS Gravaton3是
    发表于 10-09 16:32

    AWS今日宣布Amazon EKS在AWS宁夏、北京区域正式商用

    Amazon EKS是一项完全托管服务,让客户可以使用AWS上的Kubernetes轻松部署、管理和扩展容器化的应用程序,不必管理底层基础设施。
    的头像 发表于 03-22 08:24 1586次阅读

    DBS x AWS DeepRacer League将完全在线运行

    AWS DeepRacer车辆是基于云的,完全自动的1/18比例赛车,这些赛车使用Amazon Sagemaker构建并由强化学习提供支持-先进的ML技术非常适合自动驾驶。
    的头像 发表于 09-16 16:07 2545次阅读

    AWS机器学习服务GPU成本大幅度降低,高达18%

    近日,AWS表示,其Amazon SageMaker机器学习服务两个云实例ml.p2和ml.p3 GPU成本大幅降低,高达18%。
    的头像 发表于 10-10 09:35 1773次阅读

    AWS发布新一代Amazon Aurora Serverless

    。同时,AWS还发布了一个新的开源项目,帮助更多组织从传统数据库迁移到开源替代方案。对于不想处理自助数据库繁杂工作的客户,Amazon Aurora Serverless v2可在不到一秒的时间内扩展至支持数十万个事务,与按业务高峰需求进行资源配置的方式相比,可节省高达9
    的头像 发表于 12-03 10:38 1698次阅读

    AWS Arm 架构处理器首次落地中国区域:比同配置 X86 实例性价比提高 40%

    1 月 28 日消息,亚马逊云服务(AWS)正式宣布,由 AWS Graviton2 处理器提供支持的 Amazon Elastic Compute Cloud (
    的头像 发表于 01-28 16:22 2234次阅读

    AWS基于Arm架构的Graviton 2处理器落地中国

    Graviton 2处理器提供支持的Amazon Elastic Compute Cloud(Amazon EC2)M6g、C6g和R6g实例已在由光环新网运营的AWS中国(北京)地
    的头像 发表于 02-01 11:46 2848次阅读

    中科创达成为Amazon SageMaker服务就绪计划首批认证合作伙伴

    近日,亚马逊云科技于其年度盛会re:Invent上正式推出了Amazon SageMaker服务就绪计划。中科创达作为亚马逊云科技合作伙伴应邀出席峰会并正式加入Amazon SageMaker
    的头像 发表于 12-06 11:41 1028次阅读

    使用AWS Graviton处理器优化的PyTorch 2.0推理

    新一代的CPU因为内置了专门的指令,在机器学习(ML)推理方面提供了显著的性能提升。结合它们的灵活性、高速开发和低运营成本,这些通用处理器为其他现有硬件解决方案提供了一种替代选择。 AWS、Arm、Meta等公司帮助优
    的头像 发表于 05-28 09:35 442次阅读
    使用<b class='flag-5'>AWS</b> <b class='flag-5'>Graviton</b>处理器优化的PyTorch 2.0<b class='flag-5'>推理</b>

    Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

     本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs,比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将
    的头像 发表于 11-01 17:48 466次阅读
    Hugging Face LLM部署大语言模型到亚马逊云科技<b class='flag-5'>Amazon</b> <b class='flag-5'>SageMaker</b><b class='flag-5'>推理</b>示例

    亚马逊云科技推出五项Amazon SageMaker新功能

    Inference通过优化加速器的使用,平均降低50%的基础模型部署成本,并平均缩短了20%的延迟时间; Amazon SageMaker Clarify能够让客户更轻松地根据支持负
    的头像 发表于 12-06 14:04 491次阅读