0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Bottlerocket和Amazon EC2部署AI模型

星星科技指导员 来源:NVIDIA 作者:Uttara Kumar 2022-04-08 15:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在大规模生产中部署人工智能支持的服务,如基于语音的助手、电子商务产品推荐和呼叫中心自动化,是一项挑战。在降低运营成本的同时提供最佳的最终用户体验需要考虑多个因素。其中包括底层基础设施的组成和性能、基于用户需求扩展资源的灵活性、集群管理开销和安全性。

为了应对大规模部署人工智能的挑战,企业 IT 团队已采用 Kubernetes ( K8s )进行容器编排和 NVIDIA 加速计算,以满足生产人工智能部署的性能需求。此外,人们越来越关注操作系统( OS )在生产基础设施中的作用。生产环境的主机操作系统对安全性、资源利用率以及调配和扩展额外资源所需的时间有直接影响。随着用户需求的增加,这会影响用户体验、安全性和部署成本。

Botterocket :基于 Linux 的容器优化操作系统

Bottlerocket 是 AWS 开发的基于 Linux 的最小开源操作系统,专门为运行容器而构建。它非常强调安全性,只包括运行容器的基本软件。

这减少了攻击面和漏洞的影响,从而减少了满足节点合规性要求的工作量。此外, Bottlerocket 的最小主机占用空间有助于提高节点资源利用率和引导时间。

对 Bottlerocket 的更新只需一步,必要时可以回滚。这将降低错误率,并改善容器应用程序的正常运行时间。它们还可以使用容器编排服务(如 Amazon 弹性库伯内特斯服务( EKS )和 Amazon 弹性容器服务( ECS ))实现自动化。

在 NVIDIA GPU 支持的 Amazon EC2 实例中使用瓶装火箭

AWS 和 NVIDIA 已经合作,使 Bottlerocket 能够支持所有由 NVIDIA 供电的系统 Amazon EC2 实例 包括 P4d 、 P3 、 G4dn 和 G5 。这种支持将 NVIDIA 驱动的 GPU 实例的计算能力与容器优化操作系统的优势结合起来,可以在 K8s 集群上大规模部署 AI 模型。

其结果是增强了安全性和更快的启动时间,尤其是在运行人工智能工作负载时,实时扩展其他基于 GPU 的实例。

对 NVIDIA GPU 的支持以 GPU 优化的 AMI 的形式提供。这包括 NVIDIA 驱动程序、 K8s GPU 设备插件,以及内置在基础映像中的 containerd 运行时。

AMI 提供了提供和注册自我管理节点的一切, NVIDIA 支持的 GPU 实例和 Amazon EKS 集群的虚拟操作系统。

此外,您还可以利用 AWS 市场上的 NVIDIA NGC 目录 中的 NVIDIA 优化软件,这是一个用于预训练模型、脚本、掌舵图以及各种 AI 和 HPC 软件的中心。

对于 AWS 上的人工智能推理部署,您可以利用 NVIDIA Triton 推理服务器 。使用开源推理服务软件在任何 CPU 或 CPU 基础设施上部署来自多个框架的经过培训的人工智能模型,包括 TensorFlow 、 TensorRT 、 PyTorch 、 ONNX 、 XGBoost 和 Python

关于作者

Uttara Kumar 是 NVIDIA 的高级产品营销经理,专注于 GPU - 云计算中的人工智能加速应用。她非常关心让每个人都能获得技术的民主化,让开发者能够利用 NVIDIA 数据中心平台的力量来加快创新步伐。在 NVIDIA 之前,她领导半导体和科学计算软件公司的软件产品营销。她拥有安娜堡密歇根大学的 Eel CTR 工程硕士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux
    +关注

    关注

    88

    文章

    11628

    浏览量

    217989
  • 操作系统
    +关注

    关注

    37

    文章

    7329

    浏览量

    128643
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261564
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RA8P1部署ai模型指南:从训练模型部署 | 本周六

    在嵌入式边缘AI中,如何把“训练好的模型”稳定地“跑在板子上”,决定了项目能否落地。我们带你基于RA8P1平台,跑通从数据准备、模型训练、量化转换,到工程部署的整个流程,帮助你快速实现
    的头像 发表于 11-20 18:06 1643次阅读
    RA8P1<b class='flag-5'>部署</b><b class='flag-5'>ai</b><b class='flag-5'>模型</b>指南:从训练<b class='flag-5'>模型</b>到<b class='flag-5'>部署</b> | 本周六

    使用瑞萨RUHMI工具实现AI模型部署过程

    AI无处不在。你在部署AI,你的竞争对手也在部署AI,几乎所有人都在做AI。然而,
    的头像 发表于 10-17 10:00 2341次阅读
    使用瑞萨RUHMI工具实现<b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>部署</b>过程

    求助,关于nanoEdgeAI部署在keil5出现的问题求解

    为什么用NanoEdgeAI Studio训练好的库用keil5部署到我的STM32H750的单片机上时它生成的neai_classification函数输入的值是变的但输出值是定值0.268941和0.731059换模型也是这样
    发表于 08-13 07:32

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括由 NVIDIA Blackwell 加速
    的头像 发表于 07-28 14:31 779次阅读
    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    企业部署AI模型怎么做

    当下,AI模型已成为驱动决策自动化、服务智能化与产品创新的核心引擎。然而,企业面对动辄数百亿参数的大模型部署时,常陷入算力不足、响应延迟高、成本失控等困境。如何突破瓶颈,实现高效、稳
    的头像 发表于 06-04 09:26 682次阅读

    亚马逊功能最强模型Amazon Nova Premier现已正式可用

    北京 2025年5月6日 /美通社/ -- 亚马逊日前宣布Amazon Nova Premier已正式可用,进一步扩展了Amazon Nova基础模型系列。Amazon Nova Pr
    的头像 发表于 05-09 18:18 447次阅读
    亚马逊功能最强<b class='flag-5'>模型</b><b class='flag-5'>Amazon</b> Nova Premier现已正式可用

    AI端侧部署开发(SC171开发套件V3)

    AI端侧部署开发(SC171开发套件V3) 序列 课程名称 视频课程时长 视频课程链接 课件链接 工程源码 1 Fibo AI Stack模型转化指南------Docker Desk
    发表于 04-16 18:30

    MSP430部署

    MSP430可以部署简单的模型
    发表于 03-16 19:29

    请问STM32部署机器学习算法硬件至少要使用哪个系列的芯片?

    STM32部署机器学习算法硬件至少要使用哪个系列的芯片?
    发表于 03-13 07:34

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    DeepSeek 模型部署与测试,开启这场充满挑战与惊喜的技术探索之旅。 RK3588 开发板:AI 性能担当 RK3588 开发板基于先进的 8nm LP 制程工艺精心打造,其硬件配置堪称豪华,在
    发表于 02-14 17:42

    NeuroBlade携手亚马逊EC2 F2实例,加速数据分析

    数据分析加速领域的领航者NeuroBlade,近日宣布与亚马逊云科技(AWS)最新推出的Amazon Elastic Compute Cloud (Amazon EC2) F2实例实现
    的头像 发表于 12-31 11:37 817次阅读

    亚马逊云科技发布Amazon Trainium2实例

    的发布,标志着亚马逊云科技在人工智能训练和部署领域迈出了重要一步。 为了满足用户对高性能和高性价比的双重需求,亚马逊云科技还推出了Amazon EC2 Trn2 UltraServer
    的头像 发表于 12-27 14:57 889次阅读

    企业AI模型部署攻略

    当下,越来越多的企业开始探索和实施AI模型,以提升业务效率和竞争力。然而,AI模型部署并非易事,需要企业在多个层面进行细致的规划和准备。下
    的头像 发表于 12-23 10:31 1302次阅读

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    以及边缘计算能力的增强,越来越多的目标检测应用开始直接在靠近数据源的边缘设备上运行。这不仅减少了数据传输延迟,保护了用户隐私,同时也减轻了云端服务器的压力。然而,在边缘端部署高效且准确的目标检测模型
    发表于 12-19 14:33