NVIDIA全面加快Meta Llama 3的推理速度-电子发烧友网

Meta 最新开源大语言模型采用 NVIDIA 技术构建，其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

NVIDIA 发布对其所有平台的优化措施，此举将加快最新一代大语言模型（LLM）Meta Llama 3 的运行速度。

在与 NVIDIA 加速计算相结合后，该开源模型能够使开发者、研究者和企业在各种应用中负责任地进行创新。

在 NVIDIA AI 上进行训练

Meta 工程师在搭载 24,576 个 NVIDIA Tensor Core GPU 的计算机集群上对 Llama 3 进行了训练，这些 GPU 通过 RoCE 和 NVIDIA Quantum-2 InfiniBand 网络相连。

为进一步推动生成式 AI 的发展，Meta 最近介绍了将其基础设施扩展到 35 万个 NVIDIA GPU 的计划。

将 Llama 3 投入使用

通过 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、数据中心、边缘和 PC。

开发者可通过浏览器在 ai.nvidia.com 上试用 Llama 3。该模型被打包成一项带有标准应用编程接口的 NVIDIA NIM 微服务，可以部署在任何位置。

企业可使用 NVIDIA NeMo 和自己的数据对 Llama 3 进行微调。NeMo 是一个 LLM 开源框架，通过安全、受支持的 NVIDIA AI Enterprise 平台提供。自定义模型可使用 NVIDIA TensorRT-LLM 进行推理性能优化，并通过 NVIDIA Triton 推理服务器进行部署。

在设备和 PC 上运行 Llama 3

Llama 3 还可在用于机器人和边缘计算设备的 NVIDIA Jetson Orin 上运行，创建类似 Jetson AI Lab 中的交互式代理。

此外，用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 也能加快 Llama 3 的推理速度。这些系统将开发者的目标范围扩大到全球超过 1 亿台由 NVIDIA 提供加速的系统。

利用 Llama 3 获得最佳性能

为聊天机器人部署 LLM 的最佳实践包括实现低延迟、快速读取和最佳 GPU 利用率之间的平衡，并以此来降低成本。

这种服务需要以用户阅读速度的两倍（约为每秒 10 个 token）提供 token（大致相当于字词）。

如果在使用 700 亿参数级 Llama 3 进行的初步测试中应用这些指标，那么单个 NVIDIA Tensor Core GPU 每秒可生成约 3,000 个 token，足以同时为约 300 名用户提供服务。

这意味着一台搭载 8 个GPU 的 NVIDIA HGX 服务器每秒可提供 24,000 个 token，相当于同时支持 2,400 多名用户，进一步降低了成本。

在边缘设备方面，80 亿参数版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多达 40 个 token，在 Jetson Orin Nano 上每秒可生成多达 15 个 token。

推进社区模型的发展

作为一个积极的开源贡献者，NVIDIA 致力于优化社区软件，帮助用户应对最严峻的挑战。开源模型还能提高 AI 的透明度，让广大用户享受到 AI 安全性和弹性方面的工作成果。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5510

浏览量
109155
GPU芯片

GPU芯片

+关注

关注
1

文章
306

浏览量
6418
边缘计算

边缘计算

+关注

关注
22

文章
3478

浏览量
52771
大模型

大模型

+关注

关注
2

文章
3470

浏览量
5003

原文标题：NVIDIA 全面加快 Meta Llama 3 的推理速度

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

搜索历史

NVIDIA全面加快Meta Llama 3的推理速度

评论