0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA全面加快Meta Llama 3的推理速度

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-04-23 09:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

NVIDIA 发布对其所有平台的优化措施,此举将加快最新一代大语言模型(LLM)Meta Llama 3 的运行速度。

在与 NVIDIA 加速计算相结合后,该开源模型能够使开发者、研究者和企业在各种应用中负责任地进行创新。

在 NVIDIA AI 上进行训练

Meta 工程师在搭载 24,576 个 NVIDIA Tensor Core GPU 的计算机集群上对 Llama 3 进行了训练,这些 GPU 通过 RoCE 和 NVIDIA Quantum-2 InfiniBand 网络相连。

为进一步推动生成式 AI 的发展,Meta 最近介绍了将其基础设施扩展到 35 万个 NVIDIA GPU 的计划。

将 Llama 3 投入使用

通过 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、数据中心、边缘和 PC。

开发者可通过浏览器在 ai.nvidia.com 上试用 Llama 3。该模型被打包成一项带有标准应用编程接口NVIDIA NIM 微服务,可以部署在任何位置。

企业可使用 NVIDIA NeMo 和自己的数据对 Llama 3 进行微调。NeMo 是一个 LLM 开源框架,通过安全、受支持的 NVIDIA AI Enterprise 平台提供。自定义模型可使用 NVIDIA TensorRT-LLM 进行推理性能优化,并通过 NVIDIA Triton 推理服务器进行部署。

在设备和 PC 上运行 Llama 3

Llama 3 还可在用于机器人和边缘计算设备的 NVIDIA Jetson Orin 上运行,创建类似 Jetson AI Lab 中的交互式代理。

此外,用于工作站和 PC 的 NVIDIA RTXGeForce RTX GPU 也能加快 Llama 3 的推理速度。这些系统将开发者的目标范围扩大到全球超过 1 亿台由 NVIDIA 提供加速的系统。

利用 Llama 3 获得最佳性能

为聊天机器人部署 LLM 的最佳实践包括实现低延迟、快速读取和最佳 GPU 利用率之间的平衡,并以此来降低成本。

这种服务需要以用户阅读速度的两倍(约为每秒 10 个 token)提供 token(大致相当于字词)。

如果在使用 700 亿参数级 Llama 3 进行的初步测试中应用这些指标,那么单个 NVIDIA Tensor Core GPU 每秒可生成约 3,000 个 token,足以同时为约 300 名用户提供服务。

这意味着一台搭载 8 个GPU 的 NVIDIA HGX 服务器每秒可提供 24,000 个 token,相当于同时支持 2,400 多名用户,进一步降低了成本。

在边缘设备方面,80 亿参数版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多达 40 个 token,在 Jetson Orin Nano 上每秒可生成多达 15 个 token。

推进社区模型的发展

作为一个积极的开源贡献者,NVIDIA 致力于优化社区软件,帮助用户应对最严峻的挑战。开源模型还能提高 AI 的透明度,让广大用户享受到 AI 安全性和弹性方面的工作成果。


审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110288
  • GPU芯片
    +关注

    关注

    1

    文章

    308

    浏览量

    6579
  • 边缘计算
    +关注

    关注

    22

    文章

    3577

    浏览量

    53801
  • 大模型
    +关注

    关注

    2

    文章

    3863

    浏览量

    5296

原文标题:NVIDIA 全面加快 Meta Llama 3 的推理速度

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    进迭时空 Upstream|全球主流大模型开源项目 llama.cpp

    作为全球最火的本地大模型推理引擎llama.cpp,进迭时空(SpacemiT)基于K3芯片的AI扩展指令集(IME2)成功合入全球主流开源项目llama.cpp主线,为端侧大模型
    的头像 发表于 05-18 18:04 4653次阅读
    进迭时空 Upstream|全球主流大模型开源项目 <b class='flag-5'>llama</b>.cpp

    锁定未来三年合作!“Meta+博通”2nm ASIC芯片开造,剑指“英伟达+AMD”?

    至 2029 年。根据协议,Meta 初步承诺将部署高达 1GW 采用博通技术的训练与推理专用的 MTIA 芯片,未来更将把部署规模扩展至数个GW。这一长期绑定,是Meta作为AI巨头试图探索更多降低AI领域投入成本,摆脱对英伟
    的头像 发表于 04-16 09:06 4473次阅读
    锁定未来三年合作!“<b class='flag-5'>Meta</b>+博通”2nm ASIC芯片开造,剑指“英伟达+AMD”?

    加快进程!Meta计划2027年底前推出四代自研AI芯片

    电子发烧友网报道(文/李弯弯)近日,Meta对外宣布,计划在2027年底前推出四代自研人工智能芯片,旨在满足自身快速增长的AI计算需求,降低对外部芯片供应商的依赖。Meta表示,未来几年将陆续推出
    的头像 发表于 03-16 08:57 1.2w次阅读

    MetaNVIDIA达成多年战略合作伙伴关系

    NVIDIA 今天宣布与 Meta 达成一项多年期、跨多代产品的战略合作伙伴关系,涵盖本地部署、云计算和 AI 基础设施。
    的头像 发表于 03-02 14:46 738次阅读

    NVIDIA DGX SuperPOD为Rubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA Blackwell 平台的十分之一,可加速从
    的头像 发表于 01-14 09:14 1003次阅读

    Meta的AI慢性病,靠Manus能治吗?

    Meta
    脑极体
    发布于 :2026年01月08日 16:58:02

    如何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务

    继系统安装与环境配置后,本期我们将继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor 上,通过 Docker 高效部署 vLLM 推理服务。
    的头像 发表于 11-13 14:08 4548次阅读
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通过Docker高效部署vLLM<b class='flag-5'>推理</b>服务

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 1554次阅读

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    基于 NVIDIA Spectrum-X 以太网交换机的 AI 数据中心网络。 Meta 和 Oracle 正将 Spectrum-X 以太网交换机标准化为一种开放的加速网络架构,加快大规模部署,显著提升 AI 训练效率,并缩短
    的头像 发表于 10-14 10:26 2183次阅读
    <b class='flag-5'>NVIDIA</b> Spectrum-X 以太网交换机助力 <b class='flag-5'>Meta</b> 和 Oracle 加速网络性能

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1617次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2137次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型发布

    NVIDIA三台计算机解决方案如何协同助力机器人技术

    NVIDIA DGX、基于 NVIDIA RTX PRO 服务器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速从人形机器人到机器人工厂等基于物理 AI 的系统的开发,贯穿训练、仿真和
    的头像 发表于 08-27 11:48 2711次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作。NVIDIANVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速,在 NVIDIA 系统上至高达到每
    的头像 发表于 08-15 20:34 2605次阅读
    <b class='flag-5'>NVIDIA</b>从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS<b class='flag-5'>推理</b>

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2542次阅读

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20