0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA全面加快Meta Llama 3的推理速度

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-04-23 09:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

NVIDIA 发布对其所有平台的优化措施,此举将加快最新一代大语言模型(LLM)Meta Llama 3 的运行速度。

在与 NVIDIA 加速计算相结合后,该开源模型能够使开发者、研究者和企业在各种应用中负责任地进行创新。

在 NVIDIA AI 上进行训练

Meta 工程师在搭载 24,576 个 NVIDIA Tensor Core GPU 的计算机集群上对 Llama 3 进行了训练,这些 GPU 通过 RoCE 和 NVIDIA Quantum-2 InfiniBand 网络相连。

为进一步推动生成式 AI 的发展,Meta 最近介绍了将其基础设施扩展到 35 万个 NVIDIA GPU 的计划。

将 Llama 3 投入使用

通过 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、数据中心、边缘和 PC。

开发者可通过浏览器在 ai.nvidia.com 上试用 Llama 3。该模型被打包成一项带有标准应用编程接口NVIDIA NIM 微服务,可以部署在任何位置。

企业可使用 NVIDIA NeMo 和自己的数据对 Llama 3 进行微调。NeMo 是一个 LLM 开源框架,通过安全、受支持的 NVIDIA AI Enterprise 平台提供。自定义模型可使用 NVIDIA TensorRT-LLM 进行推理性能优化,并通过 NVIDIA Triton 推理服务器进行部署。

在设备和 PC 上运行 Llama 3

Llama 3 还可在用于机器人和边缘计算设备的 NVIDIA Jetson Orin 上运行,创建类似 Jetson AI Lab 中的交互式代理。

此外,用于工作站和 PC 的 NVIDIA RTXGeForce RTX GPU 也能加快 Llama 3 的推理速度。这些系统将开发者的目标范围扩大到全球超过 1 亿台由 NVIDIA 提供加速的系统。

利用 Llama 3 获得最佳性能

为聊天机器人部署 LLM 的最佳实践包括实现低延迟、快速读取和最佳 GPU 利用率之间的平衡,并以此来降低成本。

这种服务需要以用户阅读速度的两倍(约为每秒 10 个 token)提供 token(大致相当于字词)。

如果在使用 700 亿参数级 Llama 3 进行的初步测试中应用这些指标,那么单个 NVIDIA Tensor Core GPU 每秒可生成约 3,000 个 token,足以同时为约 300 名用户提供服务。

这意味着一台搭载 8 个GPU 的 NVIDIA HGX 服务器每秒可提供 24,000 个 token,相当于同时支持 2,400 多名用户,进一步降低了成本。

在边缘设备方面,80 亿参数版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多达 40 个 token,在 Jetson Orin Nano 上每秒可生成多达 15 个 token。

推进社区模型的发展

作为一个积极的开源贡献者,NVIDIA 致力于优化社区软件,帮助用户应对最严峻的挑战。开源模型还能提高 AI 的透明度,让广大用户享受到 AI 安全性和弹性方面的工作成果。


审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5510

    浏览量

    109155
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6418
  • 边缘计算
    +关注

    关注

    22

    文章

    3478

    浏览量

    52771
  • 大模型
    +关注

    关注

    2

    文章

    3470

    浏览量

    5003

原文标题:NVIDIA 全面加快 Meta Llama 3 的推理速度

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 808次阅读

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    基于 NVIDIA Spectrum-X 以太网交换机的 AI 数据中心网络。 Meta 和 Oracle 正将 Spectrum-X 以太网交换机标准化为一种开放的加速网络架构,加快大规模部署,显著提升 AI 训练效率,并缩短
    的头像 发表于 10-14 10:26 1485次阅读
    <b class='flag-5'>NVIDIA</b> Spectrum-X 以太网交换机助力 <b class='flag-5'>Meta</b> 和 Oracle 加速网络性能

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 1433次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型发布

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20

    企业使用NVIDIA NeMo微服务构建AI智能体平台

    已发布的 NeMo 微服务可与合作伙伴平台集成,作为创建 AI 智能体的构建模块,使用商业智能与强大的逻辑推理模型 (包括 NVIDIA Llama Nemotron) 处理更多任务。
    的头像 发表于 04-27 15:05 1024次阅读

    今日看点丨台积电、Intel合资运营代工业务;韩国计划向当地汽车行业注入3万亿韩元援助

    1. Meta 发布人工智能新模型系列 Llama 4 ,首次采用“混合专家”架构   当地时间周六(4月5日),美国科技巨头Meta推出了其最强大的开源人工智能(AI)模型Llama
    发表于 04-07 11:26 590次阅读

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驱动的工程设计和科学应用

    提升高达 80 倍 ● 基于全新 NVIDIA Llama Nemotron 推理模型,携手开发面向工程设计和科学应用的全栈代理式 AI 解决方案 ● 率先采用面向 AI 工厂数字孪生的 NV
    的头像 发表于 03-24 10:14 1234次阅读

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代
    的头像 发表于 03-20 15:35 1241次阅读

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理优化
    的头像 发表于 03-20 15:03 1090次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI       美国加利福尼亚州圣何塞 —— GTC  —— 2025 年 3 月 18 日
    发表于 03-19 15:24 475次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业加速代理式 AI <b class='flag-5'>推理</b>

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    NVIDIA 后训练的全新 Llama Nemotron 推理模型,为代理式 AI 提供业务就绪型基础 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    发表于 03-19 09:31 338次阅读
    <b class='flag-5'>NVIDIA</b> 推出开放<b class='flag-5'>推理</b> AI 模型系列,助力开发者和企业构建代理式 AI 平台

    无法在OVMS上运行来自Meta的大型语言模型 (LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型 (LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时遇到错误。
    发表于 03-05 08:07

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1375次阅读
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理</b>性能

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何加速系统上为 AI 智能体提供强效助力。
    的头像 发表于 01-09 11:11 1214次阅读

    Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑

    ​在人工智能领域,Meta的最新动作再次引起了全球的关注。今天,我们见证了Meta发布的 Llama 3.3 70B 模型,这是一个开源的人工智能模型,它不仅令人印象深刻,而且在性能上达到了一个
    的头像 发表于 12-18 16:46 903次阅读
    <b class='flag-5'>Meta</b>重磅发布<b class='flag-5'>Llama</b> 3.3 70B:开源AI模型的新里程碑