0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天

jf_MYvksKR0 来源:MicroComputer 2024-02-23 09:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA今天在其官方博客中表示,今天与谷歌合作,在所有NVIDIA AI平台上为Gemma推出了优化。Gemma是谷歌最先进的新轻量级2B(20亿)和7B(70亿)参数开放语言模型,可以在任何地方运行,降低了成本,加快了特定领域用例的创新工作。

这两家公司的团队密切合作,主要是使用NVIDIA TensorRT LLM加速谷歌Gemma开源模型的性能。开源模型Gemma采用与Gemini模型相同的底层技术构建,而NVIDIA TensorRT LLM是一个开源库,用于在数据中心的NVIDIA GPU、云服务器以及带有NVIDIA RTX GPU的PC上运行时,可以极大优化大型语言模型推理。这也这使得开发人员能够完全利用全球超过1亿台数量的RTX GPU AI PC完成自己的工作。

9c3d6116-d19c-11ee-a297-92fbcf53809c.png

同时,开发人员还可以在云计算服务器中的NVIDIA GPU上运行Gemma,包括在谷歌云基于H100 Tensor Core GPU,以及很快谷歌将于今年部署的NVIDIA H200 TensorCore GPU——该GPU具有141GB的HBM3e内存,内存带宽可以达到4.8TB/s。

9c7d73b4-d19c-11ee-a297-92fbcf53809c.png

另外,企业开发人员还可以利用NVIDIA丰富的工具生态系统,包括具有NeMo框架的NVIDIA AI Enterprise和TensorRT LLM,对Gemma进行微调,并在其生产应用程序中部署优化模型。

9c90b0dc-d19c-11ee-a297-92fbcf53809c.png

NVIDIA表示,先期上线支持Gemma的是Chat with RTX,这是一款NVIDIA技术演示应用,使用检索增强生成和TensorRT LLM扩展,在基于RTX GPU的本地Windows PC上为用户提供生成式AI应用的功能。通过RTX聊天,用户可以轻松地将PC上的本地文件连接到大型语言模型,从而使用自己的数据对聊天机器人进行个性化设置。

由于该模型在本地运行,因此可以快速提供结果,并且用户数据保留在设备上。与基于云的LLM服务不同,使用Chat with RTX聊天可以让用户在本地PC上处理敏感数据,而无需与第三方共享或连接互联网。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5689

    浏览量

    110118
  • GPU芯片
    +关注

    关注

    1

    文章

    307

    浏览量

    6554
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394
  • 生成式AI
    +关注

    关注

    0

    文章

    538

    浏览量

    1133

原文标题:TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天

文章出处:【微信号:Microcomputer,微信公众号:Microcomputer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌正式发布Gemma Scope 2模型

    大语言模型 (LLM) 具备令人惊叹的推理能力,但其内部决策过程在很大程度上仍然不透明。如果系统未按预期运行,对其内部运作机制缺乏可见性将难以准确定位问题根源。过去,我们通过发布 Gemma
    的头像 发表于 01-24 14:01 738次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU
    的头像 发表于 01-06 09:51 4071次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000
    的头像 发表于 11-28 09:39 7028次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 2000 Blackwell GPU性能测试

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 1421次阅读

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 1382次阅读
    <b class='flag-5'>TensorRT-LLM</b>的大规模专家并行架构设计

    谷歌推出AI模型Gemma 3 270M

    过去几个月,Gemma 开放模型系列的发展是激动人心的。我们推出了 Gemma 3 和 Gemma 3 QAT,为单一云端和桌面加速器带来了最先进的性能。
    的头像 发表于 09-11 15:09 1310次阅读

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLMNVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4683次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT-LLM</b>中的实现与优化

    TensorRT-LLM中的分离式服务

    在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及性能研究结果。
    的头像 发表于 08-27 12:29 1980次阅读
    <b class='flag-5'>TensorRT-LLM</b>中的分离式服务

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 数据处理软件、NeMo Framework 模型训练框架及 Auto Configurator 优化工具,高效构建
    的头像 发表于 08-20 14:21 1029次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTXNVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,
    的头像 发表于 07-16 09:16 2184次阅读

    NVIDIA RTX AI PC为AnythingLLM加速本地AI工作流

    大语言模型(LLM)基于包含数十亿个 Token 的数据集训练而来,能够生成高质量的内容。它们是众多最热门 AI 应用的核心支撑技术,包括聊天机器人、智能助手、代码生成工具等。
    的头像 发表于 07-04 15:05 1081次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产
    的头像 发表于 07-04 14:38 2428次阅读

    谷歌Gemma 3n预览版全新发布

    Gemma 3 和 Gemma 3 QAT 的成功发布之后,我们的先进开放模型系列具备了在单一云端或桌面加速器上运行的能力,我们正在进一步推进我们对可访问 AI 的愿景。
    的头像 发表于 06-26 17:18 1098次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 2078次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS应用的最佳实践

    LM Studio使用NVIDIA技术加速LLM性能

    随着 AI 使用场景不断扩展(从文档摘要到定制化软件代理),开发者和技术爱好者正在寻求以更 快、更灵活的方式来运行大语言模型(LLM)。
    的头像 发表于 06-06 15:14 1448次阅读
    LM Studio使用<b class='flag-5'>NVIDIA</b>技术<b class='flag-5'>加速</b><b class='flag-5'>LLM</b>性能