0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全新 NVIDIA NeMo Retriever微服务大幅提升LLM的准确性和吞吐量

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-07-26 11:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

企业能够通过提供检索增强生成功能的生产就绪型 NVIDIA NIM 推理微服务,充分挖掘业务数据的价值。这些微服务现已集成到 Cohesity、DataStax、NetApp 和 Snowflake 平台中。

如果缺乏准确性,生成式 AI 应用不但无法产生价值,有时甚至还会产生负价值。而准确性的根源在于数据。

为帮助开发者高效获取最佳的专有数据,以便为他们的 AI 应用生成知识渊博的回答,NVIDIA 宣布推出四项全新的 NVIDIA NeMo Retriever NIM 推理微服务。

Llama 3.1 模型集也同期发布。当与适用于该模型集的 NVIDIA NIM 推理微服务相结合时,NeMo Retriever NIM 推理微服务不仅能够使企业扩展到代理式 AI 工作流(在此工作流中,AI 应用可以在最少的干预或监督下准确运行),还能够提供极为精准的检索增强生成(RAG)。

通过 NeMo Retriever,企业可以将自定义模型与各种业务数据无缝连接,并使用 RAG 为 AI 应用作出高度准确的回答。这套生产就绪型微服务实际上为创建高度准确的 AI 应用提供了非常精准的信息检索功能。

例如当开发者创建 AI 智能体和客服聊天机器人、分析安全漏洞或从复杂的供应链信息中提取洞察时,NeMo Retriever 能够大幅提高模型的准确性和吞吐量。

NIM 推理微服务实现了高性能、易于使用的企业级推理。开发者能够使用 NeMo Retriever NIM 微服务并充分利用自己的数据,来获得这一切。

已正式发布的全新 NeMo Retriever 向量化和重排序 NIM 微服务如下:

NV-EmbedQA-E5-v5:一个常用社区基础向量化模型,针对文本问答检索进行了优化

NV-EmbedQA-Mistral7B-v2:一个常用多语言社区基础模型,针对文本向量化功能进行了微调,以实现高度准确的问答

Snowflake-Arctic-Embed-L:一个经过优化的社区模型

NV-RerankQA-Mistral4B-v3:一个常用社区基础模型,针对文本重排功能进行了微调,以实现高度准确的问答

这些模型加入到 NIM 微服务集中,可通过 NVIDIA API 目录轻松访问。

向量化和重排序模型

NeMo Retriever NIM 微服务包含两种模型——向量化和重排序模型,以及确保透明度和可靠性的开放式和商业化服务。

2b24405a-4a67-11ef-b8af-92fbcf53809c.png

RAG 管线示例:使用了适用于 Llama 3.1 的 NVIDIA NIM 微服务以及适用于客服 AI 聊天机器人应用的 NeMo Retriever 向量化和重排序 NIM 微服务

向量化模型在将文本、图像、图表和视频等各种数据转化为数字向量,并存储在向量数据库中的同时,获取其含义和细微差别。与传统的大语言模型(LLM)相比,向量化模型速度更快且计算成本更低。

重排序模型可获取数据和查询,随后根据数据与查询的相关性对数据进行评分。与向量化模型相比,这类模型虽然计算复杂且速度较慢,但能大幅提高准确性。

NeMo Retriever 提供了两全其美的解决方案。开发者可以充分利用 NeMo Retriever 建立一个能够给企业提供最有用、最准确结果的流程。该流程先通过向量化 NIM 检索巨大的数据网,然后使用重排序 NIM 筛选结果的相关性。

通过 NeMo Retriever,开发者能够使用先进的开源商业模型,构建极为精准的文本问答检索管线。与其他模型相比,NeMo Retriever NIM 微服务在企业问答中提供的不准确答案减少了 30%。

2b430cba-4a67-11ef-b8af-92fbcf53809c.png

NeMo Retriever 向量化 NIM 和向量化 + 重排序 NIM 微服务性能与词法搜索和替代向量的对比。

热门用例

无论是 RAG 和 AI 智能体解决方案,还是数据驱动的分析,NeMo Retriever 都能够为各种 AI 应用提供助力。

这套微服务可用于创建能够作出准确、情境感知响应的智能聊天机器人、帮助分析海量数据以识别安全漏洞、从复杂的供应链信息中提取洞察等。它们还能胜任许多其他任务,比如帮助 AI 赋能的零售业购物顾问提供自然、个性化的购物体验。

针对这些用例的 NVIDIA AI 工作流为开发生成式 AI 赋能的技术提供了一个简单且能够获得支持的起点。

数十家 NVIDIA 数据平台合作伙伴正在使用 NeMo Retriever NIM 微服务提高其 AI 模型的准确性和吞吐量。

DataStax 在其 Astra DB 和超融合平台中集成了 NeMo Retriever 向量化 NIM 微服务,使企业能够为客户提供准确的、经过生成式 AI 增强的 RAG 功能,并加快产品上市时间。

Cohesity 将在其 AI 产品 Cohesity Gaia 中集成 NVIDIA NeMo Retriever 微服务,以便帮助客户通过 RAG 将自己的数据用于驱动富有洞察力和变革性的生成式 AI 应用。

Kinetica 将使用 NVIDIA NeMo Retriever 开发 LLM 智能体。这些智能体能够通过自然语言与复杂的网络进行交互,从而对中断或漏洞作出更快的响应,将洞察转化为即时行动。

NetApp 正在与 NVIDIA 合作,将 NeMo Retriever 微服务连接到其智能数据基础设施上的 EB 级数据。所有 NetApp ONTAP 客户都将能够“与他们的数据无缝对话”,在不影响数据安全或隐私的情况下获得专属的业务洞察。

NVIDIA 全球系统集成商合作伙伴包括埃森哲、德勤、Infosys、LTTS、Tata Consultancy Services、Tech Mahindra 和 Wipro 等,以及服务交付合作伙伴 Data Monsters、EXLService (爱尔兰) Limited、Latentview、Quantiphi、Slalom、SoftServe 和 Tredence 正在开发各种服务,帮助企业将 NeMo Retriever NIM 微服务添加到他们的 AI 管线中。

与其他 NIM 微服务一起使用

NeMo Retriever NIM 微服务可与 NVIDIA Riva NIM 微服务一起使用。后者为各行各业的语音 AI 应用提供强大助力,增强了客户服务并且让数字人变得栩栩如生。

即将以 Riva NIM 微服务形式推出的新模型包括:适用于文本转语音应用的 FastPitch 和 HiFi-GAN;适用于多语言神经机器翻译的 Megatron;以及适用于自动语音识别的破纪录 NVIDIA Parakeet 系列模型。

NVIDIA NIM 微服务既可以组合使用,也可以单独使用,为开发者提供构建 AI 应用的模块化方法。这些微服务还可以在云端、本地或混合环境中与社区模型、NVIDIA 模型或用户自定义模型集成,为开发者带来了更大的灵活性。

NVIDIA NIM 微服务现在可在 ai.nvidia.com 上获取。企业可通过 NVIDIA AI Enterprise 软件平台使用 NIM 将 AI 应用部署到生产中。

NIM 微服务可在客户首选的加速基础设施上运行,包括亚马逊云科技、谷歌云、Microsoft Azure 和 Oracle Cloud Infrastructure 的云实例,以及思科、戴尔科技、慧与、联想和 Supermicro 等全球服务器制造合作伙伴的 NVIDIA 认证系统。

NVIDIA 开发者计划会员很快将能够免费使用 NIM,以在他们首选的基础设施上进行研究、开发和测试。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31514

    浏览量

    223914
  • NVIDIA
    +关注

    关注

    14

    文章

    5696

    浏览量

    110150
  • AI
    AI
    +关注

    关注

    91

    文章

    41432

    浏览量

    302779
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1398

原文标题:上吧,AI!全新 NVIDIA NeMo Retriever 微服务大幅提升 LLM 的准确性和吞吐量

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    欧洲快递行业巨头部署全新Matrix 830/930系统以应对高吞吐量业务

    迅速的市场认可,有力地证实了该新产品的战略意义。 该决定是在经过严格的基准测试、性能对比以及真实运行条件下的现场验证后做出的。在评估了其他配置方案后,客户确认新款 Matrix 830/930 是其高吞吐量物流环境下的最优解决方案——该环境要求吞吐量保持恒定且不容许
    的头像 发表于 03-17 16:46 845次阅读

    用“分区”来面对超大数据集和超大吞吐量

    分区(partitions) 也被称为 分片(sharding),通常采用对数据进行分区的方式来增加系统的 可伸缩,以此来面对非常大的数据集或非常高的吞吐量,避免出现热点。
    的头像 发表于 12-30 16:40 300次阅读
    用“分区”来面对超大数据集和超大<b class='flag-5'>吞吐量</b>

    确保X光设备检测的有效准确性的关键技巧

    行业关注的重点。本文将围绕“X光设备检测有效”和“X光检测准确性提升”这两个核心长尾关键词,深入解析5个关键技巧,帮助企业提升设备性能,降低误差率,满足更高的检测需求。无论是制造业的
    的头像 发表于 11-18 11:27 597次阅读

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和
    的头像 发表于 11-03 14:48 1244次阅读

    电能质量在线监测装置定位谐波源的准确性有多高?

    网、测点密集、同步精准),准确性可达到 90% 以上;在复杂场景(如广域电网、背景谐波波动大、测点稀疏),准确性可能降至 70% 以下。以下从 “准确性分级、关键影响因素、提升路径”
    的头像 发表于 09-26 15:20 778次阅读

    使用罗德与施瓦茨CMX500的吞吐量应用层测试方案

    5G NR(New Radio)吞吐量应用层测试是评估5G网络性能的一个重要方面,它主要关注的是在实际应用条件下,用户能够体验到的数据传输速率。这种测试通常包括了对下行链路和上行链路的吞吐量进行测量,以确保网络可以满足各种应用场景的需求,比如高清视频流、虚拟现实、增强现实
    的头像 发表于 09-02 13:56 8186次阅读
    使用罗德与施瓦茨CMX500的<b class='flag-5'>吞吐量</b>应用层测试方案

    TensorRT-LLM中的分离式服务

    在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-
    的头像 发表于 08-27 12:29 2022次阅读
    TensorRT-<b class='flag-5'>LLM</b>中的分离式<b class='flag-5'>服务</b>

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 数据处理软件、NeMo Framework 模型训练框架及 Auto Configurator 优化工具,高效构建
    的头像 发表于 08-20 14:21 1050次阅读

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言模型 (LLM) 的推理效率。
    的头像 发表于 08-12 15:19 4531次阅读
    如何在<b class='flag-5'>NVIDIA</b> Blackwell GPU上优化DeepSeek R1<b class='flag-5'>吞吐量</b>

    测缝计测量数据的准确性和校准方法解析

    在结构物安全监测领域,数据准确性是评估工程健康状态的核心依据。振弦式测缝计作为主流裂缝监测设备,其测量精度直接影响裂缝发展趋势的判断。那么如何确保测缝计测量数据的准确性以及如何校准?下面是南京峟思给
    的头像 发表于 07-07 13:56 841次阅读
    测缝计测量数据的<b class='flag-5'>准确性</b>和校准方法解析

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张
    的头像 发表于 06-12 15:37 2121次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS应用的最佳实践

    CY7C65211 作为 SPI 从机模式工作时每秒的最大吞吐量是多少?

    CY7C65211 作为 SPI 从机模式工作时每秒的最大吞吐量是多少? 有实际的测试数据吗?
    发表于 05-27 07:38

    如何在Visual Studio 2022中运行FX3吞吐量基准测试工具?

    我正在尝试运行 John Hyde 的书“SuperSpeed by Design”中的 FX3 吞吐量基准测试工具。 但是,我面临一些困难,希望得到任何指导。 具体来说,我正在使用 Visual
    发表于 05-13 08:05

    ServiceNow携手NVIDIA构建150亿参数超级助手

    Apriel Nemotron 15B 开源大语言模型 (LLM) 使用 NVIDIA NeMoNVIDIA Llama Nemotron 开放数据集以及 ServiceNow 专业
    的头像 发表于 05-12 15:37 1082次阅读

    FX3进行读或写操作时CS信号拉低,在读或写完成后CS置高,对吞吐量有没有影响?

    从尽可能提高吞吐量的角度看,在进行读或写操作时CS信号拉低,在读或写完成后CS置高,对吞吐量有没有影响,还是应该CS一直拉低比较好。
    发表于 05-08 07:13