0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Nemotron模型构建语音驱动RAG智能体

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2026-01-14 09:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

构建智能体不仅仅是“调用API”,而是需要将检索、语音、安全和推理组件整合在一起,使其像一个统一并互相协同的系统一样运行。每一层都有自己的接口、延迟限制和集成挑战,一旦跨过简单的原型就会开始感受到这些挑战。

在本教程中,您将学习如何使用2026年CES发布的最新NVIDIANemotron语音、RAG、安全和推理模型,去构建一个带有护栏的语音驱动RAG智能体。最终您将拥有具备如下功能的一个智能体:

听取语音输入

使用多模态RAG将智能体锚定在您的数据之上

长上下文推理

在响应之前应用护栏规则

音频的形式返回安全答案

您可以在本地GPU上进行开发,然后将相同的代码部署到可扩展的NVIDIA环境中,无论是托管的GPU服务、按需云工作区,还是生产就绪的API运行时,都无需更改工作流。

先决条件

在开始这次教程之前,您需要:

用于云托管推理模型的NVIDIA API密钥(免费获取)

本地部署需要:

约20GB的磁盘空间

至少24GB显存的NVIDIA GPU

支持Bash的操作系统(Ubuntu、macOS或Windows Subsystem for Linux)

Python 3.10+环境

一小时的空闲时间

您将构建的内容

wKgZO2lm8ZKALMGrAABMgnDwyPA469.jpg

图1.带有RAG和安全护栏的语音智能体的端到端工作流。

组件 模型 目的
ASR nemotron-speech-streaming-en-0.6b 超低延迟语音输入
嵌入 llama-nemotron-embed-vl-1b-v2 文本和图像的语义搜索
重排序 llama-nemotron-rerank-vl-1b-v2 将检索准确率提高6-7%
安全 llama-3.1-nemotron-safety-guard-8b-v3 多语言内容审核
视觉语言 nemotron-nano-12b-v2-vl 根据上下文描述图像
推理 nemotron-3-nano-30b-a3b 1M token高效推理

表1.本教程中用于构建语音智能体的Nemotron模型概览,包括用于ASR、嵌入、重排序、视觉语言、长上下文推理和内容安全的模型。

步骤1:设置环境

要构建语音智能体,您需要同时运行多个NVIDIANemotron模型(如上所示)。语音、嵌入、重排序和安全模型通过Transformer和NVIDIA NeMo在本地运行,推理模型则使用NVIDIA API。

uvsync--all-extras

配套的Notebook会处理所有的环境配置。设置用于云托管推理模型的NVIDIA API密钥,即可开始使用。

步骤2:使用多模态RAG构建智能体基座

检索是可靠智能体的支柱。借助全新的LlamaNemotron多模态嵌入和重排序模型,您可以嵌入文本、图像(包括扫描文档),并直接将其存储在向量索引中,无需额外的预处理。这可以检索推理模型所依赖的真实上下文,确保智能体参考的是真实企业数据而非产生幻觉。

image.png

图2.具有离线索引和在线检索的多模态RAG管道。

llama-nemotron-embed-vl-1b-v2模型支持三种输入模式——纯文本、纯图像和图像与文本的组合,让您能够对从纯文本文档到幻灯片和技术图表的各种内容进行索引。在本教程中,我们将嵌入一个同时包含图像和文本的示例。该嵌入模型通过Transformers加载,并启用flash attention:

from transformers import AutoModel
 
model = AutoModel.from_pretrained(
    "nvidia/llama-nemotron-embed-vl-1b-v2",
    trust_remote_code=True,
    device_map="auto"
).eval()
 
# Embed queries and documents
query_embedding = model.encode_queries(["How does AI improve robotics?"])
doc_embeddings = model.encode_documents(texts=documents)

在初始检索后,llama-nemotron-rerank-vl-1b-v2模型会结合文本和图像对结果进行重新排序,以确保检索后的准确性更高。在基准测试中,添加重排序可将准确率提高约6-7%,这在精度要求较高的场景中是一项显著的提升。

步骤3:使用NemotronSpeech ASR添加实时语音功能

锚定完成后,下一步是通过语音实现自然交互。

image.png

图3.基于NVIDIANemotronSpeech ASR的ASR管道

Nemotron Speech ASR是一个流式模型,基于Granary数据集中数万小时的英语音频及多种公开语音语料库进行训练,同时经过优化实现超低延迟的实时解码。开发者将音频流式传输到ASR服务,在收到文本结果后,将输出直接输入到RAG管道中。

import nemo.collections.asr as nemo_asr
 
model = nemo_asr.models.ASRModel.from_pretrained(
    "nvidia/nemotron-speech-streaming-en-0.6b"
)
transcription = model.transcribe(["audio.wav"])[0]

该模型具备可配置的延迟设置,在80毫秒的最低延迟设置下,平均字词错误率(Word Error Rate, WER)为8.53%,延迟为1.1秒时,WER进一步降低至7.16%,这一表现显著低于语音助手、现场工具和免提工作流所要求的一秒关键阈值。

步骤4:使用Nemotron内容安全和PII模型强制执行安全措施

跨地区和跨语言运行的AI智能体不仅必须理解有害内容,还必须理解文化细微差别和上下文相关的含义。

image.png

图4.使用NVIDIA LlamaNemotronSafety Guard模型的安全管道,检测安全或不安全内容。

llama-3.1-nemotron-safety-guard-8b-v3模型可提供20多种语言的多语言内容安全,并可对23个安全类别进行实时PII检测。

该模型通过NVIDIA API提供,无需额外托管基础设施,即可轻松添加输入和输出过滤。它可以基于语言、方言和文化背景区分含义不同但表达相似的短语,这在处理可能受到干扰或非正式的实时ASR输出时尤为重要。

from langchain_nvidia_ai_endpoints import ChatNVIDIA
 
safety_guard = ChatNVIDIA(model="nvidia/llama-3.1-nemotron-safety-guard-8b-v3")
result = safety_guard.invoke([
    {"role": "user", "content": query},
    {"role": "assistant", "content": response}
])

步骤5:使用Nemotron3 Nano添加长上下文推理功能

NVIDIANemotron3 Nano为智能体提供推理能力,结合了高效的混合专家(MoE)机制和混合Mamba-Transformer架构,支持1M token上下文窗口。这使得模型能够在单个推理请求中合并检索到的文档、用户历史记录和中间步骤。

image.png

图5.使用NVIDIANemotron3 Nano的推理管道。

当检索到的文档包含图像时,智能体首先使用NemotronNano VL来描述这些图像,然后将所有信息传递给Nemotron3 Nano以获得最终的响应。该模型支持可选的思考模式,可用于更复杂的推理任务:

completion = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[{"role": "user", "content": prompt}],
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)

输出在返回之前会通过安全过滤器,将您的检索增强型查找转换为具有完整推理能力的智能体。

步骤6:使用LangGraph将所有内容连接起来

LangGraph将整个工作流编排为一个有向图。每个节点处理一个阶段,即转录、检索、图像描述、生成和安全检查,组件之间有清晰的切换:

VoiceInput→ASR→Retrieve→Rerank→DescribeImages→Reason→Safety→Response

智能体状态流经每个节点,并在过程中积累上下文。这种结构简化了添加条件逻辑、重试失败步骤或基于内容类型进行分支。配套Notebook中的完整实现展示了如何定义每个节点,并将其连接到生产就绪型管道中。

步骤7:部署智能体

智能体能够在本地机器上稳定运行后,您就可以将其部署到任意位置。在需要分布式摄取、嵌入生成或大规模批量向量索引时,可使用NVIDIA DGX Spark。Nemotron模型可以进行优化、打包并作为NVIDIANIM运行(一套预构建的GPU加速推理微服务,专为在NVIDIA基础设施上部署AI模型而设计),并可直接从Spark调用以进行可扩展的处理。当您需要按需的GPU工作空间且无需系统设置直接运行Notebook,同时还希望获得可与团队轻松共享的Spark集群远程访问时,可以选择使用NVIDIA Brev。

如果您想查看适用于物理机器人助手的相同部署模式,请查看基于Nemotron和DGX Spark的ReachyMini个人助理教程。

两个环境都使用相同的代码路径,因此您可以由实验阶段平稳过渡到生产环境,所需的修改极少。

您所构建的内容

现在,您拥有一个由Nemotron驱动的智能体核心结构,该结构由四个核心组件组成:用于语音交互的语音ASR、用于实现信息真实性的多模态RAG、考虑文化差异的多语言内容安全过滤,以及用于长上下文推理的Nemotron3 Nano。相同的代码适用于本地开发到生产级GPU集群运行。

组件 目的
多模态RAG 在真实的企业数据中锚定响应
语音ASR 实现自然语音交互
安全 跨语言和文化背景识别不安全内容
长上下文LLM 通过推理生成准确的响应

表2.用于构建基于Nemotron的语音智能体的四个组件概览——多模态RAG、语音ASR、多语言内容安全和长上下文推理。

本教程中的每个部分都与Notebook中的相应部分直接对应,因此您可以逐步实施和测试该流程。一旦端到端工作正常,相同的代码即可扩展到生产部署。

关于作者

Chris Alexiuk 是 NVIDIA 的深度学习开发者倡导者,负责创建技术资源,帮助开发者使用 NVIDIA 提供的一整套强大 AI 工具。Chris 拥有机器学习和数据科学背景,对大型语言模型的一切充满热情。

Isabel Hulseman 是 NVIDIA 的综合营销经理,专注于人工智能软件。她的兴趣领域包括用于构建、定制和部署大型语言模型和生成人工智能应用程序的加速推理和解决方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110095
  • 模型
    +关注

    关注

    1

    文章

    3810

    浏览量

    52253
  • 智能体
    +关注

    关注

    1

    文章

    551

    浏览量

    11642

原文标题:CES 2026 | 如何使用 RAG 和安全护栏构建语音智能体

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「基于大模型RAG应用开发与优化」阅读体验】+第一章初体验

    《基于大模型RAG应用开发与优化》试读报告 ——第一章:了解大模型RAG 近年来,随着人工智能技术的快速发展,大
    发表于 02-07 10:42

    【「基于大模型RAG应用开发与优化」阅读体验】RAG基本概念

    的安全性和数据的保密性。 未来以RAG为代表的人工智能发展,将开辟一条新通道,过去,各厂家追求实用的大模型等,但在实际用时总有些不称手。通过RAG技术,将已有技术推广到各行各业,实现新
    发表于 02-08 00:22

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励
    的头像 发表于 09-06 14:59 1435次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b>-4 340B<b class='flag-5'>模型</b>帮助开发者生成合成训练数据

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何
    的头像 发表于 01-09 11:11 1678次阅读

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    月 18 日 ——  NVIDIA 今日发布具有推理功能的开源 Llama Nemotron 模型系列,旨在为开发者和企业提供业务就绪型基础,助力构建能够独立工作或以团队形式完成复杂
    发表于 03-19 09:31 435次阅读
    <b class='flag-5'>NVIDIA</b> 推出开放推理 AI <b class='flag-5'>模型</b>系列,助力开发者和企业<b class='flag-5'>构建</b>代理式 AI 平台

    企业使用NVIDIA NeMo微服务构建AI智能平台

    已发布的 NeMo 微服务可与合作伙伴平台集成,作为创建 AI 智能构建模块,使用商业智能与强大的逻辑推理模型 (包括
    的头像 发表于 04-27 15:05 1470次阅读

    ServiceNow携手NVIDIA构建150亿参数超级助手

    Apriel Nemotron 15B 开源大语言模型 (LLM) 使用 NVIDIA NeMo、NVIDIA Llama Nemotron
    的头像 发表于 05-12 15:37 1045次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 1991次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b> Nano 2推理<b class='flag-5'>模型</b>发布

    NVIDIA Nemotron模型如何推动AI发展

    Nemotron 开源技术能够帮助开发者与企业构建强大的通用和专用智能系统。
    的头像 发表于 10-13 11:12 1168次阅读

    使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025构建高性能AI应用

    搜索和调用外部 AI 模型的 SQL 原生 API。NVIDIA 与微软共同将 SQL Server 2025 与 NVIDIA Nemotron
    的头像 发表于 12-01 09:31 1001次阅读
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b> <b class='flag-5'>RAG</b>和Microsoft SQL Server 2025<b class='flag-5'>构建</b>高性能AI应用

    NVIDIA Nemotron如何助力企业构建专业AI智能

    随着代理式 AI 的日益普及,开源模型与工具日趋成熟,各行业企业都在思考:我们该构建怎样的 AI 智能来解决自身独特的业务挑战?
    的头像 发表于 12-13 09:14 915次阅读

    NVIDIA 推出 Nemotron 3 系列开放模型

    token 数。 ● Nemotron 通过先进的强化学习技术以及大规模并行多环境后训练,实现了卓越的准确率。 ● NVIDIA 率先推出整套前沿的开放模型、训练数据集及强化学习环境与
    的头像 发表于 12-16 09:27 795次阅读
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Nemotron</b> 3 系列开放<b class='flag-5'>模型</b>

    利用NVIDIA Nemotron开放模型构建智能文档处理系统

    基于 NVIDIA Nemotron 开放模型的 AI 驱动文档智能,增强科学研究、金融和法律等领域工作流。
    的头像 发表于 02-25 11:21 649次阅读

    RAG、MCP与智能:大模型落地的三道关

    模型能力越来越强,但落地没那么快。从单次对话到多步任务,中间隔着系统工程。这篇文章聊三个绕不开的技术方向:RAG、MCP和智能。 一、RAG
    的头像 发表于 03-19 13:55 127次阅读

    NVIDIA开放模型助力构建下一代数字健康智能

    NVIDIA Nemotron 系列开放模型NVIDIA NeMo 库正在为临床医生、研究人员和开发者提供开放权重和方法,使他们能够在自有的基础设施上
    的头像 发表于 03-25 09:46 380次阅读