0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA全栈加速代理式AI应用落地

NVIDIA英伟达 来源:NVIDIA英伟达 2025-07-14 11:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在近期举办的 AWS 中国峰会上,NVIDIA 聚焦于“NVIDIA 全栈加速代理式 AI 应用落地”,深入探讨了代理式 AI (Agentic AI) 技术的前沿发展以及在企业级应用中的深远影响。本文将为您详细介绍此次分享的技术亮点及实践应用。

AI Agent 技术发展现状

随着人工智能技术的不断演进,从感知式 AI 到生成式 AI,再到代理式 AI,我们正见证全新工作方式的诞生。代理式 AI 不仅使更强大的 AI 应用成为可能,而且正迅速成为解决特定业务问题的关键工具。数据显示,到 2025 年,约有一半的组织将使用 AI智能体(AI Agent) 帮助解决特定业务问题。随着技术发展,每个人都可以创建自己的 AI Agent。一些工作流可使周期时间缩短 40%。根据 Gartner 报告,到 2028 年,约三分之一的企业级软件开发将引入 AI Agent,而 2024 年这一数字不到 1%,可见相关方面发展迅速。

AI Agent 工作原理与架构

AI Agent 的运行需要人类撰写 prompt,设定角色、场景、任务及需要 AI 执行的操作,并告知整体信息。之后,大语言模型自行生成计划,确定工具,甚至协同调动其他 Agent。经过一系列分析和生成后,需通过批判总结决定 Agent 是继续迭代还是返回结果给用户。

首先,Agent 需持续学习和迭代。通过建立飞轮系统,让模型在实际应用中学习,反哺模型迭代,提高模型鲁棒性和适应性。其次,作为企业级应用,安全性和隐私保护至关重要。需保证结果可靠性,尽量避免大语言模型幻觉。同时,人机或用户与 AI 的交互应尽可能友好,以发挥最佳效果。

AI Agent 技术框架与实现

一、AI Agent 构建模块

构建 AI Agent,有三个重要组成部分,从下往上看:

NVIDIANIM是预构建的容器工具,使用非常简单,只需几分钟即可部署企业级安全稳定的大语言模型推理服务。通过 docker 拉取一个 docker 镜像,完成下载模型等前置工作后,就可以通过一个 Open AI API 或其他行业标准的 API 格式来调用,从而得到一个线上生产环境可用的、安全稳定的大语言模型推理服务。NIM 集成了优化的推理引擎,如 TensorRT-LLM、vLLM 等,这些推理引擎可以帮助优化首 token 延迟、吞吐等指标,在 TCO 可控的情况下,尽量提高吞吐和整体细分表现。此外 NIM 可以在任意地点便捷部署和扩展,包括数据中心、工作站,甚至云上或边缘(如公有云、混合云、私有云等)。NVIDIA 也与国内外的云厂商进行集成,如亚马逊云科技等,可在云上快速使用产品。

NVIDIA NeMo是一套数据飞轮框架,涵盖模型训练和应用的多个模块。通过该数据飞轮,我们可以持续优化迭代模型和应用。

与 AI Agent 最为紧密的是NVIDIA AI Blueprint,它是我们提供的工作流,可向开发者展示如何快速构建安全的、企业级应用。NVIDIA AI Blueprint 涵盖 PDF 转音频、视频搜索与总结等多模态模型和工具,可以通过“搭积木”的方式,将多个 Blueprint 模块化的组成一个工作流来解决复杂问题。同时也可以调用外部工具,使整个应用场景或覆盖面更加全面。典型应用包括 AI 研究助理 Agent、客服机器人、安全 AI Agent 等,均作为参考,用户可通过 NeMo 构建符合应用场景的内容。

二、生成式 AI 数据飞轮:

数据飞轮是一种反馈循环机制,通过从交互或流程中收集数据,持续优化 AI 模型,进而产生更优的结果和更有价值的数据。

NVIDIA NeMo 是一个生成式 AI 的框架,其中:

NeMo Curator:在模型预训练阶段需获取大量数据集,但是从网上获取的海量数据集质量往往参差不齐。需要进行质量筛选和去重等步骤。通过集成的 GPU 加速模块,对于十分耗时的质量检测、去重等步骤,可以通过 NeMo Curator 快速实现。

NeMo Customizer:模型数据收集完成后,可通过 NeMo Customizer 开始模型训练或微调。

NeMo Evaluator:模型训练好后,由 NeMo Evaluator 评估其质量,判断其是否符合预期、满足业务需求。

训练好的模型上线部署后,我们将其构建成更复杂的工作流,将单个 NIM 和其他工具总结成 Blueprint,以服务我们的业务场景。

在 RAG(检索增强生成)或 Agent 过程中,向量检索是一个十分重要的技术模块。NVIDIA cuVS集成了 GPU 加速的 ANN (Approximate Nearest Neighbors) 算法,可以提高向量检索的效率。作为企业级应用,安全性和隐私保护至关重要,NVIDIA Guardrails作为 AI 护栏,可以检测生成过程中比较危险或不太友好的内容,使线上服务更加安全可靠。

经过上述链路,最后线上验证过的数据通过回路回到数据集,这部分数据再经过 NeMo Customizer 进行训练微调,就完成了数据闭环。通过这样一步一步的迭代,线上数据反哺回模型训练。

三、面向企业应用的大语言模型定制

我们的模型能力不断增强,使得线上服务效果更加安全可靠。Customizer 涵盖的能力多元,从最初的简单微调、复杂的 sft,到现在常用的强化学习方法。我们还可根据企业特定场景进行相应微调。

以 DeepSeek-V3 训练为例,Transformer Engine 集成了类似 DeepSeek-V3 的 FP8 block wise 算子和 recipe。在 Megatron-Core 层面,基于 DeepSeek-V3 特定架构,支持了 MLA 结构。同时,对 MTP 也有较好支持,还有负载均衡和路由策略。除了支持外,还有相关优化。

DeepSeek-V3 使用 DualPipe 流水线并行策略,Megatron-Core 中也有类似策略,称为 1F1B (F: Forward, B: Backward)。通过 1F1B 的流水线机制,很好地将 MoE 计算与通信进行 overlap,减小训练延迟,提高训练效率。

同时,对于 DeepSeek 开源的内容,我们也有较好集成。在并行方面,Megatron-Core 擅长并行,我们做了 MoE parallel folding。这是指在一个模型里既有 Attention 层,也有 MoE 层,我们针对不同层进行处理。可以使用 parallel folding 方法,将其并行策略解耦,即 Attention 部分和 MoE 层分别采用不同的并行策略,以达到整体更好的效率。NeMo,即更面向用户的层面,除了支持 DeepSeek 的 sft,同时也支持把 DeepSeek-R1 蒸馏到小模型。

四、加速推理的优化技术

如今模型越来越大,参数达到千亿级,需要更强的推理算力。同时,这些模型都是推理模型,逻辑推理需要更多的思考时间,甚至需要超过 100 倍的思考 token。此外,我们的模型现在也支持更长的上下文窗口,在使用过程中,无论是对话系统中的多轮对话,还是 Agent 使用过程中的 Agent-to-Agent、human-to-Agent 等交互手段,都会使上下文 context 变得更长,甚至达到百万级输入 token 以上,这些都对计算推理提出了更多的挑战,也推动着新型优化技术的诞生。

1. 分离式部署 (PD 分离):

大语言模型的推理分为两个阶段。第一个是预填充 (Prefill) 阶段,这是一个计算密集 (Compute-Bound) 阶段,需要较多算力。第二个是解码 (Decode) 阶段,在这个阶段,随着吐出的 token 越来越多,它进入了一个内存密集 (Memory-Bound) 阶段。为了更好地利用预填充和解码的相关特性来优化首 token 延迟和吞吐,分离式部署是比较适应大语言模型推理场景的部署技术。将预填充和解码两个阶段分开,结合其计算特点,分配适合其特定型号的 GPU,并针对不同特性制定不同策略,结合线上 SLA 服务标准,分配不同数量的节点,以优化首 token 延迟和吞吐。

2. NVIDIA Dynamo:

NVIDIA Dynamo是针对分离式部署或大规模分布式部署的框架,具备以下特点:

分布式部署:支持便捷地扩充至上千卡 GPU 的线上部署。

GPU 管理及调度(GPU 规划器):可根据线上实时请求变化或 SLA 服务标准动态调整预填充节点或解码节点的数量,以更好地满足服务需求。

智能路由:在多个节点的情况下,可以结合 KV Cache 等指标,将 decode 任务分配给最佳节点。

典型应用场景案例

一、AI 研究助理 Agent

AI 研究助理 Agent 执行 PDF 转音频的任务。将论文、博客等文档输入到模型中,通过工具转换为 markdown 文件。在此过程中,需要为 Agent 提供复杂的 prompt。首先,按照要求整理出文件大纲,然后根据大纲将脚本分段,进行深入探索并总结有思考性的内容。然后,对整体脚本进行优化,并将多个部分组合输出整理成结构化文本。在这个过程中,人类需要做的是梳理出多个 prompt,并在多个阶段调用不同尺寸的模型来处理不同任务。文档输入时内容庞杂,使用尺寸更大的模型来处理复杂任务。总结时可使用尺寸更小的模型来提高工作流的经济效益。通过这一系列步骤后,输出文本再通过类似 ElevenLabs 的 TTS 服务或 TTS 模型合成为音频文件,返回给用户。

二、软件安全检测 Agent

随着 CVE.org 记录的漏洞突破 20 万大关,软件安全补丁管理面临严峻挑战。传统人工分析、日常扫描漏洞需耗时数日,而基于事件驱动 RAG 技术的软件安全检测 Agent 可将缓解时间压缩至秒级,通过实时检测新软件包或漏洞特征,智能判定组件风险,并自主执行全流程检查清单,最终向安全团队提交包含可操作建议的分析报告。

三、视频分析 Agent

用于视频搜索和总结的 Agent 每天可分析 10 万 PB 级的视频数据。该 Agent 使用NVIDIA Cosmos Nemotron的视觉语言模型,可以从视频数据中提取文本信息,再通过NeMo Retriever Embedding抽取为 embedding,形成向量数据库。同时,并行流程通过分析从视频中提取的信息构建图数据库。当有新视频输入时,就可通过召回链路查询上述数据库,再通过大模型进行总结生成,完成整个视频分析链路。

总结

从 AI 研究助理、软件安全检测到大规模视频分析,这些应用场景正切实推动代理式 AI 落地,在解决复杂业务问题、提升工作效率方面发挥关键作用。NVIDIA 通过全栈解决方案和工具,助力企业构建安全、稳定、高效的代理式 AI 应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109092
  • AI
    AI
    +关注

    关注

    89

    文章

    38101

    浏览量

    296624
  • 人工智能
    +关注

    关注

    1813

    文章

    49736

    浏览量

    261533
  • AWS
    AWS
    +关注

    关注

    0

    文章

    443

    浏览量

    26310

原文标题:NVIDIA 全栈加速代理式 AI 应用落地

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    代理式 AI 重构 EDA:从对话助手到虚拟工程师

    电子发烧友网报道(文 / 吴子鹏)代理式 AI(Agentic AI)作为 AI 领域的新兴方向,是一种能够通过自主感知、推理、规划与执行,独立完成复杂多步骤任务的 
    的头像 发表于 08-28 07:54 2836次阅读

    全球知名品牌借助NVIDIA技术规模化交付个性化广告

    营销领先者正借助使用 OpenUSD、NVIDIA Omniverse 和代理式 AI 技术开发的解决方案,加速内容创作管线。
    的头像 发表于 08-12 15:15 1030次阅读

    代理式AIAI智能体在不同行业中的实际应用

    代理式 AI 的时代已经到来。如今,代理式 AI 已经驱动应用迈向深度场景融合与规模化落地。这波演进浪潮标志着
    的头像 发表于 07-28 14:28 998次阅读

    NVIDIA技术助力企业创建主权AI智能体

    AI Factory 的经验证设计将加速基础设施与软件(包括全新 NVIDIA NIM 微服务和经扩展的 NVIDIA Blueprint)相结合,为各国和企业简化了
    的头像 发表于 06-16 14:28 1086次阅读

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式
    的头像 发表于 05-27 14:03 760次阅读

    基于代理式AI建立网络安全防御体系

    NVIDIA AI 安全为先进的代理式系统提供信任、控制和管理支持。
    的头像 发表于 05-07 14:29 840次阅读

    NVIDIA携手谷歌云助力企业引入代理式AI

    谷歌 Gemini 模型即将支持本地部署,可通过搭载 NVIDIA Blackwell 架构的基础设施,在 Google 分布式云上运行 NVIDIA 机密计算。
    的头像 发表于 04-11 16:32 905次阅读

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驱动的工程设计和科学应用

    提升高达 80 倍 ● 基于全新 NVIDIA Llama Nemotron 推理模型,携手开发面向工程设计和科学应用的代理式 AI
    的头像 发表于 03-24 10:14 1218次阅读

    英伟达GTC2025亮点:NVIDIA、Alphabet 和谷歌携手开启代理式与物理AI的未来

    应用、加速物理 AI 进展,并实现医疗、制造及能源等行业的变革。 Alphabet 旗下的工程师和研究人员正与 NVIDIA 技术团队紧密合作,利用 AI 和仿真技术开发具有抓取能力的
    的头像 发表于 03-21 15:10 1760次阅读
    英伟达GTC2025亮点:<b class='flag-5'>NVIDIA</b>、Alphabet 和谷歌携手开启<b class='flag-5'>代理式</b>与物理<b class='flag-5'>AI</b>的未来

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,
    的头像 发表于 03-21 12:01 1176次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作助力企业<b class='flag-5'>加速</b><b class='flag-5'>代理式</b><b class='flag-5'>AI</b>推理

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首
    发表于 03-19 15:24 470次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业<b class='flag-5'>加速</b><b class='flag-5'>代理式</b> <b class='flag-5'>AI</b> 推理

    NVIDIA Blackwell RTX PRO 提供工作站和服务器两种规格,助力设计师、开发者、数据科学家和创作人员构建代理式

    月 18 日 —— NVIDIA 今日发布了 NVIDIA RTX PRO™ Blackwell 系列工作站和服务器 GPU,通过突破性的加速计算、AI 推理、光线追踪和神经渲染技术
    发表于 03-19 09:50 546次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell RTX PRO 提供工作站和服务器两种规格,助力设计师、开发者、数据科学家和创作人员构建<b class='flag-5'>代理式</b>

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    NVIDIA 后训练的全新 Llama Nemotron 推理模型,为代理式 AI 提供业务就绪型基础 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    发表于 03-19 09:31 335次阅读
    <b class='flag-5'>NVIDIA</b> 推出开放推理 <b class='flag-5'>AI</b> 模型系列,助力开发者和企业构建<b class='flag-5'>代理式</b> <b class='flag-5'>AI</b> 平台

    NVIDIA 发布保障代理式 AI 应用安全的 NIM 微服务

    NVIDIA NeMo Guardrails 包含全新 NVIDIA NIM 微服务,能够为各行业构建 AI 的企业提高 AI 的准确性、安全性和可控性。  
    发表于 01-17 16:29 282次阅读

    NVIDIA与合作伙伴推出代理式AI Blueprint

    开发者现在可以使用全新 NVIDIA AI Blueprint 构建和部署具备推理、规划和行动能力的定制化 AI 智能体。这些蓝图囊括了 NVIDIA NIM 微服务、
    的头像 发表于 01-09 11:08 1019次阅读