0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

检索增强生成(RAG)如何助力企业为各种企业用例创建高质量的内容?

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-03-29 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在生成式 AI 时代,机器不仅要从数据中学习,还要生成类似人类一样的文本、图像、视频等。检索增强生成(RAG)则是可以实现的一种突破性方法。

RAG 工作流程基于大语言模型(LLM)而构建,这些 LLM 可以理解查询并生成响应。但是,LLM 存在局限性,包括训练的复杂性和缺乏当前(有时是专有)信息。此外,当未根据特定数据进行训练就回答提示词时,它们往往会产生幻觉并合成事实错误的信息。RAG 通过向 LLM 提供企业特定信息来增强查询,从而帮助克服这些限制。

数据中心作为新的计算单元,随着网络服务对 CPU 压力的增加,现代工作负载对网络基础设施提出了新的挑战。网络基础设施需要具备敏捷性、自动化和可编程性的框架,并配备加速器和卸载功能,这些是充分发挥 AI 技术潜力和推动创新的关键。

在本文中,我们讨论了 RAG 如何助力企业为各种企业用例创建高质量、相关且引人入胜的内容。我们深入探讨了通过扩展 RAG 来处理大量数据和用户所面临的技术挑战,以及如何使用由 NVIDIA GPU 计算、加速以太网网络、网络存储和 AI 软件提供支持的可扩展架构来应对这些挑战。

RAG 使企业能够充分利用数据

典型的 RAG 工作流程使用向量数据库,向量数据库是一类专为执行相似性搜索而定制的数据管理系统,用于存储和检索与查询相关的企业特定信息。

通过将 RAG 集成到其信息系统中,企业可以利用大量内部和外部数据来生成具有洞察力的全新上下文相关内容。这种融合是一次重大飞跃,使企业能够利用其数据和领域专业知识,为个性化客户互动开辟新途径,简化内容的创建,并提高知识用例的效率。

然而,在企业规模部署 RAG 也面临着一系列挑战,包括管理数百个数据集和数千名用户的复杂性。这就需要一种分布式架构,其能够满足有效应对此类大规模操作的处理和存储需求。

要扩展此架构,您必须嵌入、向量化和索引数百万个文档、图像、音频文件和视频,同时还适应每天新创建内容的嵌入。

另一个挑战是确保交互式多模态应用程序的低延迟响应。由于需要集成数据企业应用程序以及结构化和非结构化数据存储,因此需要实时处理和响应,而在大规模实现方面可能具有挑战。

生成式 AI 的数据索引和存储也构成了挑战。

虽然传统企业应用程序可以压缩数据并将其存储来进行高效检索,从而支持索引和语义搜索,但是基于 RAG 的数据库可以扩展到比原始文本文档及其相关元数据大 10 倍以上。这将导致在数据增长和存储方面的重大挑战。

为了获得最佳结果,企业必须投资加速计算、网络和存储基础设施,这对于处理训练和部署 RAG 模型所需的大量数据至关重要。

如何实现可扩展且高效的 RAG 推理

在 GTC 2024 上,NVIDIA 推出了一系列生成式 AI 微服务,为开发者提供用于创建和部署自定义 AI 应用程序的企业级构建块。

企业可以使用这些微服务作为创建 RAG 驱动的应用程序的基础。通过将其与 NVIDIA RAG 工作流程示例相结合,您可以加快生成式 AI 应用程序的构建和产品化过程。

在本文中,我们使用多节点 GPU 计算推理、加速以太网网络和网络连接存储对这些 RAG 工作流程示例进行基准测试。我们的测试结果表明,高性能网络和网络连接存储可实现高效且可扩展的生成式 AI 推理,使企业能够开发由 RAG 驱动的应用程序,在促进连续数据处理的同时,还可扩展到数千个用户。

图 1 显示了包含两个阶段和数据流水线的 RAG 工作流程。

0f0e64c2-eced-11ee-a297-92fbcf53809c.png

图 1.RAG 工作流程

在第一阶段,数据提取将文档和其他数据模式转换为数字嵌入,然后在向量数据库中对其进行索引。此过程支持基于相似度分数来有效检索相关文档。

查询阶段从用户输入问题时开始,该问题也会被转换为嵌入并用于在向量数据库中搜索相关内容。检索相关内容后,会将其传递给 LLM 进行进一步处理。原始输入问题以及增强上下文会提供给 LLM,LLM 会针对用户的查询生成更精确的答案。

此工作流程可以有效地检索和生成信息,使其成为适用于各种企业应用程序的强大工具。

加速以太网网络、网络连接存储在数据提取方面表现出色

我们最初测试了基于单个 GPU 节点的数据提取流水线。图 2 显示了使用一台具有 8 个 A100 GPU 的 DGX 系统和一个专为对象存储工作负载而设计的网络连接全闪存存储平台来进行测试设置。

0f3148ac-eced-11ee-a297-92fbcf53809c.png

图 2.具有网络连接存储的单节点 NeMo Retriever 微服务

DGX 系统通过 NVIDIA ConnectX-7 网卡连接到网络,并使用了加速的 NVMe-over-Fabrics(NVMe – oF)和 Amazon S3 对象存储协议及两台 NVIDIA Spectrum SN3700 交换机

使用 NeMo Retriever 微服务,我们比较了 PDF 文档(包括文本和图像)的嵌入和索引性能。此次比较涉及 DGX 系统中的直接附加存储(DAS)和网络连接存储。

图 3 显示了单节点上的数据提取基准测试的结果。结果表明,与使用 DAS 相比,使用 Amazon S3 的网络连接存储将数据提取速度提高了 36%,将处理时间缩短了 122 秒。这表明网络连接存储是数据提取的更好选择,同时还依赖于网络速度和延迟。

加速以太网网络对于提供稳健、高性能和安全的连接至关重要。除了增强文档嵌入外,网络连接存储还提供各种企业级数据管理功能。

0f4f2426-eced-11ee-a297-92fbcf53809c.jpg

图 3.单节点数据提取基准测试 (100 万个向量)

然后,我们使用多节点 RAG 设置进行测试,该设置使用通过 NVIDIA BlueField-3 DPU 连接的分布式微服务架构(图 4)。随着多个节点并行运行以上传嵌入、计算索引并插入向量数据库,性能也随之提升。

0f5d2f1c-eced-11ee-a297-92fbcf53809c.png

图 4.具有网络连接存储的多节点 NeMo Retriever 微服务

我们比较了每台服务器中使用直接附加 SSD 与网络连接存储的性能。对于服务器内的 SSD,MinIO 充当对象存储层。对于网络连接存储,我们绕过 MinIO,测试了存储系统自己的原生 Amazon S3 对象接口

结果表明,多节点比使用单节点提供更快的性能,将处理时间缩短了近 102 秒。这些结果证明了多节点 GPU 加速与企业级网络连接存储相结合的性能优势。

0f9fd7cc-eced-11ee-a297-92fbcf53809c.jpg

图 5.多节点数据提取基准测试 (100 万个向量)

适用于 RAG 驱动型应用程序的网络连接存储的优势

网络连接存储可以通过网络访问块、文件和对象,而无需直接将存储介质连接到服务器。

网络连接存储不仅为基于 RAG 的应用程序提供了明显的性能优势,而且还提供了额外的企业优势,使其成为增强自然语言处理的最佳数据平台。

适用于 RAG 工作流程的网络连接存储具有以下优势:

实时流数据提取:网络连接存储支持从各种来源(例如社交媒体、Web、传感器物联网设备)提取实时流数据。RAG 应用程序可以使用这些数据生成相关的全新内容。DAS 可能无法处理大量且快速的流数据,或者可能需要额外的处理或缓冲来存储数据。

可扩展性:在不影响性能或数据可用性的情况下,可以更容易地通过添加更多磁盘或设备来扩展网络连接存储的容量。相比之下,DAS 的可扩展性有限,可能需要停机或重新配置才能进行存储升级。

元数据标注:网络连接存储支持使用元数据(例如标签、类别、关键字或摘要)对数据进行标注。元数据可以被 RAG 应用程序使用来根据查询或上下文进行检索和排名数据源。DAS 可能不支持数据标注,或需要单独的数据库或索引来存储元数据。

利用率:网络连接存储使多个用户和应用程序能够同时访问相同的数据,从而优化存储资源的利用率,而不会产生重复或冲突。相比之下,DAS 可能会导致存储未充分使用或过度使用的问题,具体取决于特定服务器内的需求和数据分配。

可靠性:网络连接存储通过使用先进的独立磁盘冗余阵列(RAID)功能或其他方法来保护数据免受磁盘故障、网络故障或断电的影响,提高了可靠性和数据可用性。相比之下,DAS 在磁盘或服务器发生故障时,可能会丢失数据或损坏,因为 DAS 并不具备数据保护功能。

删除重复数据:网络存储通过消除文件或设备之间的重复或冗余数据来减少存储空间和网络带宽。DAS 可能会存储相同数据的多个副本,从而浪费存储空间和网络资源。

数据出处的来源引用:网络连接存储可以提供数据的来源引用,例如 URL、作者、日期或许可证。RAG 应用程序可以使用此信息来归因和验证数据源,并确保所生成内容的质量和可信度。DAS 可能不提供数据来源引用,或者可能需要手动或外部方法来跟踪数据来源。

备份:网络连接存储通过使用快照、复制或其他方法在不同位置或设备上创建数据副本来促进数据备份和恢复。DAS 可能需要手动或复杂的备份过程,这可能很耗时或容易出错。

数据保护和保留:网络连接存储通过使用加密、压缩或其他技术来保护数据免遭未经授权的访问或修改,从而确保数据保护和保留。它还使用策略、规则或法规来管理数据生命周期,例如数据的创建、删除或存档。相比之下,DAS 可能不提供数据保护和保留功能,或者可能需要额外的软件或硬件来实现数据安全和治理。

结束语

检索增强型生成通过利用生成式 AI 的强大功能以及企业特定的上下文和信息来增强数据和利用,为企业提供了巨大的潜力。

然而,大规模部署 RAG 会带来诸多挑战,例如管理大型数据集、确保交互式应用程序的低延迟以及满足生成式 AI 的存储需求。

为了克服这些挑战,企业必须扩展其基于 RAG 的生成式 AI 基础设施。为了高效运行,此基础架构必须在整个数据中心堆栈中进行适当的调整和架构设计:加速计算、快速网络、网络连接存储和企业 AI 软件。

生成式 AI 是一个快速增长的新领域。随着 RAG 的不断扩展以支持视频等新模式,数据处理需求持续快速增长。NVIDIA 生成式 AI 微服务与多节点 NVIDIA GPU 计算推理、加速以太网网络和网络连接存储相结合,展示了企业规模 RAG 推理的效率。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    6203

    浏览量

    181595
  • 网络存储
    +关注

    关注

    1

    文章

    62

    浏览量

    26374
  • GPU芯片
    +关注

    关注

    1

    文章

    307

    浏览量

    6559
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1397
  • 生成式AI
    +关注

    关注

    0

    文章

    538

    浏览量

    1133

原文标题:借助加速以太网网络和网络存储扩展企业 RAG

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高质量RAG系统的五个核心设计要点

    检索增强生成(Retrieval-Augmented Generation, RAG)已成为构建大模型应用的标准架构。然而,大多数RAG系统在设计初期会因为忽略核心设计原则而在实际部署
    的头像 发表于 04-24 14:42 172次阅读

    AI大模型微调企业项目实战课

    成长该领域的资深专家。通过将企业积累的高质量业务问答对、专业文档输入给模型,调整其内部的极小部分参数,就能让模型在保持原有通用能力的基础上,精准掌握企业的特定语感和输出规范。这不仅将
    发表于 04-16 18:48

    鸿利智汇荣获2025年度广州花都高质量发展“蛟龙榜”科技创新企业

    日前,广州市花都区召开高质量发展大会,认真落实全省、全市高质量发展大会部署要求,坚持以经济建设为中心,奋力在“十五五”开局之年展现新作为、拼出新气象。会上,花都区2025年高质量发展
    的头像 发表于 03-04 14:09 519次阅读

    广电计量荣获番禺区高质量发展企业服务先进集体

    制造业强区”为主题,动员全区上下政企同心、同向发力,在“十五五”开局之年跑出高质量发展加速度,粤港澳大湾区建设注入强劲番禺动能。
    的头像 发表于 02-28 16:46 1935次阅读

    中软国际出席西安市2026年高质量项目建设推进大会

    此次大会的召开,明确了西安2026年高质量项目建设的方向与路径,也企业发展指明了方向。中软国际将牢记使命、实干笃行,深度融入西安发展大局,以优质项目实践践行企业担当,与西安同频共振、
    的头像 发表于 02-28 14:44 624次阅读

    RAG(检索增强生成)原理与实践

    的 :通过混合检索、重排序、元数据过滤等技术不断改进 评估要全面 :关注检索生成两个阶段的指标 实践建议 从简单开始 :先实现基础RAG,再逐步优化 重视数据
    发表于 02-11 12:46

    华工正源荣获光谷2025年度经济高质量发展突出贡献企业

    会上,公司党委书记、董事长、总裁马新强被授予“光谷2025年度经济高质量发展突出贡献人物”、核心子公司华工正源获“光谷2025年度经济高质量发展突出贡献企业”,公司投资孵化的武汉云岭光电获“光谷2025年度最具成长性
    的头像 发表于 01-28 16:49 1091次阅读

    迈富时珍岛集团:专业GEO服务助力企业构建AI时代内容营销新规

    随着生成式人工智能技术的快速发展,传统SEO的关键词匹配逻辑已经难以适应新的信息检索环境。企业在AI时代面临着内容营销模式变革、AI系统信息筛选标准严苛,以及如何在海量AI
    的头像 发表于 01-16 08:48 476次阅读

    广电计量创新服务体系助力商业航天高质量发展

    显著增强的发展目标。以“技术平台+智能设备+产业协同”核心引擎,构建起覆盖卫星全生命周期的创新服务体系,商业航天高质量发展持续注入新动能。
    的头像 发表于 11-27 17:22 1466次阅读

    质量损失的数据迁移:Nikon SLM Solutions信赖3Dfindit企业

    Nikon SLM Solutions使用CADENAS解决方案迁移了8600多个零部件并优化了设计工程流程 Nikon SLM Solutions公司依靠3Dfindit企业版实现了高效、高质量
    发表于 11-25 10:06

    RAG实践:一文掌握大模型RAG过程

    RAG(Retrieval-Augmented Generation,检索增强生成), 一种AI框架,将传统的信息检索系统(例如数据库)的优势与生成
    的头像 发表于 10-27 18:23 1720次阅读
    <b class='flag-5'>RAG</b>实践:一文掌握大模型<b class='flag-5'>RAG</b>过程

    跃昉科技出席2025横琴粤澳深度合作区企业高质量发展大会

    8月29日,横琴粤澳深度合作区企业高质量发展大会暨“育苗培优”计划启动仪式在横琴隆重举行。
    的头像 发表于 09-02 16:15 1044次阅读

    星通时频创始人出席2025高新技术企业高质量发展论坛

    7月5日,2025高新技术企业高质量发展论坛在广州成功举办。星通时频创始人陆建兵先生作为嘉宾出席,并以"中小企业创新突围之道"为主题发表观点。陆建兵先生结合星通时频22年的发展
    的头像 发表于 07-14 17:11 1103次阅读
    星通时频创始人出席2025高新技术<b class='flag-5'>企业</b><b class='flag-5'>高质量</b>发展论坛

    SCTF星通时频参加2025高新技术企业高质量发展论坛

    近日,由暨南大学主办、泰克威创新发展研究院承办的“高新技术企业高质量发展论坛”在广州成功举办。
    的头像 发表于 07-08 17:47 1102次阅读

    软通动力发布智慧园区RAG解决方案

    近日,鲲鹏昇腾开发者大会2025(KADC 2025)在北京正式启幕。软通动力作为鲲鹏路线坚定的拥护者与实践者,受邀出席大会,正式发布软通动力智慧园区RAG(Retrieval Augmented Generation 检索增强生成
    的头像 发表于 05-29 10:00 1036次阅读
    软通动力发布智慧园区<b class='flag-5'>RAG</b>解决方案