0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是检索增强生成?

NVIDIA英伟达企业解决方案 来源:未知 2023-11-16 21:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

检索增强生成是一种使用从外部来源获取的事实,来提高生成式 AI 模型准确性和可靠性的技术。

为了理解这一生成式 AI 领域的最新进展,让我们以法庭为例。

法官通常根据对法律的一般理解来审理和判决案件。但有些案件需要用到特殊的专业知识,如医疗事故诉讼或劳资纠纷等,因此法官会派法庭书记员去图书馆寻找可以引用的先例和具体案例。

与优秀的法官一样,大语言模型(LLM)能够响应人类的各种查询。但为了能够提供引经据典的权威答案,模型需要一个助手来做一些研究。

AI 的“法庭书记员”就是一个被称为检索增强生成(RAG)的过程。

名称的由来

这个名称来自 2020 年的一篇论文(https://arxiv.org/pdf/2005.11401.pdf),论文的第一作者 Patrick Lewis 对 RAG 这个“不讨喜”的缩写词表示了歉意,如今,这个词被用来描述在数百篇论文和数十种商业服务中不断发展壮大的某种方法,而在他看来,这些都代表着生成式 AI 的未来。

在一场于新加坡举办的数据库开发者区域会议中,Lewis 接受了采访,他提到:“如果我们当时知道研究成果会被如此广泛地使用,肯定会在起名时多花些心思。”

wKgaomVWFweAOv0_AABbgqp3Oek038.jpg

图 1:Partick Lewis

Lewis 现在是 AI 初创企业 Cohere 的 RAG 团队负责人。他表示:“我们当时一直想取一个好听的名字,但到了写论文的时候,大家都想不出更好的了。”

什么是检索增强生成?

检索增强生成是一种使用从外部来源获取的事实,来提高生成式 AI 模型准确性和可靠性的技术。

换言之,它填补了 LLM 工作方式的缺口。LLM 其实是一种神经网络,以其所含参数数量来衡量,参数本质上等同于人类一般的遣词造句方式。

这种深度理解有时被称为参数化知识,使 LLM 能够在瞬间对一般的指令作出响应。但如果用户希望深入了解当前或更加具体的主题,它就不够用了。

结合内部与外部资源

Lewis 与其同事所开发的检索增强生成技术能够连接生成式 AI 服务与外部资源,尤其是那些具有最新技术细节的资源。

这篇论文的共同作者们来自前 Facebook AI Research(现 Meta AI)、伦敦大学学院和纽约大学。由于 RAG 几乎可以被任何 LLM 用于连接任意外部资源,因此他们把 RAG 称为“通用的微调秘方”。

建立用户信任

检索增强生成为模型提供了可以引用的来源,就像研究论文中的脚注一样。这样用户就可以对任何说法进行核实,从而建立起信任。

另外,这种技术还能帮助模型消除用户查询中的歧义,降低模型做出错误猜测的可能性,该现象有时被称为“幻觉”。

RAG 的另一大优势就是相对简单。Lewis 与该论文的其他三位共同作者在博客中表示,开发者只需五行代码就能实现这一流程。

这使得该方法比使用额外的数据集来重新训练模型更快、成本更低,而且还能让用户随时更新新的来源。

如何使用检索增强生成

借助检索增强生成技术,用户基本上可以实现与数据存储库对话,从而获得全新的体验。这意味着用于 RAG 的应用可能是可用数据集数量的数倍。

例如,一个带有医疗数据索引的生成式 AI 模型可以成为医生或护士的得力助手;金融分析师将受益于一个与市场数据连接的“助手”。

实际上,几乎所有企业都可以将其技术或政策手册、视频或日志转化为“知识库”资源,以此增强 LLM。这些资源可以启用客户或现场技术支持、员工培训、开发者生产力等用例。

AWS、IBM、Glean、谷歌、微软、NVIDIA、Oracle 和 Pinecone 等公司正是因为这一巨大的潜力而采用 RAG。

开始使用检索增强生成

为了帮助用户入门,NVIDIA 开发了检索增强生成参考架构https://docs.nvidia.com/ai-enterprise/workflows-generative-ai/0.1.0/technical-brief.html)。该架构包含一个聊天机器人示例和用户使用这种新方法创建个人应用所需的元素。

该工作流使用了专用于开发和自定义生成式 AI 模型的框架NVIDIA NeMo,以及用于在生产中运行生成式 AI 模型的软件,例如NVIDIA Triton推理服务器NVIDIA TensorRT-LLM等。

这些软件组件均包含在NVIDIA AI Enterprise软件平台中,其可加速生产就绪型 AI 的开发和部署,并提供企业所需的安全性、支持和稳定性。

为了让 RAG 工作流获得最佳性能,需要大量内存和算力来移动和处理数据。NVIDIA GH200 Grace Hopper 超级芯片配备 288 GB 高速 HBM3e 内存和每秒 8 千万亿次的算力,堪称最佳的选择,其速度相比使用 CPU 提升了 150 倍。

一旦企业熟悉了 RAG,就可以将各种现成或自定义的 LLM 与内部或外部知识库相结合,创造出各种能够帮助其员工和客户的助手。

RAG 不需要数据中心。在 Windows PC 上已可直接使用 LLM,其实这都要归功于 NVIDIA 软件所提供的支持,使用户可以在笔记本电脑上轻松访问各种应用。

wKgaomVWFweAcXm2AABiDi7jtnw228.jpg

图 2:一个在 PC 上的 RAG 示例应用程序。

配备NVIDIA RTX GPU的 PC 如今可以在本地运行一些 AI 模型。通过在 PC 上使用 RAG,用户可以连接私人知识来源(无论是电子邮件、笔记还是文章),以改善响应。这样,用户可以对其数据来源、指令和回答的私密性和安全性放心。

在最近的一篇博客(https://blogs.nvidia.com/blog/tensorrt-llm-windows-stable-diffusion-rtx/)中,就提供了一个在 Windows 上使用 TensorRT-LLM 加速的 RAG 以快速获得更好结果的例子。

检索增强生成的发展史

这项技术的起源至少可以追溯到 20 世纪 70 年代初。当时,信息检索领域的研究人员推出了所谓的问答系统原型,即使用自然语言处理(NLP)访问文本的应用程序,最初涵盖的是棒球等狭隘的主题。

多年以来,这种文本挖掘背后的概念其实一直没有改变。但驱动它们的机器学习引擎却有了显著的发展,从而提高了实用性和受欢迎程度。

20 世纪 90 年代中期,Ask Jeeves 服务(即现在的 Ask.com)以一个穿着考究的男仆作为吉祥物,普及了问答系统。2011 年,IBM 的 Watson 在《危险边缘》(Jeopardy!)节目中轻松击败两位人类冠军,成为电视名人。

wKgaomVWFweAF4ojAADgAIrgW7E843.jpg

如今,LLM 正在将问答系统提升至全新的水平。

在一家伦敦实验室中迸发的灵感

在 2020 年发表这篇开创性的论文时,Lewis 正在伦敦大学学院攻读自然语言处理(NLP)博士学位,并在伦敦一家新成立的 AI 实验室中为 Meta 工作。当时,该团队正在寻找将更多知识加入到 LLM 参数中的方法,并使用模型自己开发的基准来衡量进展。

Lewis 回忆道,团队在早期方法的基础上,受谷歌研究人员一篇论文的启发,“产生了这一绝妙的想法——在一个经过训练的系统中嵌入检索索引,这样它就能学习并生成你想要的任何文本输出。”

wKgaomVWFweAb0-BAADX3I7hchU283.jpg

图 3:IBM Watson 问答系统在电视节目《危险边缘》(Jeopardy!)中大获全胜,一举成名

Lewis 将这项正在开发的工作与另一个 Meta 团队的优秀检索系统连接,所产生的第一批结果令人大吃一惊。

“我把结果拿给主管看,他惊叹道:‘哇,你们做到了。这可不是常有的事情’。因为这些工作流很难在第一次就被设置正确。”

Lewis 还赞扬了团队成员 Ethan Perez 和 Douwe Kiela 的重要贡献,两人分别来自纽约大学和当时的 Facebook AI 研究院。

这项在 NVIDIA GPU 集群上运行并已完成的工作,展示了如何让生成式 AI 模型更具权威性和可信度。此后,数百篇论文引用了这一研究成果,并在这一活跃的研究领域对相关概念进行了扩展和延伸。

检索增强生成如何工作

NVIDIA 技术简介https://docs.nvidia.com/ai-enterprise/workflows-generative-ai/0.1.0/technical-brief.html)高度概括了 RAG 流程:

当用户向 LLM 提问时,AI 模型会将查询发送给另一个模型,后者会将查询转换成数字格式以便机器读取。数字版本的查询有时被称为嵌入或向量。

wKgaomVWFweAcme4AABIVri9hBM966.jpg

图 4:检索增强生成将 LLM 与嵌入模型和向量数据库相结合。

随后,嵌入模型会将这些数值与可用知识库的机器可读索引中的向量进行比较。当发现存在一个或多个匹配项时,它会检索相关数据,将其转换为人类可读的单词并发送回 LLM。

最后,LLM 会将检索到的单词和它自己对查询的响应相结合,形成最终的答案并提交给用户,其中可能会引用嵌入模型找到的来源。

始终使用最新的资源

在后台,嵌入模型会不断创建并更新机器可读索引(有时被称为向量数据库),以获得经过更新的最新知识库。

wKgaomVWFwiAN8h0AAA8jV-HmHw114.jpg

图 5:LangChain 的示意图从另一个角度描述了使用检索流程的 LLM。

许多开发者也发现,LangChain 这个开源程序库特别适合将 LLM、嵌入模型和知识库串联到一起。NVIDIA 在其检索增强生成参考架构中就是使用了 LangChain。

而在 LangChain 社群里,他们也提供了自己的 RAG 流程描述。(https://blog.langchain.dev/tutorial-chatgpt-over-your-data/

展望未来,生成式 AI 的未来在于其创造性地串联起各种 LLM 和知识库,创造出各种新型助手,并将可以验证的权威结果提供给用户。

也欢迎您访问NVIDIA LaunchPadhttps://www.nvidia.com/en-us/launchpad/ai/generative-ai-knowledge-base-chatbot/)中的实验室,您可以通过 AI 聊天机器人亲身体验检索增强生成。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,立即注册 GTC 大会


原文标题:什么是检索增强生成?

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4126

    浏览量

    99775

原文标题:什么是检索增强生成?

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Elasticsearch7.x搜索实战

    。用户更容易在第一页找到想要的商品或文章,体验感和转化率都能得到提升。 四、检索增强生成,提供答案而非链接 纯粹的检索系统返回的是文档列表,用户还需要自己阅读和归纳。而大模型与 ES 7.x 结合后,可以
    发表于 05-22 10:52

    行业洞察篇__数字孪生IOC的“智能体”时刻:智慧城市公共服务的演进逻辑

    一无所知。所以,行业内正在形成一种共识:需要用知识图谱来承载结构化、可推理的领域知识,用检索增强生成管道来获取非结构化的文本数据,用多个专用模型(如水文预测模型、交通仿真模型、资源优化配置模型)来分担
    发表于 05-14 09:52

    工业元宇宙中的数字孪生与智能体协同:如何根据业务阶段选择适配架构?

    要求选择模型组合,避免被单一厂商锁定。更关键的是,它具备强大的语义向量构建和检索增强生成能力,能够将企业内部的各种文档、数据库中的私有数据转化为智能体可理解的知识,使得决策能够基于企业最新的、特定的信息
    发表于 05-13 13:50

    AI大模型小龙虾-OpenClaw-0基础从入门到实战

    乎是不可能完成的任务。OpenClaw 教程在这类场景中极度适用,因为它将复杂的 RAG(检索增强生成)流程进行了“傻瓜化”和“可视化”封装。用户只需要按照指引,像整理文件夹一样把私有文档灌入系统
    发表于 05-06 16:04

    SGG-北京总部Java20250625-12月结课

    教学基础上,前瞻性地引入了 AI 相关的工程化技术。学员们学习了如何在 Java 后端中集成大模型 API,构建智能客服或辅助决策系统,并了解了 RAG(检索增强生成)在企业知识库搭建中的应用。这种
    发表于 05-01 17:33

    [完结15章]Java转 AI高薪领域必备-从0到1打通生产级AI Agent开发

    数据的检索增强生成(RAG)系统。这也是Java+AI转型的技术深水区。 RAG绝非简单的向量检索,它是一项复杂的系统工程。Java工程师需要跨界理解自然语言处理(NLP)的基础技术链路:从文档解析的容错
    发表于 04-30 13:46

    Java转 AI高薪领域必备 从0到1打通生产级AI Agent开发 教程资料

    ,而是站在工程落地的高度,聚焦于:大模型API的接入与降本、Prompt的工程化处理、RAG(检索增强生成)的精准度优化、以及Agent工具调用的安全管控。将过去在Java高并发、分布式事务中积累的工程
    发表于 04-29 17:08

    高质量RAG系统的五个核心设计要点

    检索增强生成(Retrieval-Augmented Generation, RAG)已成为构建大模型应用的标准架构。然而,大多数RAG系统在设计初期会因为忽略核心设计原则而在实际部署中暴露严重问题。本文从工程实践角度出发,梳理高质量RAG系统的5个核心设计要点。
    的头像 发表于 04-24 14:42 239次阅读

    【2025夏季班正课】大模型Agent智能体开发实战 课分享

    ,或用于优化检索增强生成(RAG)中的知识库索引。这种数据回流与模型迭代的闭环,使得智能体能够随着业务的发展不断进化。技术实现上,这涉及到数据管道的构建、向量化数据库的性能调优以及微调数据的自动化合成技术
    发表于 03-29 16:12

    KIOXIA单服务器实现48亿高维向量搜索数据库,借助GPU实现索引构建时间加速7.8倍

    通过NVIDIA cuVS利用GPU加速,显著缩短索引构建时间的成果。这两项成果标志着检索增强生成(RAG)搜索解决方案取得了重大进展。目前公司正持续开发,以支持超过48亿向量的更大规模部署。 大规模
    的头像 发表于 03-18 16:57 1133次阅读

    RAG(检索增强生成)原理与实践

    引言 在大语言模型(LLM)蓬勃发展的今天,如何让AI更准确地回答特定领域的问题成为了一个关键挑战。RAG(Retrieval-Augmented Generation,检索增强生成)技术应运而生
    发表于 02-11 12:46

    强生医疗科技携手NVIDIA推进手术机器人开发

    借助物理 AI 和模拟技术,强生医疗科技正在推进 MONARCH 平台的开发,这是一种机器人辅助支气管镜检查领域首个投放市场的创新技术,在美国也已获准用于机器人辅助泌尿科手术。
    的头像 发表于 11-03 15:03 1129次阅读

    RAG实践:一文掌握大模型RAG过程

    RAG(Retrieval-Augmented Generation,检索增强生成), 一种AI框架,将传统的信息检索系统(例如数据库)的优势与生成式大语言模型(LLM)的功能结合在一
    的头像 发表于 10-27 18:23 1759次阅读
    RAG实践:一文掌握大模型RAG过程

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景生成体系及其在自动驾驶仿真中的实践价值。
    的头像 发表于 08-06 11:20 5493次阅读
    <b class='flag-5'>生成</b>式 AI 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的突破与实践

    软通动力发布智慧园区RAG解决方案

    近日,鲲鹏昇腾开发者大会2025(KADC 2025)在北京正式启幕。软通动力作为鲲鹏路线坚定的拥护者与实践者,受邀出席大会,正式发布软通动力智慧园区RAG(Retrieval Augmented Generation 检索增强生成)解决方案。
    的头像 发表于 05-29 10:00 1088次阅读
    软通动力发布智慧园区RAG解决方案