0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

搜索出生的百川智能大模型RAG爬坑之路总结

深度学习自然语言处理 来源:NLP PaperWeekly 2024-01-05 15:02 次阅读

今天对百川的RAG方法进行解读,百川智能具有深厚的搜索背景,来看看他们是怎么爬RAG的坑的吧~

总的来说,百川通过长上下文模型(192k)+搜索增强结合的方法来解决知识更新,降低模型幻觉的问题,使得其在5000万tokens的数据集中取得95%的精度。其主要在以下几个方面做优化:

1) Query拓展:这是我自己取的名字,可能不太准确,其主要参考Meta的CoVe[1]以及百川自研的Think Step-Further方法对原始用户输入的复杂问题进行拆解、拓展,挖掘用户更深层次的子问题,借助子问题检索效果更高的特点来解决复杂问题检索质量偏差的问题。

2) 优化检索链路:采用稀疏检索+向量检索+Rerank结合的方法,来提高检索的召回率和准确率。并且其自研的Baichuan-Text-Embedding向量模型也登顶了C-MTEB语义向量评测标准。

3) 自我反省机制:百川智能通过self-Critique大模型自省机制来筛选更优质、知识密度更高的内容。

一、概述

1Motivation

1.1 当前检索增强RAG方法痛点

成本高、召回偏低:扩展上下文窗口+引入向量数据库能以非常低的成本提高模型对新知识的接入能力,但是扩展上下文窗口容量有限(128k最多容纳23万汉字,相当于658kb文档),成本比较高,性能下降明显。向量数据库也存在召回率偏低、开发门槛高等缺点。

用户输入变复杂:与传统关键词或者短语搜索逻辑不太一致,用户输入问题不再是词或者短句,而是转变成自然对话声知识多轮对话数据,问题形式更加多元,紧密关联上下文,输入风格更加口语化。

1.2 RAG是当前大模型落地降低幻觉、更新数据的有效方法之一

行业大模型解决方案有后训练(Post-Train)和有监督微调(SFT),但是仍然无法解决大模型落地的幻觉和实效性问题。

后训练(Post-Train)和有监督微调(SFT)每次需要更新数据,重新训练,还可能会带来其他问题,成本比较大。

2Methods

省流版总结:

百川将长窗口与搜索/RAG(检索增强生成)相结合,形成长窗口模型+搜索的完整技术栈。

百川RAG方案总结:Query 扩展(参考Meta CoVe + 自研Think Step-Further) + 自研Baichuan-Text-Embedding向量模型 + 稀疏检索(BM25、ES) + rerank模型 + 自研Self-Critique技术(过滤检索结果)。

2.1 Query扩展

背景:与传统关键词或者短语搜索逻辑不太一致,用户输入问题不再是词或者短句,而是转变成自然对话声知识多轮对话数据,问题形式更加多元,紧密关联上下文,输入风格更加口语化。

目的:拆解复杂的prompt,检索相关子问题,并深度挖掘用于口语化表达中深层次含义,借助子问题检索效果更高的特点来解决复杂问题检索质量偏差的问题。

方法:参考Meta CoVe[1]以及Think Step-Further的方法,对用户原始的Query进行扩展,拓展出多个相关问题,然后通过相关问题去检索相关内容,提高召回率。

百川Query扩展方案:

9a30d1cc-ab6e-11ee-8b88-92fbcf53809c.png

Meta CoVe方案:

9a3626ea-ab6e-11ee-8b88-92fbcf53809c.png

2.2 自研Embedding模型

数据:在超过1.5T tokens(看着训练百川模型的数据都来训embedding模型了?)。

方法:采用无监督方法(估计类似SimCSE[2]系列),通过自研损失函数解决对比学习方式依赖batchsize问题。

效果:登顶C-MTEB,在分类、聚类、排序、检索和文本相似度5个任务评分取得领先。

9a3a141c-ab6e-11ee-8b88-92fbcf53809c.png

2.3 多路召回+rerank

方法:稀疏检索+向量检索 + rerank模型。其中稀疏检索应该是指BM25、ES等传统检索的方法,rerank模型百川没有提到,不确定是用大模型来做rerank还是直接训练相关rerank模型来对检索结果排序。

效果:召回率95%,对比其他开源向量模型召回率低于80%。

2.4 self-Critique

方法:让大模型基于 Prompt、从相关性和可用性等角度对检索回来的内容自省,进行二次查看,从中筛选出与 Prompt 最匹配、最优质的候选内容。

目的:提升检索结果的知识密度和广度,降低检索结果中的知识噪声。

9a3f13fe-ab6e-11ee-8b88-92fbcf53809c.png

3 Conclusion

百川192K上下文模型表现不错,实现了100%的回答精度。

9a51553c-ab6e-11ee-8b88-92fbcf53809c.png

长上下文窗口模型+搜索增强技术使5000万Tokens数据集达到95%的回答精度。

9a56555a-ab6e-11ee-8b88-92fbcf53809c.png

二、总结

多轮问答等场景的召回和传统搜索引擎的召回分布还不太一样。百川借助子问题检索效果更高的特点,对原始复杂问题进行拆解、拓展来解决复杂问题检索质量偏差的问题。

对于没见过的语料直接用向量检索的结果可能不太理想。百川在大量语料上利用无监督方法训练embedding模型来优化效果。而行业大模型更倾向于私有的数据,要提升私有数据的训练效果还得继续在私有化数据上训练效果会更佳。

Query拓展 + 多路召回 + Rerank + self-Critique可能是现阶段比较好的一种RAG方式,但是其也会带来更多成本。总体思路有点像ReAct[3]系列的进阶版本,其在搜索侧和答案修正侧都做了更多的一些工作来优化实际效果。其缺点是需要多次调用大模型,会带来额外的成本,真实线上是否采用这种策略还有待验证。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SFT
    SFT
    +关注

    关注

    0

    文章

    9

    浏览量

    6747

原文标题:百川智能RAG方案总结:搜索出生的百川智能大模型RAG爬坑之路

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    白海科技与百川智能顺势而为、携手共进,助力领域大模型应用快速落地

    (2023年08月08日,中国北京讯)近日,AI基础软件服务商白海科技与国内领先的AGI服务企业百川智能宣布达成战略合作协议。这次合作旨在加速大语言模型在各行各业的应用,并为客户提供智能
    的头像 发表于 08-08 14:23 755次阅读

    步步向前,曙光已现:百度的大模型之路

    模型之路如何走?文心加飞桨,翩然赴星河
    的头像 发表于 08-21 09:04 830次阅读
    步步向前,曙光已现:百度的大<b class='flag-5'>模型</b><b class='flag-5'>之路</b>

    度总裁:度在人工智能领域已有重大突破

    上接受记者采访时说,度大脑是度在人工智能领域的核心。度此前发布的诸多人工智能产品,如无人驾驶、智能
    发表于 07-01 15:22

    基于python的智能搜索系统

    一个简易版的智能搜索系统(下)
    发表于 04-14 09:27

    Android利用SurfaceView显示Camera图像

    前言前一章《Android利用SurfaceView显示Camera图像记(一)》我们已经实现了利用SurfaceView将Camera中的实时帧图像显示出来了,我们做这个的主要目录...
    发表于 07-02 08:14

    《移动终端人工智能技术与应用开发》+理论学习

    人工智能应用讲得很细致,理论也比较易懂,实操也较细致,未来也将继续阅读这本书,去探索AI4S之路。AI发展之路AI4S的模型驱动,融合范式
    发表于 02-27 23:28

    谷歌AR搜索功能正式上线 搜索结果页嵌入3D模型

    近期,Google此前在I/O上宣布的AR搜索功能正式上线,ARCore和ARKit手机用户用谷歌搜索引擎搜索动物的时候,会收到开启动物3D模型的邀请,接受之后你便能以AR的形式将动物
    的头像 发表于 06-05 11:03 3622次阅读

    百川的大模型KnowHow介绍

    模型是一个实验工程,涉及数据清洗、底层框架、算法策略等多个工序,每个环节都有很多坑,因此知道如何避坑和技术选型非常重要,可以节省很多算力和时间。
    的头像 发表于 09-18 10:28 835次阅读

    百川智能获阿里腾讯小米等3亿美元投资

    百川智能推出了4款开源baichuan-7b/13b、baichuan 2-7b/13b的免费商用产品和baichuan-53b、baichuan 2-53b的闭源大模型,平均每28天推出一次新的大
    的头像 发表于 10-17 10:15 514次阅读

    寒武纪的思元(MLU)云端智能加速卡与百川智能完成大模型适配,携手创新生成式AI

    近日,寒武纪思元(MLU)系列云端智能加速卡与百川智能旗下的大模型Baichuan2-53B、Baichuan2-13B、Baichuan2-7B等已完成全面适配,寒武纪思元(MLU)
    的头像 发表于 11-06 20:32 875次阅读
    寒武纪的思元(MLU)云端<b class='flag-5'>智能</b>加速卡与<b class='flag-5'>百川</b><b class='flag-5'>智能</b>完成大<b class='flag-5'>模型</b>适配,携手创新生成式AI

    百川智能发布Baichuan2 Turbo系列API,或将替代行业大模型

    在当天的媒体沟通会上,百川智能创始人、CEO王小川,百川智能联合创始人、联席总裁洪涛,百川智能
    的头像 发表于 12-20 16:54 592次阅读

    如何在不微调的情况下提高RAG的准确性?

    数据科学家、AI 工程师、MLOps 工程师和 IT 基础设施专业人员在设计和部署检索增强生成(RAG)工作流时,必须考虑各项因素,比如大语言模型(LLM) 核心组件以及评估方法等等。
    的头像 发表于 01-05 10:26 418次阅读
    如何在不微调的情况下提高<b class='flag-5'>RAG</b>的准确性?

    百川智能发布超千亿大模型Baichuan 3

    百川智能近日发布了超千亿参数的大语言模型Baichuan 3,引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越,展现了其强大的语义理解和生成能力。
    的头像 发表于 01-31 14:58 418次阅读

    百川智能与北京大学将共建通用人工智能联合实验室

    近日,百川智能与北京大学携手合作,共同签署了“北大——百川通用人工智能联合实验室”的共建协议,标志着双方在人工智能领域迈出了坚实的合作步伐。
    的头像 发表于 03-21 11:45 398次阅读

    什么是RAGRAG学习和实践经验

    高级的RAG能很大程度优化原始RAG的问题,在索引、检索和生成上都有更多精细的优化,主要的优化点会集中在索引、向量模型优化、检索后处理等模块进行优化
    的头像 发表于 04-24 09:17 86次阅读
    什么是<b class='flag-5'>RAG</b>,<b class='flag-5'>RAG</b>学习和实践经验