0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

WebCPM:首个联网支持中文问答开源模型

深度学习自然语言处理 来源:PaperWeekly 2023-05-18 14:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2021年12月 WebGPT 的横空出世标志了基于网页搜索的问答新范式的诞生,在此之后,New Bing 首先将网页搜索功能整合发布,随后 OpenAI 也发布了支持联网的插件 ChatGPT Plugins。大模型在联网功能的加持下,回答问题的实时性和准确性都得到了飞跃式增强。

近期,面壁智能联合来自清华、人大、腾讯的研究人员共同发布了中文领域首个基于交互式网页搜索的问答开源模型框架 WebCPM,相关工作录用于自然语言处理顶级会议 ACL 2023。

WebCPM 是面壁智能自研大模型工具学习引擎 BMTools的首个成功实践,其特点在于其信息检索基于交互式网页搜索,能够像人类一样与搜索引擎交互从而收集回答问题所需要的事实性知识并生成答案。WebCPM 背后的基础模型 CPM 是由面壁智能与 OpenBMB 开源社区开发的百亿参数中文语言模型,占据多个中文领域语言模型排行榜前列。

2be549b2-f545-11ed-90ce-dac502259ad0.jpg

WebCPM 论文链接:https://arxiv.org/abs/2305.06849

WebCPM 数据与代码链接:

https://github.com/thunlp/WebCPM

WebCPM研究背景

在当今信息化时代,人们在日常生活和工作中,需要不断地获取各种知识和信息,而这些信息往往分散在互联网上的海量数据中。如何快速、准确地获取这些信息,并且对这些信息进行合理的整合,从而回答复杂、开放式问题,是一个极具挑战性的问题。长文本开放问答(Long-form Question Answering, LFQA)模型就是为了回答这种复杂的问题而设计的。

目前的 LFQA 解决方案通常采用检索-综合范式,包括信息检索和信息综合两个核心环节。信息检索环节从外部知识源(如搜索引擎)中搜索多样化的相关支持事实,信息综合环节则将搜集到的事实整合成一个连贯的答案。

然而,传统的 LFQA 范式存在一个缺陷:它通常依赖于非交互式的检索方法,即仅使用原始问题作为查询语句来检索信息。相反,人类能够通过与搜索引擎实时交互来进行网页搜索而筛选高质量信息。

对于复杂问题,人类往往将其分解成多个子问题并依次提问。通过识别和浏览相关信息,人类逐渐完善对原问题的理解,并不断查询新问题来搜索更多样的信息。这种迭代的搜索过程有助于扩大搜索范围,提高搜索结果质量。总体而言,交互式网页搜索不仅为我们提供了获取多样化信息来源的途径,同时也反映了人类解决问题的认知过程,从而提高了可解释性。

2021年12月 OpenAI 发布 WebGPT,这是支持 LFQA 的交互式网页搜索的一项先驱性工作。作者首先构建了一个由微软必应搜索(Bing)支持的网页搜索界面,然后招募标注员使用该界面收集信息来回答问题。之后,他们微调 GPT-3 模型,让其模仿人类的搜索行为,并将收集到的信息整理成答案。实验结果显示,WebGPT 在 LFQA 任务具备出色的能力,甚至超过了人类专家。而 WebGPT 也正是微软近期推出的 New Bing 背后的新一代搜索技术。

尽管效果十分惊人,但 WebGPT 、New Bing 对学术圈和工业界来说仍然充满神秘感。这是因为 WebGPT 的相关细节并未完全公开,其核心设计元素的工作原理也不透明。鉴于当前交互式网页搜索的重要价值,我们迫切需要一个标准数据集与相关的开源模型以支持后续研究。

WebCPM搜索交互界面和数据集

2cac8d60-f545-11ed-90ce-dac502259ad0.png

▲ WebCPM搜索交互界面

为推动相关领域发展,这篇 ACL 论文的研究团队首先构建了一个开源的交互式网页搜索界面,用于记录人类为开放式问题收集相关信息时的网页搜索行为。该界面底层调用必应搜索 API 支持网页搜索功能,囊括 10种主流网页搜索操作(如点击页面、返回等等)。

在这个界面中,用户可以执行预定义的操作来进行多轮搜索和浏览。在找到网页上的相关信息时,他们可以将其作为支持事实记录下来。当收集到足够的信息后,用户可以完成网页搜索,并根据收集到的事实来回答问题。同时,界面会自动记录用户的网页浏览行为,用于构建 WebCPM 数据集。

2cdf5010-f545-11ed-90ce-dac502259ad0.png

▲ WebCPM数据集与相关问答数据集的比较

基于这个界面,作者构建了中文领域首个基于交互式网页搜索的 LFQA 数据集。它包含 5,500对高质量的问题-答案对以及十万多条真实用户网页搜索行为。与现有的中文问答数据集相比,WebCPM 的问题、支持事实和答案都更长,体现了其问题的复杂性和答案内容的丰富性。

WebCPM模型框架

作者提出了的 WebCPM 框架包括:(1)搜索模型与(2)答案综合模型。

30789ed4-f545-11ed-90ce-dac502259ad0.png

▲ WebCPM模型框架

搜索模型:

该模型模仿人类网页搜索行为、与搜索引擎交互并进行信息检索。作者将网页搜索任务划分为 3 个子任务:搜索行为预测(action prediction)、查询语句生成(search query generation)和支持事实摘要(supporting fact extraction)。搜索行为预测模块在每一步决定执行哪个具体的搜索行为。该模块可以调用其它两个模块来生成下一步查询语句或摘录重要信息。每个子任务都基于生成式中文大模型来训练。

通过组合 3 个训练得到的模块,该模型能够在搜索引擎界面上执行一系列操作以收集与问题相关的信息。每个模块在当前界面状态 的条件下执行推理。 包括原始问题 、当前搜索的查询语句 、历史操作序列,上一个窗口和当前窗口中显示的内容 和 、当前已经摘录的支持事实。

答案综合模型

该模型根据原问题与收集到的事实生成连贯的答案。然而与人类不同,经过训练的搜索模型偶尔会收集到不相关的噪声,这将影响生成答案的质量。为了解决这一问题,作者在答案综合模型的训练数据中引入噪声,使其具备一定的去噪的能力,从而忽略不相关的事实,只关注重要的事实以生成答案。

WebCPM实验评测

作者首先对每个子模块分别评估,然后,将所有模块组合起来形成整体的 pipeline,并测试其效果。最后,作者对每个模块的性能进行深入分析。

30b84016-f545-11ed-90ce-dac502259ad0.png

单个子任务的性能评估结果,作者测试了包括 CPM 模型在内的多个有代表性的中文大模型。

3.1 单个子任务评估

作者测试了多个有代表性的中文大模型,并得出以下结论(结果如上图所示):不同模型在四个子任务上的性能各有优劣。例如在搜索行为预测、查询语句生成和支持事实摘要中,mT0 的表现优于 mT5,但在综合信息方面表现较差。此外,CPM 系列模型的性能随着模型参数量的增加也不断提高。得益于 scaling law ,更大的模型通常拥有更强的理解和生成能力,能表现出更好的下游任务性能。

3.2 整体pipeline评测

对于每个测试问题,作者比较了模型(CPM 10B 模型)和人类用户使用搜索引擎回答问题和做相同任务的表现,并进行人工评测。具体而言,给定一个问题和模型与人类分别给出的答案,标注员将根据多个因素(包括答案整体实用性、连贯性和与问题的相关性)决定哪个答案更好。

从下图(a)的结果可以得出以下结论:模型生成的答案在30%+的情况下与人写的答案相当或更优。这个结果表明整个问答系统的性能在未来仍有巨大的提升空间(例如训练性能更加强大的基底模型);当将人工收集的事实应用于信息综合模型时,性能提高到了45%,这可以归因于收集的事实质量的提高。

30de9464-f545-11ed-90ce-dac502259ad0.png

▲ 整体pipeline评测效果,作者测试了WebCPM数据集和DuReader数据集

此外,作者也将整体 pipeline 应用于 DuReader 中文 QA 数据集(包含 Zhidao 和 Search 两个子数据集),并比较了模型生成的答案和人工标注的答案,从上图(b)可以观察到模型生成的答案比 DuReader 标注答案更好的情况接近50%,这反映了该模型强大的泛化能力,体现了WebCPM 数据标注的高质量。

WebCPM案例分析

为了探究查询模块所学习到的人类行为,作者抽样不同测试问题生成的查询语句来进行案例分析。下图展示了部分结果,以研究查询模块的性能。可以看出,该模块已经学会了复制原始问题,将问题分解为多个子问题,用相关术语改写问题等多种人类搜索策略。这些策略使查询语句更加多样化,有助于从更多的来源收集更丰富的信息。

31354bf6-f545-11ed-90ce-dac502259ad0.png

WebCPM成功实践BMTools

318388e8-f545-11ed-90ce-dac502259ad0.png

近年来,大模型在诸多领域展现出惊人的应用价值,持续刷新各类下游任务的效果上限。尽管大模型在很多方面取得了显著的成果,但在特定领域的任务上,仍然存在一定的局限性。这些任务往往需要专业化的工具或领域知识才能有效解决。因此,大模型需要具备调用各种专业化工具的能力,这样才能为现实世界任务提供更为全面的支持。

最近,新的范式大模型工具学习(Tool Learning)应运而生。这一范式的核心在于将专业工具与基础模型的优势相融合,以在问题解决方面达到更高的准确性、效率和自主性,工具学习极大地释放了大模型的潜力。

31da29a0-f545-11ed-90ce-dac502259ad0.png

在应用方面,ChatGPT Plugins 的出现补充了 ChatGPT 最后的短板,使其可以支持连网、解决数学计算,被称为 OpenAI 的 “App Store” 时刻。然而直到现在,它仅支持部分 OpenAI Plus 用户,大多数开发者仍然无法使用。为此,面壁智能前段时间也推出了工具学习引擎 BMTools,一个基于语言模型的开源可扩展工具学习平台,它将是面壁智能在大模型体系布局中的又一重要模块。

研发团队将各种各样的工具(例如文生图模型、搜索引擎、股票查询等)调用流程都统一到一个框架上,使整个工具调用流程标准化、自动化。开发者可以通过 BMTools,使用给定的模型(ChatGPT、GPT-4)调用多种多样的工具接口,实现特定功能。此外,BMTools 工具包也已集成最近爆火的 Auto-GPT 与 BabyAGI。

BMTools 工具包:https://github.com/OpenBMB/BMTools

工具学习综述链接:

https://arxiv.org/abs/2304.08354

工具学习论文列表:

https://github.com/thunlp/ToolLearningPapers

WebCPM 是 BMTools 的一次成功实践,相信在不断发展和完善大模型工具学习技术的过程中,面壁智能将让大模型落地赋能更多产业。期待大模型在更多领域展现出令人惊喜的应用价值。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107323
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51694
  • 信息检索
    +关注

    关注

    0

    文章

    12

    浏览量

    7674

原文标题:清华ACL2023 | WebCPM:首个联网支持中文问答开源模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    openDACS 2025 开源EDA与芯片赛项 赛题七:基于大模型的生成式原理图设计

    问答,能够回答用户关于原理图的需求。至少需要支持原理图网表修改和原理图解释两类问题,参赛队伍可拓展更多的问题。 参赛队伍所提供的所有案例中,必须包含以上三项功能的测试数据;若所提供的案例缺少以上部分或
    发表于 11-13 11:49

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    为助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1003次阅读

    100%开源!行业首个企业级智能体

    近日,京东云正式开源JoyAgent智能体。作为行业首个100%开源的企业级智能体,实现了产品级开源,包括前端、后端、框架、引擎和核心子智能体。开源
    的头像 发表于 07-26 09:26 982次阅读

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    教育等领域发挥着越来越重要的作用。​针对日前前来咨询的广大客户对面向大模型智能硬件的学习需求,我们根据CSK6大模型语音视觉开发板已有功能,整理了一份适合基于本开发板进行教学活动的学习课程参考给大家备用,其中基础概念大家可以通过大模型
    发表于 07-04 11:10

    联网工程师为什么要学Linux?

    ,而Linux作为开源、高度可定制的操作系统,能适配从低功耗传感器到高性能网关的各类硬件平台。 例如,智能家居设备、工业控制器等均依赖Linux的模块化设计实现功能扩展。 2)通信协议与开源支持
    发表于 05-26 10:32

    上新:小米首个推理大模型开源 马斯克:下周推出Grok 3.5

    开源新一代通义千问模型Qwen3。据悉,Qwen3模型参数量仅为DeepSeek - R1的1/3,能够大幅降低成本,而且性能全面超越R1、OpenAI - o1等全球顶尖模型,登顶全
    的头像 发表于 04-30 16:08 1125次阅读

    NVIDIA发布全球首个开源人形机器人基础模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技术,助力人形机器人开发。其中包括全球首个开源且完全可定制的基础模型NVIDIA Isaac GR00T N1,该模型可赋能通用人形机器人实现推理及各项
    的头像 发表于 03-20 14:34 1210次阅读

    英伟达GROOT N1 全球首个开源人形机器人基础模型

    英伟达GROOT N1 全球首个开源人形机器人基础大模型
    的头像 发表于 03-20 11:05 1684次阅读

    NVIDIA 发布全球首个开源人形机器人基础模型 Isaac GR00T N1——并推出加速机器人开发的仿真框架

    18 日 ——NVIDIA 今日宣布推出一系列全新技术,助力人形机器人开发。其中包括全球首个开源且完全可定制的基础模型 NVIDIA Isaac GR00T N1,该模型可赋能通用人
    发表于 03-19 09:30 592次阅读
    NVIDIA 发布全球<b class='flag-5'>首个</b><b class='flag-5'>开源</b>人形机器人基础<b class='flag-5'>模型</b> Isaac GR00T N1——并推出加速机器人开发的仿真框架

    摩尔线程支持阿里云通义千问QwQ-32B开源模型

    近日,阿里云团队正式开源全新推理模型——通义千问QwQ-32B。摩尔线程在该模型发布后2小时内,迅速且高效完成了对千问QwQ-32B的支持
    的头像 发表于 03-07 17:48 1098次阅读
    摩尔线程<b class='flag-5'>支持</b>阿里云通义千问QwQ-32B<b class='flag-5'>开源</b><b class='flag-5'>模型</b>

    AI开源模型库有什么用

    AI开源模型库作为推动AI技术发展的重要力量,正深刻改变着我们的生产生活方式。接下来,AI部落小编带您了解AI开源模型库有什么用。
    的头像 发表于 02-24 11:50 877次阅读

    开源模型DeepSeek的开放内容详析

    当大家讨论为什么 DeepSeek 能够形成全球刷屏之势,让所有厂商、平台都集成之时,「开源」成为了最大的关键词之一,图灵奖得主 Yann LeCun 称其是「开源的胜利」。模型开源
    的头像 发表于 02-19 09:48 2416次阅读
    <b class='flag-5'>开源</b>大<b class='flag-5'>模型</b>DeepSeek的开放内容详析

    基于华为云 Flexus 云服务器 X 搭建部署——AI 知识库问答系统(使用 1panel 面板安装)

    Flexus 云服务器 X 携手开源力量,为您打造全方位、高性能的知识库问答系统!无论您是构建企业内部的知识宝库,还是优化客户服务体验,亦或深耕学术研究与教育领域,这一创新解决方案都是您不可多得的智慧伙伴! ���基于大语言模型
    的头像 发表于 01-17 09:45 3617次阅读
    基于华为云 Flexus 云服务器 X 搭建部署——AI 知识库<b class='flag-5'>问答</b>系统(使用 1panel 面板安装)

    开源模型在多个业务场景的应用案例

    在人工智能发展浪潮中,大模型开源与闭源之争一直是业内的热点话题。随着技术的不断进步和应用场景的日益丰富,如何降低大模型的使用门槛,让更多人能够便捷地应用于实际业务场景,成为了推动行业发展的关键所在。而
    的头像 发表于 12-30 10:16 1662次阅读

    开源AI模型库是干嘛的

    开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练,能够执行特定的任务。以下,是对
    的头像 发表于 12-14 10:33 1286次阅读