0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为提升虚拟助手智能谷歌发布了最大的的任务型对话数据集SGD帮其开发

姚小熊27 来源:新智元 作者:佚名 2019-10-30 15:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,谷歌软件工程师Abhinav Rastogi和工程主管Pranav Khaitan称在谷歌虚拟助手中,已经引入了新的方法,更好地支持新服务。谷歌团队称,目前虚拟助手可帮助用户完成各种各样的任务,包括寻找航班,搜索附近的活动和电影并进行预订,从网上获取信息等等。他们通过为网络上的各种服务提供统一的自然语言界面来提供此功能。

为了适应未来的增长,虚拟助手必须能够轻松支持新服务,并减少维护工作量,而无需收集其他数据或重新训练模型。

而像Google Assistant这样的大型虚拟助手,需要与众多领域中不断增加的大量服务集成在一起,但每种服务都可能具有重叠的功能。这一适应性问题在最新模型中常常被忽略。这在一定程度上是由于缺乏合适的数据集,这些数据集无法与虚拟助手所面对的规模和复杂性相匹配。

在谷歌最近的论文《迈向可扩展的多域对话代理:模式指导的对话数据集》(Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset)中,研究团队引入了一个新的数据集SGD(Schema-Guided Dialogue dataset)来解决这些问题。该团队表示,此数据集将会成为有效的测试平台,可用于意图预测,槽位填充,状态跟踪和语言生成以及大型虚拟助手的其他任务。

目前,谷歌已发布SGD数据集,谷歌表示,发布SGD数据集的基本目标是应对许多现有数据集无法充分解决的现实挑战。谷歌研究团队称,SGD数据集是目前公开可用的、最大的任务型对话数据集。

在此之前,9月17日,亚马逊在GitHub上发布了超470万单词21万句子的语料库 , 并声称这个数据集支持“高质量”和“可重复”的对话系统研究,将成为研究界公开可用的最大的基于知识的社交对话数据集 。

SGD数据集由人类和虚拟助手之间超过18000条的带注释的任务型对话组成。这些对话涉及17个领域。对于大多数领域,数据集包含多个不同的API,其中许多API 具有重叠的功能,但接口不同,这反映了典型的真实场景。SGD是第一个涵盖多个领域并为每个域提供多个API的数据集。此外,为了量化模型对API接口更改或添加新API,评估集还包含了许多训练集没有的新服务。

目前,利用SGD数据集就可以训练虚拟助手来支持互联网上各种各样的服务。而为达到这种功能,通用方法是需要一个master schema,来列出所有受支持的功能及其参数。但是,开发出适合所有使用案例的master schema很难。即使开发成功,master schema也会使新的或小型服务的集成复杂化,并会增加维护虚拟助手的工作量。此外,尽管跨服务可以有许多相似的概念可以联合建模,例如用于查询或指定电影票、机票或音乐会票数量在逻辑上有相似性,但除非手动定义它们之间的显式映射,否则master schema方法并不便于对此类概念进行联合建模。

对此,谷歌团队提出了的新的模式指导方法。此方法不需要为助手设定master schema。相反,每个服务或API都会提供其模式功能及其相关属性的自然语言描述。然后,这些描述会用于学习模式的分布式语义表示,语义表示则会作为对话系统的附加输入。对话系统之后就会被作为不包含域或服务特定参数的单个统一模型。这种统一模型利于在不同服务中相似概念之间的常识表示,而使用模式的分布式表示可以对训练数据中不存在的新服务进行操作。

目前,谷歌已经将这一方法用在了开源对话状态跟踪模型中,该模型在常规设置中仍具有竞争力,且适用于 zero-shot 设置(即没有针对新服务和API的训练数据)。

“我们认为该数据集将会成为建立大规模对话模型的良好基准,” Rastogi和Khaitan称。“我们期待研究界将其用于对话技术的发展创新。”
责任编辑:lw

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6259

    浏览量

    111961
  • 人工智能
    +关注

    关注

    1820

    文章

    50315

    浏览量

    266893
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌发布第八代TPU,训练推理分离,搭载自研CPU

    将训练与推理任务拆分至独立芯片,标志着AI硬件路线的重大转向。   谷歌高级副总裁兼AI与基础设施首席技术专家Amin Vahdat表示,随着AI智能体(AI Agents)的兴起,
    的头像 发表于 04-24 09:03 977次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>发布</b>第八代TPU,训练推理分离,搭载自研CPU

    九天菜菜大模型agent智能开发实战2026一月班

    和长期记忆,短期记忆存储即时信息,长期记忆沉淀持久知识,通过向量数据库等技术实现高效存储与检索, Agent 的决策提供有力支持。规划模块赋予 Agent“谋定而后动”的智慧,它运用分层任务网络
    发表于 04-15 16:04

    Riskified宣布扩展AI智能智能,保障商家原生AI购物助手安全

    提升客户体验,Riskified正确保这些全新触点能够防范复杂欺诈和滥用行为。 零售商正大力投资,将AI智能体直接引入线上店铺。McKinsey & Company的研究印证这一趋势,指出82%的零售企业已启动以重塑客户服务
    的头像 发表于 03-04 16:42 1188次阅读

    开发智能体调试与预览---真机测试

    重新启动小艺,在对话列表中看到“开发中”标签的智能体。 4、发布真机测试后,智能体的开发态1
    发表于 02-09 15:37

    全球首个最大规模跨本体视触觉多模态数据白虎-VTouch发布

    具身智能走向真实世界规模化应用,离不开可复现、可扩展、可协同演进的数据基础设施。围绕真实物理交互能力构建这一核心工程目标,1月26日,国家地方共建人形机器人创新中心联合上海纬钛科技有限公司正式发布
    的头像 发表于 01-29 14:41 740次阅读

    免费获取 | SimData高保真虚拟数据开源发布,兼容nuScenes,开箱即用!

    的关键瓶颈。在此背景下,基于高保真仿真技术构建的SimData自动驾驶虚拟数据,以“低成本、高保真、场景全”的核心优势,行业提供高效的
    的头像 发表于 12-09 17:32 425次阅读
    免费获取 | SimData高保真<b class='flag-5'>虚拟</b><b class='flag-5'>数据</b><b class='flag-5'>集</b>开源<b class='flag-5'>发布</b>,兼容nuScenes,开箱即用!

    思必驰任务对话算法通过国家备案

    近日,国家网信办公开发布第十四批境内深度合成服务算法备案信息,思必驰任务对话算法正式通过备案。这是思必驰第八项通过备案的算法,进一步巩固
    的头像 发表于 11-20 10:33 1043次阅读

    SimData:基于aiSim的高保真虚拟数据生成方案

    01前言在自动驾驶感知系统的研发过程中,模型的性能高度依赖于大规模、高质量的感知数据。目前业界常用的数据包括KITTI、nuScenes、WaymoOpenDataset等,它们
    的头像 发表于 11-07 17:35 5501次阅读
    SimData:基于aiSim的高保真<b class='flag-5'>虚拟</b><b class='flag-5'>数据</b><b class='flag-5'>集</b>生成方案

    软硬件协同技术分享 - 任务划分 + 自定义指令

    Level , ESL)得到催生,然而ESL设计依赖于复杂的高层次建模以及庞大的数据支持,且工具链的发展仍不是十分完善。 在现阶段的开发氛围中,软硬件协同开发是一种能够缩短
    发表于 10-28 08:03

    【创意征集】镜面显示器一个打通“虚拟”与“现实”的家庭终端构想【2025-10-18】

    现实。 一、 产品愿景:它不只是电视,也不是镜子 我构想的产品,是一台 “智能镜电视” 。它常态下是一面品质卓越的完整镜面,唤醒后则是一台虚拟试穿、体感娱乐、社交于一身的4K/8K智能
    发表于 10-15 20:53

    CPU密集任务开发指导

    CPU密集任务是指需要占用系统资源处理大量计算能力的任务,需要长时间运行,这段时间会阻塞线程其它事件的处理,不适宜放在主线程进行。例如图像处理、视频编码、数据分析等。 基于多线程并发
    发表于 06-19 06:05

    微软研究助手(Researcher)和分析助手(Analyst)全面上市 推理智能体工作搭档

    我们很高兴地宣布研究助手(Researcher)和分析助手(Analyst)全面上市。这是两款首次问世的推理助手,专为工作场景而设计。自今年四月通过 Frontier 计划首次亮相以
    的头像 发表于 06-11 10:15 1539次阅读
    微软研究<b class='flag-5'>助手</b>(Researcher)和分析<b class='flag-5'>助手</b>(Analyst)全面上市 推理<b class='flag-5'>型</b><b class='flag-5'>智能</b>体工作搭档

    鸿蒙5开发宝藏案例分享---应用接续提升内容发布体验

    \" 遇到同步失败先检查:蓝牙是否开启?分布式文件权限给没? ? 五、你以为这就完了?还有这些骚操作 结合AI能力实现接续内容智能推荐 利用设备传感器状态判断最佳接续时机 多设备接力场景下的数据
    发表于 06-03 18:25

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    在人工智能快速发展的今天,语音机器人逐渐成为人们生活和工作中的得力助手。明远智睿SSD2351开发板凭借强大性能与丰富功能,语音机器人的发展注入新动力,成为该领域的变革力量。 SSD
    发表于 05-28 11:36

    【「零基础开发AI Agent」阅读体验】+Agent开发平台

    开发平台有4大特点 1)技术集成性 Agent开发平台集成了大模型调用、提示词工程、插件、线上编程运行环境、知识库、工作流、数据库等多种功能模块,
    发表于 05-13 12:24