张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,👉戳此立抢👈

微软美国研究院和清华联合推出了一款开源的多领域端到端对话系统平台—ConvLab

将门创投 2019-04-23 10:42 次阅读

近年来对话系统迅速发展,同时也出现了一系列丰富的数据集。但对于刚刚进入这一领域团队来说,迅速搭建起对于特定任务的可用的对话系统依然充满挑战。这主要是由于这一领域内缺乏结构完善、易于使用的开源系统,让研究人员可以便捷的搭建和测评对话机器人。

众所周知,基础性的开源系统为AI研究的突破打下了坚实的基础,在这一领域的Moses、HTK和CoreNLP等项目都被广泛用于机器翻译、语音识别和自然语言处理,推动了各层次研究的飞速发展。

为了促进这一领域的发展,微软美国研究院和清华联合推出了一款开源的多领域端到端对话系统平台—ConvLab,使得研究人员可以便捷地搭建对话系统、自动训练对话模型、构建并评测对话机器人的各方面表现。

ConvLab

为了便于用于构建不同类型任务导向的机器人、将更多的自动化引入构建、训练和测评过程中,ConvLab包含了丰富的模型工具和运行引擎、以及端到端的测评平台。简单来讲台中包含了基于模块和端到端两种架构类型的对话系统:基于模块的架构系统包含了自然语言理解(NLU)、对话系统追踪(DST)、对话策略(POL)和自然语言生成(NLG)等模块;完全端到端神经架构减少了手工编程的工作量,并减小了误差在工作流程中的传播。

与先前工具集集中于系统策略或者受限于固定的预训练模型不同,ConvLab基于全标注的数据集覆盖了所有可训练的统计模型,解决了先前对于系统性能度量的困难。

很多时候用户需要在多子域之间无缝衔接实现高层用户目标,多层级的对话系统对数据收集、标注以及模型的开发都提出了复杂的要求。有研究人员提出了MultiWOZ数据集(包含了旅行相关的多邻域对话内容),但目前却缺乏对应的开源平台来处理多域多意图对话。为了加速多领域对话的研究ConvLab研究了MultiWOZ任务的特征,并提供了一系列完整的参考模型(包含了独立的模块和端到端模型)、这些模型在为用户对话额外标注的MultiWOZ数据集上进行了训练。ConvLab目前还作为DSTC18多领域端到端对话追踪的标准平台,得到了更广泛的应用和实际的检验。为了更好的支持端到端评价、ConvLab提供了两个互补模块、分别集成了亚马逊Amazon Mechanical Turk平台用于人类测评、同时也集成了虚拟用户用于自动测评。针对用户仿真,平台同时提供了基于规则和基于数据驱动的模拟器。ConvLab在开发模拟用户的过程中也研发出了一系列先进的用户模拟技术。

架构设计

整个系统基于模块化的设计保障了灵活性和适应性。为了支持多领域对话系统的搭建,平台使用了主体-环境-对话实体的组合设计(Agents-Environments-Bodies,AEB),除了单环境和单主体的配置外,系统还包含了一系列先进的研究实验、包括多任务学习、多主体学习和角色扮演、无需复杂的代码即可导入到实例中使用。

此外,为了系统性地对比不同的主体和环境,并实现自动超参数搜索,平台充分利用了SLM Lab和Ray^2 作为实验组件。他们提供了多层级的控制,从会话、尝试和试验上为每一层次生成评测报告。

其中会话用于初始化主体和环境、并以预设的轮次运行。随后利用随机种子来启动多个会话进行尝试、并最终在会话上分析并求平均。最后利用实验来确定不同超参数的表现。

对话主体和环境的配置

在系统中每个层代表了构建对话系统的不同方式,在下图中可以看到最上层代表了传统方式构建对话系统的架构路线图,包括了NLU,DST,POL,NLG。研究人员近年来通过引入词级对话状态追踪、对话策略和端到端模型等典型组件,探索了构建对话系统不同可能的组合实现形式。在ConvLab平台上,研究人员可以聚焦于下图中的任意组件,并以端到端的简单方式进行测试

对于环境构建来说,可以由很可能的组件来进行构建。在研究对话策略优化的强化学习算法中,典型的方法是利用用户模拟器在对话行为层级上进行操作。对话主体会尽可能利用端到端的方式尝试减小对标注数据的需求,对于人类评测来说平台提供了基于Amazon Mechanical Turk来作为最后一层进行环境构建。

参考模型和跨域数据实验

在ConvLab中还涵盖了针对多重任务的模型供研究人员进行参考评测,包括了自然语言理解领域的Semantic Tuple Classi-fier (STC)、 OneNet以及作为拓展的Multi-intent LU (MILU);对话状态追踪引入了DSTCs基准模型、词级对话状态追踪领域集成了MDBT模型将域识别与置信状态追踪进行结合;在系统策略方面平台支持DQN,REINFORCE\PPO以及自模仿等;自然语言生成领域则使用了SC-LSTM方法。在词级策略上使用了Budzianowski等人提出的基准;在用户策略上ConvLab提供了基于agenda的方法和基于数据驱动(例如HUS等)的方法,模型在对话行为级别进行并可与NLU等模块协同构架出完整的用户模拟器;最后再端到端模型上则包含了Mem2Seq,Sequicity,并使得Sequicity实现了对于多域的支持。目前ConvLab主要支持MultiWOZ和Movie两个不同复杂度的数据域。其中MultiWOZ的主要任务是帮助旅客,其中引入了包含景点介绍和酒店预订等不同方面的内容。MultiWOZ中主要包含了7个子领域的问题:景点、医院、酒店、警察、餐厅、出租车、火车等方面的内容。其中包含了10438个标注对话。对于单领域和多领域的对话轮次平均为8.93和15.93轮。ConvLab对于用户对话行为进行了额外的标注、并为对话系统元件和用户模拟器提供了预训练基准模型、以及基于此数据训练的端到端的自然对话模型。Movie则来自于微软对话挑战赛,主要集中于电影票预订场景,包含了2890个标注对话,评论为7.5轮,同时还提供了针对主体和用户模拟器的一系列完整的参考模型。研究人员表示在未来还会加入Taxi和Restaurant等领域的任务不断丰富平台支持的领域。

原文标题:微软与清华开源多领域端到端对话系统集成平台ConvLab,帮助研究人员迅速搭建对话系统

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

快速构建RT-Thread 可通用的软件包

主题介绍及亮点:软件包在高级语言中非常常见,很多高级语言都有对应的软件包平台,软件包生态对于一门语言的选择至关重要,本次
发表于 09-11 00:00 28次 阅读
快速构建RT-Thread 可通用的软件包

微软在青岛成功挑战了吉尼斯世界纪录,一项黑科技来袭

最近,微软动静挺大的。先是月初在青岛成功挑战了吉尼斯世界纪录™称号,这两天又在赌城 Las Vega....
的头像 CINNO 发表于 07-24 10:38 15次 阅读
微软在青岛成功挑战了吉尼斯世界纪录,一项黑科技来袭

投资 10 亿美元!微软意在安全可靠地部署AGI

7 月 22 日,微软宣布将对非营利人工智能研究组织 OpenAI 投资 10 亿美元,用于通用人工....
的头像 AI科技大本营 发表于 07-24 08:37 33次 阅读
投资 10 亿美元!微软意在安全可靠地部署AGI

4157A模块化半导体参数分析仪

4157 data sheet.
发表于 07-23 16:11 7次 阅读
4157A模块化半导体参数分析仪

美高科技企业呼吁“解禁”华为 开放合作方能实现共赢

集微网7月22日报道,据路透社报道,美国时间周一(明日)白宫将举行会议,召集美国半导体以及软件等相关....
的头像 MCA手机联盟 发表于 07-23 11:36 398次 阅读
美高科技企业呼吁“解禁”华为 开放合作方能实现共赢

美国将可能会批准美国公司重启对华为销售的许可证

知情人士称,财政部长Steven Mnuchin也将参加此次白宫活动,芯片厂商英特尔和高通公司也将应....
发表于 07-23 09:38 68次 阅读
美国将可能会批准美国公司重启对华为销售的许可证

人工智能“少女”小冰有六种人格的或然世界

从最初的呀呀学话到唱歌不跑调,再到写诗并出版个人诗集,再到作曲……作为一个人工智能“少女”,微软小冰....
的头像 机器人大讲堂 发表于 07-23 09:34 279次 阅读
人工智能“少女”小冰有六种人格的或然世界

Linux开发工具总结

Linux是一个优秀的开发环境,但是如果没有好的开发工具作为武器,这个环境给你带来的好处就会大打折扣。幸运的是,有很多好用的...
发表于 07-23 06:35 17次 阅读
Linux开发工具总结

一名微软软件工程师的校招经历

当我接到微软HR电话的,说实话心里真的是很开心,因为在无数的求职者中能够选到我的简历自己感觉也是非常....
的头像 工程师人生 发表于 07-22 17:12 393次 阅读
一名微软软件工程师的校招经历

搞大事!微软、美国AT&T结成5G联盟

近日,AT&T与微软就围绕5G、人工智能、云存储、边缘计算以及其他边缘技术宣布结成联盟。
的头像 5G 发表于 07-22 16:22 283次 阅读
搞大事!微软、美国AT&T结成5G联盟

华为创始人任正非预计华为手机今年出货量将达到2.7亿台

近日,任正非在接受外媒YahooFinance采访时透露,今年,公司授权消费者业务可以采购足量的高通....
发表于 07-22 08:59 87次 阅读
华为创始人任正非预计华为手机今年出货量将达到2.7亿台

ST 5.0开源电机库分享!

链接: 密码:juz7
发表于 07-22 04:35 25次 阅读
ST 5.0开源电机库分享!

微软宣布将于2020年1月关闭Remix3D

微软将于2020年1月10日停止服务Remix3D.com网站。我们建议所有希望保留其上传内容的用户....
的头像 VR陀螺 发表于 07-21 07:59 101次 阅读
微软宣布将于2020年1月关闭Remix3D

微软SwiftKey输入法引入3D表情功能

微软产品经理Deepak Paramanand表示:“我们希望为SwiftKey粉丝提供一种在和他们....
的头像 VR陀螺 发表于 07-21 07:22 107次 阅读
微软SwiftKey输入法引入3D表情功能

微软在近期的Inspire活动中展示了一段超酷的HoloLens演示视频

这可比鸣人的影分身厉害多了!分身不仅和真身真假难辨,声音完全一致,而且还具有真身不具备的一些技能。想....
的头像 新智元 发表于 07-21 07:17 377次 阅读
微软在近期的Inspire活动中展示了一段超酷的HoloLens演示视频

微软云计算成业务增长的关键驱动力

微软云计算业务第二季度收入为114亿美元,实现了64%的营收增长,上年同期和上一季度的增幅分别为89....
的头像 人工智能学家 发表于 07-20 11:58 916次 阅读
微软云计算成业务增长的关键驱动力

微软SurfaceBook快充新专利曝光!

预计SurfaceBook 3可能会在今年晚些时候发布。
的头像 科技美学 发表于 07-20 11:49 530次 阅读
微软SurfaceBook快充新专利曝光!

蓝牙被曝存在安全漏洞 可跟踪用户设备

蓝牙通信协议中存在安全漏洞,可跟踪用户设备,影响Windows、iOS和macOS系统。
的头像 E安全 发表于 07-19 14:33 287次 阅读
蓝牙被曝存在安全漏洞 可跟踪用户设备

Microsoft最新研究提基于关系网络的视觉建模

有望替代卷积神经网络?
的头像 AI科技大本营 发表于 07-19 13:44 306次 阅读
Microsoft最新研究提基于关系网络的视觉建模

公共UDDI的挑战

据国外媒体报道,由微软与IBM等大公司力推的网络服务目录UDDI计划迟迟不见起色,厂商不仅要克服技术障碍,还得面对市场转...
发表于 07-19 08:22 33次 阅读
公共UDDI的挑战

微软SMS2003软件的部署

SMS2003又是微软的一个令人兴奋的软件,微软非常巧妙的将SMS 2003与AD进行了整合,非常方便的实现了对域环境下资源的管理...
发表于 07-19 06:19 14次 阅读
微软SMS2003软件的部署

回顾3年来的所有主流深度学习CTR模型

微软于2016年提出的Deep Crossing可以说是深度学习CTR模型的最典型和基础性的模型。如....
的头像 AI科技大本营 发表于 07-18 14:33 242次 阅读
回顾3年来的所有主流深度学习CTR模型

开源软件的演进历程是怎样的

随着两化融合、工业物联网、智能制造、企业上云等政策的发布,将会促进云计算与产业场景的结合。
发表于 07-18 09:00 35次 阅读
开源软件的演进历程是怎样的

超越微软!阿里AI在常识QA领域刷新世界纪录

这一技术是“95后”实习生叶志秀在达摩院科学家指导下完成的实习成果,显著提升了AI的常识推理能力。
的头像 机器人技术与应用 发表于 07-17 16:13 397次 阅读
超越微软!阿里AI在常识QA领域刷新世界纪录

SMS2003+SP3中文版的安装过程

Systems Management Server 2003又是微软非常巧妙的将SMS 2003与AD进行了整合,非常方便的实现了对域环境下资源的管理,...
发表于 07-17 08:13 19次 阅读
SMS2003+SP3中文版的安装过程

业绩下滑,340亿美元豪赌抵御亚马逊、微软

进入2019年,IBM第一季度营收再次下滑,且积极推动迈向云转型的业务出现下滑,来自云和数据平台营收....
的头像 传感物联网 发表于 07-16 16:45 226次 阅读
业绩下滑,340亿美元豪赌抵御亚马逊、微软

打造开发者社区,涛思数据开源 TDengine物联网大数据平台

“Leave a dent in the world!”
的头像 AI科技大本营 发表于 07-16 10:48 1206次 阅读
打造开发者社区,涛思数据开源 TDengine物联网大数据平台

SurfaceStudio2测评 Windows阵营设计师PC的顶点

两年前见到Surface Studio,惊艳是第一反应。私以为,Surface Studio才是对S....
的头像 39度创意研究所 发表于 07-16 09:53 153次 阅读
SurfaceStudio2测评 Windows阵营设计师PC的顶点

登录管理工具LimitLogin

LimitLogin是一款于2005年面世的登录管理工具,由一名微软合作伙伴技术专家和一名应用程序开发顾问合力开发。LimitLogin旨在...
发表于 07-16 06:27 21次 阅读
登录管理工具LimitLogin

基于Oracle亚马逊和微软的区块链即服务平台的对比分析

几乎每一家大型科技公司都开始进军区块链即服务市场。除了亚马逊、微软和Oracle,IBM、SAP和惠....
发表于 07-15 11:44 102次 阅读
基于Oracle亚马逊和微软的区块链即服务平台的对比分析

IBM收购RedHat,开源和闭源的存储软件将如何抉择?

IBM完成收购后将拥有自己的专有存储产品和红帽的开源存储产品集了,此时IBM将如何抉择这两种提供存储....
的头像 存储社区 发表于 07-15 08:53 276次 阅读
IBM收购RedHat,开源和闭源的存储软件将如何抉择?

开源webbloger Roller的安装记录

设置系统变量JAVA_HOME=c:/j2sdk142为你的JDK安装目录,然后安装tomcat,并设置系统变量CATALINA_HOME=d...
发表于 07-15 06:08 26次 阅读
开源webbloger Roller的安装记录

FRVT赛程全纪录:格灵深瞳全球排名前五

在FRVT评测中,测试集是完全不公开的,只有简略的几段话描述。这意味着FRVT用的不是传统那种通过在....
的头像 AI科技大本营 发表于 07-13 07:33 436次 阅读
FRVT赛程全纪录:格灵深瞳全球排名前五

五大方向深耕VR市场战略布局

微软WMR头显计划下,惠普、戴尔、联想、三星、宏碁5家厂商正式踏入VR的队列,改变了当时VR硬件的格....
发表于 07-12 16:05 78次 阅读
五大方向深耕VR市场战略布局

微软最新Surface Pro6将取消Type-C接口

据SlashGear消息,下周将在微软Ignite大会上发布的Surface Pro6现已曝光。Pr....
发表于 07-12 14:09 130次 阅读
微软最新Surface Pro6将取消Type-C接口

我国数字经济发展重要支撑是什么

无论是云计算,还是大数据、人工智能、区块链等领域,都大量采用了开源技术。
发表于 07-12 10:29 272次 阅读
我国数字经济发展重要支撑是什么

怎样才能将人工智能用得好

人工智能的技术发展,依赖于人工智能的算法和计算资源的能力,也就是算力。
发表于 07-12 09:38 52次 阅读
怎样才能将人工智能用得好

微软:制造业务不会离开中国

微软计划于2020年在中国扩增1000个新招职位。
的头像 今日芯闻 发表于 07-11 11:39 313次 阅读
微软:制造业务不会离开中国

没想到苹果会有这么一天 在印度销量暴跌42%还连续2个季度

刚刚外媒报道,国际专业数据公司Counterpoint Research公布的数据显示,今年第一季度....
的头像 5G万物物联 发表于 07-11 11:33 563次 阅读
没想到苹果会有这么一天 在印度销量暴跌42%还连续2个季度

340亿美元收购红帽,蓝色巨人在开源世界开疆拓土

IBM历史上最大的一笔豪赌
的头像 半导体商城 发表于 07-11 11:16 329次 阅读
340亿美元收购红帽,蓝色巨人在开源世界开疆拓土

微软Surface可折叠屏设备细节 单屏1440×1920分辨率

据透露,该设备将有两个9英寸屏幕,宽高比为4:3,将运行带有双显示UI的WCOS(Windows C....
的头像 扩展触控快讯 发表于 07-10 17:06 273次 阅读
微软Surface可折叠屏设备细节 单屏1440×1920分辨率

微软宣布收购N-trig的触控笔触控技术

微软确认已经收购了长期合作伙伴、以色列触屏技术开发商N-trig在Surface Pro 3和Sur....
发表于 07-10 16:21 310次 阅读
微软宣布收购N-trig的触控笔触控技术

谷歌宣布将收购加州企业云存储服务提供商Elastifile

谷歌并未透露具体的交易金额。如果顺利获得监管部门的批准,谷歌预计这笔交易将于今年晚些时候完成。届时,....
发表于 07-10 09:21 61次 阅读
谷歌宣布将收购加州企业云存储服务提供商Elastifile

微软将与美国医疗集团普罗维登斯合作建设一家新的高科技医院

双方合作的战略重点包括改进电子病历,让医生、护士和其他卫生服务提供者能够更容易地找到和共享信息等。另....
发表于 07-10 09:14 54次 阅读
微软将与美国医疗集团普罗维登斯合作建设一家新的高科技医院

flume原理介绍

flume是Apache的一款开源日志收集软件。在flume中,主要有三个重要的角色:source、channel和sink。source负责收集日志,日志可...
发表于 07-10 06:04 68次 阅读
flume原理介绍

甲骨文创始人炮轰亚马逊云:“用了必死无疑”?

他称甲骨文的数据库“完全自治”,而亚马逊的数据库则是“半自主的”。“半自主数据库就像半自动驾驶汽车一....
的头像 AI科技大本营 发表于 07-09 14:51 304次 阅读
甲骨文创始人炮轰亚马逊云:“用了必死无疑”?

被质疑 5G 和云游戏方面落后?任天堂回应了

技术改变了,游戏方式和形态也要随之改变。
的头像 爱范儿 发表于 07-09 14:32 303次 阅读
被质疑 5G 和云游戏方面落后?任天堂回应了

AI将成为人类未来最好的左脑

与其担心技术是否会改变工作,还不如关注如何训练我们和下一代终身学习。
的头像 AI科技大本营 发表于 07-09 10:54 391次 阅读
AI将成为人类未来最好的左脑

技术无罪?AI脱衣App上线几个小时就被下线了!

一键“脱衣”应用遭下架!
的头像 人工智能与大数据技术 发表于 07-09 09:00 1273次 阅读
技术无罪?AI脱衣App上线几个小时就被下线了!

深度学习框架你了解多少

开源的深度学习神经网络正步入成熟,而现在有许多框架具备为个性化方案提供先进的机器学习和人工智能的能力....
发表于 07-08 10:31 84次 阅读
深度学习框架你了解多少

人工智能开源框架有哪些

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身....
发表于 07-08 10:27 52次 阅读
人工智能开源框架有哪些

小项目,大影响!超小型开源项目成黑客注入恶意代码的重灾区

现代软件开发的依赖树让黑客更容易从小型开源项目入手攻克。
的头像 ibm软件技术联盟 发表于 07-08 10:21 269次 阅读
小项目,大影响!超小型开源项目成黑客注入恶意代码的重灾区

周礼栋:这个系统拥有前所未有的复杂性的时代

我们正进入分布式系统的时代。作为分布式系统研究人员,我们总是相信,我们在做最重要的部分。微软研究院拥....
的头像 AI科技大本营 发表于 07-07 09:44 793次 阅读
周礼栋:这个系统拥有前所未有的复杂性的时代

不用学英语了?Fork成“分叉”、Blame变“追溯”

Fork:翻译一直很有争议,因此通常不翻译。有翻译成分叉、也有翻译成分支的。Linux中国翻译组(L....
的头像 新智元 发表于 07-07 08:11 217次 阅读
不用学英语了?Fork成“分叉”、Blame变“追溯”

清华成立NLP与社会人文计算研究中心 开源机器翻译系统等三项成果

近日,清华大学人工智能研究院自然语言处理与社会人文计算研究中心(以下简称中心)成立仪式在清华大学FI....
的头像 大数据文摘 发表于 07-05 15:48 338次 阅读
清华成立NLP与社会人文计算研究中心 开源机器翻译系统等三项成果

5G开源创新中心在能源和汽车场景的应用

创新的企业借助开源的特性,容易形成比较高的竞争壁垒,避免恶性竞争的发生。
的头像 开源工业互联网联盟 发表于 07-05 14:08 321次 阅读
5G开源创新中心在能源和汽车场景的应用

微软推出手笔混合多点触摸技术

微软近日放出一段展示视频,介绍了一项名为“Manual Deskterity”的多点触摸控制技术,可....
发表于 07-05 10:59 379次 阅读
微软推出手笔混合多点触摸技术

开源对于区块链来说有多重要

不管是互联网还是区块链,作为一项技术进入大众的视野,开源与否都饱含争议。
发表于 07-05 10:21 44次 阅读
开源对于区块链来说有多重要

“南迁”又一波高潮?笔记本及游戏机厂商将部分产能迁至东南亚

据台湾经济日报报道,供应链传出,惠普要求广达把部分笔记本产能移至泰国,戴尔要求仁宝把部分笔记本产能移....
的头像 MCA手机联盟 发表于 07-04 16:47 504次 阅读
“南迁”又一波高潮?笔记本及游戏机厂商将部分产能迁至东南亚

英特尔落后微软 英特尔能否重塑昔日辉煌?

在英特尔看来,数据市场蕴含3000亿美元机遇,但进入2019年,业绩与利润呈现双双下滑局面。
的头像 传感物联网 发表于 07-04 10:29 549次 阅读
英特尔落后微软 英特尔能否重塑昔日辉煌?

微软基于FPGA提升数据中心服务器的效能

    微软(Microsoft)正探索将现场可编程闸阵列(FPGA)导入其资料中心伺服器的可能性。虽然目前这还只是一个初步的...
发表于 06-20 07:23 64次 阅读
微软基于FPGA提升数据中心服务器的效能