4月1 日, 亚马逊宣布:他们计划向公众公开“Topical Chat”数据集,超410万单词21万句子的语料库将于2019年9月17日发布。
该数据集是为参加Alexa Prize Socialbot Grand Challenge 3竞赛的团队开发的,申请截止日期为2019年5月14日,比赛于2019年9月9日开始。所有参加Alexa Prize竞赛的团队将可以访问此数据集的扩展版本(扩展主题聊天数据集),其中包括正在进行的集合和注释的结果。
主题聊天数据集将包含超过210,000个句子(超过4,100,000个单词),可支持高质量,可重复的研究,将成为研究界公开可用的最大社交对话和知识数据集。
每个语料库的对话和对话轮次与提供给众包工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。
亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何语料是与Alexa客户的互动。
该数据库是实现基于知识的神经反应生成系统的后续研究,解决其他公开数据集无法解决的自然对话中的难题。这将使研究者可以专注于研究对话中主题和知识选择方面的转换,以及如何在对话中融入事实和观点。
-
数据集
+关注
关注
4文章
1232浏览量
26059 -
亚马逊
+关注
关注
8文章
2725浏览量
85455
原文标题:亚马逊将公布超过最大会话和知识数据集,超400万字
文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
看点:消息称台积电3纳米订单激增 亚马逊正式公布裁员计划 宇树王兴兴获上交所聘任
看点:亚马逊云科技否认大中华区裁员 黑石计划投资7亿美元建数据中心 小鹏首个欧洲本地化生产项目启动
IBM与美国网球协会携手推出2025年美国网球公开赛AI驱动的球迷体验
微软开源GitHub Copilot Chat,AI编程迎来新突破
SAP与亚马逊云科技推出AI联合创新计划,打造生成式AI解决方案,助力客户应对市场波动与供应链复杂性
SAP与亚马逊云科技推出AI联合创新计划,打造生成式AI解决方案, 助力客户应对市场波动与供应链复杂性
请问NanoEdge AI数据集该如何构建?

亚马逊宣布:他们计划向公众公开“Topical Chat”数据集
评论