0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯AI实验室是如何构建的?有什么特点

悟空智能科技 2018-12-01 09:57 次阅读

又一来自腾讯AI实验室的资源帖。腾讯AI实验室宣布,正式开源一个大规模、高质量的中文词向量数据集。该数据集包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高。在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面,腾讯内部效果提升显著。

数据集特点

总体来讲,腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。

具体方面,腾讯自称,该数据集着重在3方面进行了提升:

1. 覆盖率(Coverage):

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

2. 新鲜度(Freshness):

该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。

以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

3. 准确性(Accuracy):

由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:

在开源前,腾讯内部经历了多次测评,认为该数据集相比于现有的公开数据,在相似度和相关度指标上均达到了更高的分值。

数据集构建经验

那么这样的数据集,腾讯AI实验室是如何构建的呢?

他们围绕3方面分享了构建及优化经验:

1. 语料采集:

训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。

大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。

而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。

2. 词库构建:

除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法,可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。

3. 训练算法:

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。

DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。

意义

最后,表扬一下鹅厂的开源之举。

目前针对英语环境,工业界和学术界已发布了一些高质量的词向量数据,并得到了广泛的使用和验证。

其中较为知名的有谷歌公司基于word2vec算法、斯坦福大学基于GloVe算法、Facebook基于fastText项目发布的数据等。

然而,目前公开可下载的中文词向量数据还比较少,并且数据的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。

所以有资源有能力的腾讯,还有心做这样的事情,对业界实属利好。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26298

    浏览量

    263903
  • 腾讯
    +关注

    关注

    7

    文章

    1619

    浏览量

    49151

原文标题:资源 | 腾讯开源800万中文词的NLP数据集

文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    加固平板电脑在医疗实验室上的应用

    加固平板电脑在医疗实验室中的发挥了非常重要的作用。在亿道三防onerugged系列产品中,加固平板电脑以其独特的功能特点和可靠性,为医疗实验室的工作带来了深远的影响。
    的头像 发表于 02-25 11:03 149次阅读

    上海AI实验室发布新一代书生·视觉大模型

    近日,上海人工智能实验室(上海AI实验室)联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型(InternVL)。
    的头像 发表于 02-04 11:25 614次阅读

    实验室电源电路原理图

    该台式电源电路适合您的电子实验实验室。该电路不能构建在一块铜层压板上。台式电源设计为使用旧灯笼电池“D”和“C”。
    的头像 发表于 12-16 17:58 1225次阅读
    <b class='flag-5'>实验室</b>电源电路原理图

    释放生成式AI的巨大潜力,德勤中国与亚马逊云科技共建生成式AI联合实验室

    2023年11月16日,德勤中国与亚马逊云科技共同宣布创建生成式AI联合实验室。双方将整合优势资源,围绕“1+3”展开合作。
    的头像 发表于 11-17 17:19 757次阅读

    请问如果进行UG865中的清洁步骤,是否对实验室条件、仪器设备、安全操作方法要求吗?

    超声波水浴机,和易立高的99.7%的IPA溶剂。 但是水浴机会产热,IPA 又具有挥发性和易燃性。 请问如果进行UG865中的清洁步骤,是否对实验室条件、仪器设备、安全操作方法要求?请指示!
    发表于 11-13 13:03

    实验室智能监控系统是智能硬件+软件+云服务一体化的智慧实验室解决方案

    实验室的监控项目中,不同实验室对温湿度都有要求,而大部分实验都要在规定的温湿度环境中进行,室内的小气候,包括温度、湿度和气流速度等,都对在实验室工作的人员、仪器设备、检测的结果有影响
    的头像 发表于 10-24 12:10 546次阅读
    <b class='flag-5'>实验室</b>智能监控系统是智能硬件+软件+云服务一体化的智慧<b class='flag-5'>实验室</b>解决方案

    实验室运维提供安全、智能、节能整体解决方案的易云维®实验室智能化管理平台

    实验室安全问题频繁发生,在对生命损失表示遗憾的同时,再次提醒科研人员,实验室安全不容忽视。为了保证实验室工作环境的安全,易云维®自主研发了实验室智能化管理平台,其中安防管理功能对确保
    的头像 发表于 09-19 15:16 334次阅读
    为<b class='flag-5'>实验室</b>运维提供安全、智能、节能整体解决方案的易云维®<b class='flag-5'>实验室</b>智能化管理平台

    PCR基因扩增实验室装修设计解决方案-生命科学

    产品检测,动物饲料、化妆品、食品卫生检测,转基因作物与转基因微生物检测等。PCR实验室即基因扩增实验室,PCR实验室的分区规划怎么做?PCR实验室的建设设计要点
    发表于 09-19 14:28

    什么是智慧实验室综合管理平台?

    管理平台 目前,我国实验室存在纸质记录多、信息孤岛、不可追溯、安全隐患多、运行能耗高、管理难等问题;同时,国内LIMS实验室信息系统专业化程度低,功能结构单一,不能满足现阶段实验室管理需要;
    的头像 发表于 08-22 14:20 734次阅读
    什么是智慧<b class='flag-5'>实验室</b>综合管理平台?

    实验室安全高压气路设计方案

    概述: 实验室安全高压气路设计方案为实现实验室简洁、高端化而设计,采用高纯气体中央供气系统是专为高精度压力测试设备所用高纯工作气体的传输而设计,系统需要为各压力标准设备提供压力、流量稳定且经过传输后
    发表于 08-01 15:57

    易云维®实验室lims管理系统是一个具有灵活配套功能的实验室运维平台

    实验室lims管理系统的智能化管理是利用互联网技术,改进实验室传统的管理和运营方式,减少实验室人力、物力、财力的浪费,缩短实验室人员非科研工作时间,从而提高
    的头像 发表于 07-25 14:09 350次阅读
    易云维®<b class='flag-5'>实验室</b>lims管理系统是一个具有灵活配套功能的<b class='flag-5'>实验室</b>运维平台

    易云维®实验室智能管理系统构建更适合现代医疗实验室的信息化管理体系

    随着信息技术的快速发展,实验室是教育和科研的重要场所。实验室设备仪器丰富,实验项目多,管理内容多,管理难度大。部分医院在管理实验室还是人工管理模式,该模式过于局限、落后、固定、僵化,不
    的头像 发表于 06-27 11:44 384次阅读
    易云维®<b class='flag-5'>实验室</b>智能管理系统<b class='flag-5'>构建</b>更适合现代医疗<b class='flag-5'>实验室</b>的信息化管理体系

    0-15V 0.60mA-5A可调实验室电源构建

    电子发烧友网站提供《0-15V 0.60mA-5A可调实验室电源构建.zip》资料免费下载
    发表于 06-08 09:54 1次下载
    0-15V 0.60mA-5A可调<b class='flag-5'>实验室</b>电源<b class='flag-5'>构建</b>

    实验室安全高压气路设计方案

    概述: 实验室安全高压气路设计方案为实现实验室简洁、高端化而设计,采用高纯气体中央供气系统是专为高精度压力测试设备所用高纯工作气体的传输而设计,系统需要为各压力标准设备提供压力、流量稳定且经过传输后
    发表于 05-26 16:54

    广凌实验室智慧物联管控:构建自动化、共享化、开放化的智慧教学空间

    实验室管控时,您是否遇到这些难题?设备只能线下手动控制,费时费力实验室只能人工预约,经常时间冲突实验室环境无法科学、准确监测……广凌实验室智慧物联管控,基于物联网、云计算、大数据等信息
    的头像 发表于 05-04 15:33 252次阅读
    广凌<b class='flag-5'>实验室</b>智慧物联管控:<b class='flag-5'>构建</b>自动化、共享化、开放化的智慧教学空间