0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯AI实验室是如何构建的?有什么特点

悟空智能科技 2018-12-01 09:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

又一来自腾讯AI实验室的资源帖。腾讯AI实验室宣布,正式开源一个大规模、高质量的中文词向量数据集。该数据集包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高。在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面,腾讯内部效果提升显著。

数据集特点

总体来讲,腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。

具体方面,腾讯自称,该数据集着重在3方面进行了提升:

1. 覆盖率(Coverage):

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

2. 新鲜度(Freshness):

该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。

以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

3. 准确性(Accuracy):

由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:

在开源前,腾讯内部经历了多次测评,认为该数据集相比于现有的公开数据,在相似度和相关度指标上均达到了更高的分值。

数据集构建经验

那么这样的数据集,腾讯AI实验室是如何构建的呢?

他们围绕3方面分享了构建及优化经验:

1. 语料采集:

训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。

大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。

而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。

2. 词库构建:

除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法,可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。

3. 训练算法:

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。

DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。

意义

最后,表扬一下鹅厂的开源之举。

目前针对英语环境,工业界和学术界已发布了一些高质量的词向量数据,并得到了广泛的使用和验证。

其中较为知名的有谷歌公司基于word2vec算法、斯坦福大学基于GloVe算法、Facebook基于fastText项目发布的数据等。

然而,目前公开可下载的中文词向量数据还比较少,并且数据的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。

所以有资源有能力的腾讯,还有心做这样的事情,对业界实属利好。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41326

    浏览量

    302722
  • 腾讯
    +关注

    关注

    7

    文章

    1687

    浏览量

    51010

原文标题:资源 | 腾讯开源800万中文词的NLP数据集

文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新能源实验室可以做哪些检测?流程是什么

    新能源实验室在推动新能源汽车及相关技术的发展中扮演着至关重要的角色。这些实验室不仅进行基础研究和创新,还承担着多种关键检测任务,以确保新能源汽车的安全性、性能和可靠性。新能源实验室的研究方向广泛
    的头像 发表于 04-24 15:02 110次阅读
    新能源<b class='flag-5'>实验室</b>可以做哪些检测?流程是什么

    中微爱芯检测与实验中心正式通过CNAS国家实验室认可

    3月30日,中国合格评定国家认可委员会(CNAS)正式向无锡中微爱芯电子有限公司(以下简称“中微爱芯”)检测与实验中心颁发CNAS实验室认可证书(注册号:CNAS L25597)。CNAS作为国际
    的头像 发表于 04-16 17:25 903次阅读

    致真精密仪器获批建设智能仪器方向北京市重点实验室

    近期,由北京航空航天大学牵头,致真精密仪器与松延动力共同参与建设的“人工智能全自动化实验室关键共性技术北京市重点实验室”正式获批。这是致真精密仪器面向人工智能赋能科学仪器和科学研究领域布局的关键一步,为构建未来全智能化的科学仪器
    的头像 发表于 03-30 14:04 540次阅读

    礼来与NVIDIA宣布成立AI联合创新实验室以应对药物研发挑战

    NVIDIA 与礼来公司在今日共同宣布,将合作成立一家开创性的 AI 联合创新实验室,致力于运用 AI 技术解决制药行业长期面临的诸多挑战。
    的头像 发表于 01-20 09:44 703次阅读

    3年10亿,携手攻坚:“AI计算开放架构联合实验室”协同创新计划正式启动

    在刚刚结束的光合组织2025人工智能创新大会(HAIC2025)上,一项项助力中国AI产业发展、推动产业底层协同等的关键举措逐一发布,包括30余家生态企业联合发起的“AI计算开放架构联合实验室”首批
    发表于 12-21 16:15 2478次阅读
    3年10亿,携手攻坚:“<b class='flag-5'>AI</b>计算开放架构联合<b class='flag-5'>实验室</b>”协同创新计划正式启动

    江波龙与华曦达联合创新实验室揭牌,共建AI存储创新生态

    切入点,旨在构建覆盖端侧AI设备与智能家庭场景的技术验证体系。实验室秉承开源协作理念,致力于解决存储与AI终端适配中的关键痛点,形成从联合调试、场景验证到可靠性评估的全流程
    的头像 发表于 12-05 13:36 1616次阅读
    江波龙与华曦达联合创新<b class='flag-5'>实验室</b>揭牌,共建<b class='flag-5'>AI</b>存储创新生态

    广凌智慧实验室管理系统技术亮点与功能介绍

    广凌智慧实验室管理系统以“AI+物联网”为核心,通过危险源动态管控、智能巡检、安全准入、资源调度、数据决策五大核心功能,构建了覆盖实验室全生命周期的智能化治理生态。
    的头像 发表于 12-03 10:55 618次阅读
    广凌智慧<b class='flag-5'>实验室</b>管理系统技术亮点与功能介绍

    强强联合:之江实验室与沐曦股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工智能算力基础设施创新发展 。之江实验室
    的头像 发表于 10-23 10:50 1592次阅读

    Solidigm 成立AI中央实验室,配备高性能、大密度存储测试集群

    实验室汇聚AI与存储专业技术,为Solidigm合作者提供研究和优化存储对AI工作负载影响的平台。 2025年10月9日,北京 ——企业数据存储领域领导者 Solidigm正式揭幕其 AI
    的头像 发表于 10-10 17:03 994次阅读

    CTI华测检测与戴纳科技签署战略合作,共建AI驱动黑灯实验室

    基地完成战略签约,双方将合作打造AI驱动黑灯实验室,攻克关键技术瓶颈,共同推动检测认证实验室向全面数智化及自动化升级。 CTI华测检测集团总裁申屠献忠在签约仪式上表示:"本次合作是华测集团面向未来、
    的头像 发表于 08-28 09:48 770次阅读
    CTI华测检测与戴纳科技签署战略合作,共建<b class='flag-5'>AI</b>驱动黑灯<b class='flag-5'>实验室</b>

    麦捷科技与光明实验室开启AI物理交互新纪元

    麦捷科技与人工智能与数字经济广东省实验室(深圳)(以下简称“光明实验室”)“微型驱动关节与仿生灵巧手” 联合实验室揭牌仪式暨合作启动会在深圳市光明区科润大厦B 座7 楼活动厅隆重举行。此次活动汇聚了双方领导、高校专家代表,共同见
    的头像 发表于 08-27 11:27 1622次阅读

    高德地图与通义实验室达成深度合作

    AI原生浪潮推动下,阿里巴巴集团旗下高德地图与通义实验室宣布达成深度合作,并在近日发布的高德地图2025版本中落地多项共建成果。
    的头像 发表于 08-15 17:23 1818次阅读

    Grameenphone参与爱立信与AWS Gen-AI实验室项目

    爱立信×AWS 「Gen-AI实验室」旨在推动运营商在OSS/BSS中的AI应用突破。通过结构化、结果导向的协作方式,实验室将爱立信在OSS/BSS产品组合和行业专业知识方面的深厚积累
    的头像 发表于 07-16 10:49 1.6w次阅读

    华为智算实验室方案加速构建AI4S新质生产力

    为科学发现的核心引擎。在这场全球科研范式重构的浪潮中,国家实验室对基础设施的诉求已发生本质性嬗变——全栈自主创新、数据主权保障、多模态算力融合正取代单纯的算力规模,成为AI for Science落地的战略支点。华为以“智算实验室
    的头像 发表于 07-05 17:53 2015次阅读
    华为智算<b class='flag-5'>实验室</b>方案加速<b class='flag-5'>构建</b><b class='flag-5'>AI</b>4S新质生产力

    晶科储能检测中心获莱茵目击实验室资质

    目击实验室资质后,晶科储能在国际检测认证领域的又一里程碑,标志着其实验室测试能力全面覆盖欧美核心市场标准,为全球产品合规准入构建“双通道”认证引擎。
    的头像 发表于 06-19 16:25 1147次阅读