又一来自腾讯AI实验室的资源帖。腾讯AI实验室宣布,正式开源一个大规模、高质量的中文词向量数据集。该数据集包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高。在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面,腾讯内部效果提升显著。
数据集特点
总体来讲,腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。
具体方面,腾讯自称,该数据集着重在3方面进行了提升:
1. 覆盖率(Coverage):
该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。
以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:
墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河
2. 新鲜度(Freshness):
该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。
以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:
一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了
3. 准确性(Accuracy):
由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:
在开源前,腾讯内部经历了多次测评,认为该数据集相比于现有的公开数据,在相似度和相关度指标上均达到了更高的分值。
数据集构建经验
那么这样的数据集,腾讯AI实验室是如何构建的呢?
他们围绕3方面分享了构建及优化经验:
1. 语料采集:
训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。
大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。
而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。
2. 词库构建:
除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法,可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。
3. 训练算法:
腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。
DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。
意义
最后,表扬一下鹅厂的开源之举。
目前针对英语环境,工业界和学术界已发布了一些高质量的词向量数据,并得到了广泛的使用和验证。
其中较为知名的有谷歌公司基于word2vec算法、斯坦福大学基于GloVe算法、Facebook基于fastText项目发布的数据等。
然而,目前公开可下载的中文词向量数据还比较少,并且数据的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。
所以有资源有能力的腾讯,还有心做这样的事情,对业界实属利好。
-
AI
+关注
关注
91文章
41326浏览量
302722 -
腾讯
+关注
关注
7文章
1687浏览量
51010
原文标题:资源 | 腾讯开源800万中文词的NLP数据集
文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
新能源实验室可以做哪些检测?流程是什么
中微爱芯检测与实验中心正式通过CNAS国家实验室认可
致真精密仪器获批建设智能仪器方向北京市重点实验室
礼来与NVIDIA宣布成立AI联合创新实验室以应对药物研发挑战
3年10亿,携手攻坚:“AI计算开放架构联合实验室”协同创新计划正式启动
江波龙与华曦达联合创新实验室揭牌,共建AI存储创新生态
广凌智慧实验室管理系统技术亮点与功能介绍
强强联合:之江实验室与沐曦股份共建智算集群联合实验室
Solidigm 成立AI中央实验室,配备高性能、大密度存储测试集群
CTI华测检测与戴纳科技签署战略合作,共建AI驱动黑灯实验室
麦捷科技与光明实验室开启AI物理交互新纪元
高德地图与通义实验室达成深度合作
Grameenphone参与爱立信与AWS Gen-AI实验室项目
华为智算实验室方案加速构建AI4S新质生产力
腾讯AI实验室是如何构建的?有什么特点
评论