0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型

WpOh_rgznai100 来源:lq 2019-07-18 14:36 次阅读

为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中文BERT预训练模型。我们在多个中文数据集上得到了较好的结果,覆盖了句子级到篇章级任务。同时,我们对现有的中文预训练模型进行了对比,并且给出了若干使用建议。我们欢迎大家下载试用。

下载地址:https://github.com/ymcui/Chinese-BERT-wwm

技术报告:https://arxiv.org/abs/1906.08101

摘要

基于Transformers的双向编码表示(BERT)在多个自然语言处理任务中取得了广泛的性能提升。近期,谷歌发布了基于全词覆盖(Whold Word Masking)的BERT预训练模型,并且在SQuAD数据中取得了更好的结果。应用该技术后,在预训练阶段,同属同一个词的WordPiece会被全部覆盖掉,而不是孤立的覆盖其中的某些WordPiece,进一步提升了Masked Language Model (MLM)的难度。在本文中我们将WWM技术应用在了中文BERT中。我们采用中文维基百科数据进行了预训练。该模型在多个自然语言处理任务中得到了测试和验证,囊括了句子级到篇章级任务,包括:情感分类,命名实体识别,句对分类,篇章分类,机器阅读理解。实验结果表明,基于全词覆盖的中文BERT能够带来进一步性能提升。同时我们对现有的中文预训练模型BERT,ERNIE和本文的BERT-wwm进行了对比,并给出了若干使用建议。预训练模型将发布在:https://github.com/ymcui/Chinese-BERT-wwm

简介

Whole Word Masking (wwm),暂翻译为全词Mask,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个词缀,在生成训练样本时,这些被分开的词缀会随机被[MASK]替换。在全词Mask中,如果一个完整的词的部分WordPiece被[MASK]替换,则同属该词的其他部分也会被[MASK]替换,即全词Mask。

同理,由于谷歌官方发布的BERT-base(Chinese)中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词(CWS)。我们将全词Mask的方法应用在了中文中,即对组成同一个词的汉字全部进行[MASK]。该模型使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大语言技术平台LTP(http://ltp.ai)作为分词工具。

下述文本展示了全词Mask的生成样例。

基线测试结果

我们选择了若干中文自然语言处理数据集来测试和验证预训练模型的效果。同时,我们也对近期发布的谷歌BERT,百度ERNIE进行了基准测试。为了进一步测试这些模型的适应性,我们特别加入了篇章级自然语言处理任务,来验证它们在长文本上的建模效果。

以下是我们选用的基准测试数据集。

我们列举其中部分实验结果,完整结果请查看我们的技术报告。为了确保结果的稳定性,每组实验均独立运行10次,汇报性能最大值和平均值(括号内显示)。

▌中文简体阅读理解:CMRC 2018

CMRC 2018是哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。

▌中文繁体阅读理解:DRCD

DRCD数据集由中国***台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。

▌中文命名实体识别:人民日报,MSRA-NER

中文命名实体识别(NER)任务中,我们采用了经典的人民日报数据以及微软亚洲研究院发布的NER数据。

▌句对分类:LCQMC,BQ Corpus

LCQMC以及BQ Corpus是由哈尔滨工业大学(深圳)发布的句对分类数据集。

▌篇章级文本分类:THUCNews

由清华大学自然语言处理实验室发布的新闻数据集,需要将新闻分成10个类别中的一个。

使用建议

基于以上实验结果,我们给出以下使用建议(部分),完整内容请查看我们的技术报告。

初始学习率是非常重要的一个参数(不论是BERT还是其他模型),需要根据目标任务进行调整。

ERNIE的最佳学习率和BERT/BERT-wwm相差较大,所以使用ERNIE时请务必调整学习率(基于以上实验结果,ERNIE需要的初始学习率较高)。

由于BERT/BERT-wwm使用了维基百科数据进行训练,故它们对正式文本建模较好;而ERNIE使用了额外的百度百科、贴吧、知道等网络数据,它对非正式文本(例如微博等)建模有优势。

在长文本建模任务上,例如阅读理解、文档分类,BERT和BERT-wwm的效果较好。

如果目标任务的数据和预训练模型的领域相差较大,请在自己的数据集上进一步做预训练。

如果要处理繁体中文数据,请使用BERT或者BERT-wwm。因为我们发现ERNIE的词表中几乎没有繁体中文。

声明

虽然我们极力的争取得到稳定的实验结果,但实验中难免存在多种不稳定因素(随机种子,计算资源,超参),故以上实验结果仅供学术研究参考。由于ERNIE的原始发布平台是PaddlePaddle(https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),我们无法保证在本报告中的效果能反映其真实性能(虽然我们在若干数据集中复现了效果)。同时,上述使用建议仅供参考,不能作为任何结论性依据。

该项目不是谷歌官方发布的中文Whole Word Masking预训练模型。

总结

我们发布了基于全词覆盖的中文BERT预训练模型,并在多个自然语言处理数据集上对比了BERT、ERNIE以及BERT-wwm的效果。实验结果表明,在大多数情况下,采用了全词覆盖的预训练模型(ERNIE,BERT-wwm)能够得到更优的效果。由于这些模型在不同任务上的表现不一致,我们也给出了若干使用建议,并且希望能够进一步促进中文信息处理的研究与发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1177

    浏览量

    24347
  • 自然语言处理

    关注

    1

    文章

    509

    浏览量

    13099

原文标题:刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是一种新的预训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且在效率上更胜一筹。
    的头像 发表于 02-29 17:37 390次阅读

    上海AI实验室发布新一代书生·视觉大模型

    近日,上海人工智能实验室(上海AI实验室)联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型(InternVL)。
    的头像 发表于 02-04 11:25 627次阅读

    科大发布星火语音大模型

    科大行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年01月31日 09:17:28

    商汤科技发布新一代大语言模型书生·浦语2.0

    1月17日,商汤科技与上海AI实验室联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.0(InternLM2)。
    的头像 发表于 01-17 15:03 381次阅读
    商汤科技<b class='flag-5'>发布</b>新一代大语言<b class='flag-5'>模型</b>书生·浦语2.0

    数智共创,华为WeLink 赋能哈工大卓越发展

    数智共创,WeLink 赋能哈工大卓越发展 哈尔滨工业大学经过百余年的发展,形成了“一校三区”的办学格局,在全国高校中最具特色,也增加了校务活动的复杂性。信息化服务模式也面临着跨地域空间,信息规划
    的头像 发表于 11-05 14:49 314次阅读
    数智共创,华为WeLink 赋能<b class='flag-5'>哈工大</b>卓越发展

    PCR基因扩增实验室装修设计解决方案-生命科学

    空调通风系统设计及压力控制: PCR实验室并没有严格的净化要求,但是为避免各个实验区域间交叉污染的可能性,宜采用排的气流组织形式。同时,要严格控制送、排风的比例以保证各
    发表于 09-19 14:28

    深开鸿王成录出席深圳哈工大计算机学部校友会主办的“开源软件与信创科技”论坛

    为了推动中国开源软件、信创科技发展,培养操作系统软件人才,8月13日,深圳哈工大计算学部校友会2023年会暨“开源软件与信创科技”论坛在深圳隆重举办,来自高校和企业的专家、学者汇聚一堂,围绕
    的头像 发表于 08-17 09:31 345次阅读
    深开鸿王成录出席深圳<b class='flag-5'>哈工大</b>计算机学部校友会主办的“开源软件与信创科技”论坛

    深开鸿王成录出席深圳哈工大主办的“开源软件与信创科技”论坛

    为了推动中国开源软件、信创科技发展,培养操作系统软件人才,8月13日,深圳哈工大计算学部校友会2023年会暨”开源软件与信创科技“论坛在深圳隆重举办,来自高校和企业的专家、学者汇聚一堂,围绕
    的头像 发表于 08-15 18:45 435次阅读

    深开鸿王成录出席深圳哈工大计算机学部校友会主办的“开源软件与信创科技”论坛

    为了推动中国开源软件、信创科技发展,培养操作系统软件人才,8月13日,深圳哈工大计算学部校友会2023年会暨“开源软件与信创科技”论坛在深圳隆重举办,来自高校和企业的专家、学者汇聚一堂,围绕
    的头像 发表于 08-14 20:35 637次阅读

    同心致远,向新而行——忆联·联想·联宝联合实验室成立三周年!

    8月8日,以“同心致远,向新而行”为主题的忆联·联想·联宝联合实验室成立三周年暨通过ISO 9001认证庆典在合肥举行。三方代表共聚一堂,一同见证联合实验室成立3年来的丰硕成果。 携手
    的头像 发表于 08-09 18:15 506次阅读
    同心致远,向新而行——忆联·联想·联宝<b class='flag-5'>联合</b><b class='flag-5'>实验室</b>成立三周年!

    飞腾基础软件联合实验室将推动合作资源共享

    7月13日,飞腾基础软件联合实验室(简称“实验室”)第二届年会暨技术交流分享会在北京顺利召开。飞腾公司副总经理郭御风博士、大唐高鸿信安总经理郑驰、实验室专家委员会委员,以及
    的头像 发表于 07-14 11:05 506次阅读

    矽电-泰克晶圆级探针测试测量联合实验室正式成立

    泰克科技(中国)有限公司和矽电半导体设备(深圳)股份有限公司战略合作发布会在深圳创投大厦矽电总部召开,同一时间,泰克(中国)和矽电半导体宣布测试测量联合实验室正式成立。
    的头像 发表于 06-16 10:09 1032次阅读
    矽电-泰克晶圆级探针测试测量<b class='flag-5'>联合</b><b class='flag-5'>实验室</b>正式成立

    PyTorch教程-15.9。预训练 BERT 的数据集

    实验室在 SageMaker Studio Lab 中打开笔记本 为了预训练第 15.8 节中实现的 BERT 模型,我们需要以理想的格式生成数据集,以促进两项预
    的头像 发表于 06-05 15:44 547次阅读

    PyTorch教程15.9之预训练BERT的数据集

    电子发烧友网站提供《PyTorch教程15.9之预训练BERT的数据集.pdf》资料免费下载
    发表于 06-05 11:06 0次下载
    PyTorch教程15.9之预<b class='flag-5'>训练</b><b class='flag-5'>BERT</b>的数据集

    PyTorch教程15.10之预训练BERT

    电子发烧友网站提供《PyTorch教程15.10之预训练BERT.pdf》资料免费下载
    发表于 06-05 10:53 0次下载
    PyTorch教程15.10之预<b class='flag-5'>训练</b><b class='flag-5'>BERT</b>