0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型

WpOh_rgznai100 来源:lq 2019-07-18 14:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中文BERT预训练模型。我们在多个中文数据集上得到了较好的结果,覆盖了句子级到篇章级任务。同时,我们对现有的中文预训练模型进行了对比,并且给出了若干使用建议。我们欢迎大家下载试用。

下载地址:https://github.com/ymcui/Chinese-BERT-wwm

技术报告:https://arxiv.org/abs/1906.08101

摘要

基于Transformers的双向编码表示(BERT)在多个自然语言处理任务中取得了广泛的性能提升。近期,谷歌发布了基于全词覆盖(Whold Word Masking)的BERT预训练模型,并且在SQuAD数据中取得了更好的结果。应用该技术后,在预训练阶段,同属同一个词的WordPiece会被全部覆盖掉,而不是孤立的覆盖其中的某些WordPiece,进一步提升了Masked Language Model (MLM)的难度。在本文中我们将WWM技术应用在了中文BERT中。我们采用中文维基百科数据进行了预训练。该模型在多个自然语言处理任务中得到了测试和验证,囊括了句子级到篇章级任务,包括:情感分类,命名实体识别,句对分类,篇章分类,机器阅读理解。实验结果表明,基于全词覆盖的中文BERT能够带来进一步性能提升。同时我们对现有的中文预训练模型BERT,ERNIE和本文的BERT-wwm进行了对比,并给出了若干使用建议。预训练模型将发布在:https://github.com/ymcui/Chinese-BERT-wwm

简介

Whole Word Masking (wwm),暂翻译为全词Mask,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个词缀,在生成训练样本时,这些被分开的词缀会随机被[MASK]替换。在全词Mask中,如果一个完整的词的部分WordPiece被[MASK]替换,则同属该词的其他部分也会被[MASK]替换,即全词Mask。

同理,由于谷歌官方发布的BERT-base(Chinese)中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词(CWS)。我们将全词Mask的方法应用在了中文中,即对组成同一个词的汉字全部进行[MASK]。该模型使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大语言技术平台LTP(http://ltp.ai)作为分词工具。

下述文本展示了全词Mask的生成样例。

基线测试结果

我们选择了若干中文自然语言处理数据集来测试和验证预训练模型的效果。同时,我们也对近期发布的谷歌BERT,百度ERNIE进行了基准测试。为了进一步测试这些模型的适应性,我们特别加入了篇章级自然语言处理任务,来验证它们在长文本上的建模效果。

以下是我们选用的基准测试数据集。

我们列举其中部分实验结果,完整结果请查看我们的技术报告。为了确保结果的稳定性,每组实验均独立运行10次,汇报性能最大值和平均值(括号内显示)。

▌中文简体阅读理解:CMRC 2018

CMRC 2018是哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。

▌中文繁体阅读理解:DRCD

DRCD数据集由中国***台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。

▌中文命名实体识别:人民日报,MSRA-NER

中文命名实体识别(NER)任务中,我们采用了经典的人民日报数据以及微软亚洲研究院发布的NER数据。

▌句对分类:LCQMC,BQ Corpus

LCQMC以及BQ Corpus是由哈尔滨工业大学(深圳)发布的句对分类数据集。

▌篇章级文本分类:THUCNews

由清华大学自然语言处理实验室发布的新闻数据集,需要将新闻分成10个类别中的一个。

使用建议

基于以上实验结果,我们给出以下使用建议(部分),完整内容请查看我们的技术报告。

初始学习率是非常重要的一个参数(不论是BERT还是其他模型),需要根据目标任务进行调整。

ERNIE的最佳学习率和BERT/BERT-wwm相差较大,所以使用ERNIE时请务必调整学习率(基于以上实验结果,ERNIE需要的初始学习率较高)。

由于BERT/BERT-wwm使用了维基百科数据进行训练,故它们对正式文本建模较好;而ERNIE使用了额外的百度百科、贴吧、知道等网络数据,它对非正式文本(例如微博等)建模有优势。

在长文本建模任务上,例如阅读理解、文档分类,BERT和BERT-wwm的效果较好。

如果目标任务的数据和预训练模型的领域相差较大,请在自己的数据集上进一步做预训练。

如果要处理繁体中文数据,请使用BERT或者BERT-wwm。因为我们发现ERNIE的词表中几乎没有繁体中文。

声明

虽然我们极力的争取得到稳定的实验结果,但实验中难免存在多种不稳定因素(随机种子,计算资源,超参),故以上实验结果仅供学术研究参考。由于ERNIE的原始发布平台是PaddlePaddle(https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),我们无法保证在本报告中的效果能反映其真实性能(虽然我们在若干数据集中复现了效果)。同时,上述使用建议仅供参考,不能作为任何结论性依据。

该项目不是谷歌官方发布的中文Whole Word Masking预训练模型。

总结

我们发布了基于全词覆盖的中文BERT预训练模型,并在多个自然语言处理数据集上对比了BERT、ERNIE以及BERT-wwm的效果。实验结果表明,在大多数情况下,采用了全词覆盖的预训练模型(ERNIE,BERT-wwm)能够得到更优的效果。由于这些模型在不同任务上的表现不一致,我们也给出了若干使用建议,并且希望能够进一步促进中文信息处理的研究与发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26284
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14753

原文标题:刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    沐曦股份联合上海人工智能实验室发布高性能GPU算子生成系统Kernel-Smith

    近日,上海人工智能实验室和沐曦股份联合发布了高性能GPU算子生成系统—— Kernel-Smith。
    的头像 发表于 04-08 15:39 412次阅读
    沐曦股份<b class='flag-5'>联合</b>上海人工智能<b class='flag-5'>实验室</b><b class='flag-5'>发布</b>高性能GPU算子生成系统Kernel-Smith

    3年10亿,携手攻坚:“AI计算开放架构联合实验室”协同创新计划正式启动

    在刚刚结束的光合组织2025人工智能创新大会(HAIC2025)上,一项项助力中国AI产业发展、推动产业底层协同等的关键举措逐一发布,包括30余家生态企业联合发起的“AI计算开放架构联合实验室
    发表于 12-21 16:15 2493次阅读
    3年10亿,携手攻坚:“AI计算开放架构<b class='flag-5'>联合</b><b class='flag-5'>实验室</b>”协同创新计划正式启动

    江波龙与华曦达联合创新实验室揭牌,共建AI存储创新生态

    切入点,旨在构建覆盖端侧AI设备与智能家庭场景的技术验证体系。实验室秉承开源协作理念,致力于解决存储与AI终端适配中的关键痛点,形成从联合调试、场景验证到可靠性评估的流程
    的头像 发表于 12-05 13:36 1662次阅读
    江波龙与华曦达<b class='flag-5'>联合</b>创新<b class='flag-5'>实验室</b>揭牌,共建AI存储创新生态

    北京化工大学与昱栎技术联合实验室正式揭牌

    2025年11月14日上午,北京化工大学信息科学与技术学院与北京昱栎技术有限公司(以下简称“昱栎技术”)共同设立的“人工智能终端校企联合实验室”在昱栎技术正式揭牌。这一重要时刻标志着双方在产学研协同
    的头像 发表于 11-18 15:50 776次阅读
    北京化<b class='flag-5'>工大</b>学与昱栎技术<b class='flag-5'>联合</b><b class='flag-5'>实验室</b>正式揭牌

    中国汽研与国芯科技成立未来车芯验证转化联合实验室

    与中国质量认证中心、中认百链的“中国芯”联合研究实验室,以及与国芯科技的未来车芯验证转化联合实验室重磅发布,标志着中国汽研在车规芯片领域的能
    的头像 发表于 11-14 17:32 1572次阅读

    科大发布星火X1.5及系列AI产品

    11月6日,第八届世界声博会暨2025科大全球1024开发者节发布会上,科大以《更懂你的AI》为主题
    的头像 发表于 11-10 11:49 1241次阅读

    强强联合:之江实验室与沐曦股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工智能算力基础设施创新发展 。之江实验
    的头像 发表于 10-23 10:50 1652次阅读

    光峰科技与深圳技术大学签署联合实验室合作协议

    10月16日,光峰科技公告官宣,与深圳技术大学拟签署《光峰科技与深圳技术大学联合实验室合作协议》,围绕半导体激光前沿领域进行合作研发,共同建立联合实验室,预计在协议有效期的6年内,向
    的头像 发表于 10-17 17:32 1638次阅读

    东风汽车与华为联合创新实验室揭牌

    近日,在2025年华为联接大会制造与大企业全球峰会汽车行业分论坛上,东风汽车与华为联合创新实验室正式揭牌,这是继2025年5月23日双方战略合作协议签署后又一重要里程碑,标志着双方的合作迈上了一个新台阶,双方将以促进汽车全价值
    的头像 发表于 09-23 18:04 1216次阅读

    华为星辰联合创新实验室揭牌成立

    以“跃升行业智能化”为主题的华为联接大会2025在上海举行。大会期间,华为“星辰·联合创新实验室”在深圳市人才集团有限公司(以下简称“深圳人才集团”)正式揭牌成立。
    的头像 发表于 09-20 09:48 1592次阅读

    传音控股与DXOMARK联合影像实验室落成

    近日,传音控股与国际权威影像评测机构DXOMARK联合打造的影像实验室在传音重庆研发中心正式落成启用,这是行业首个基于DXOMARK第六版智能手机影像测试基准,打造的全自动化客观影像测评实验室。这一
    的头像 发表于 09-02 10:51 1106次阅读

    高鸿信安出席飞腾基础软件联合实验室第四届年会

    近日,以 “芯软融合·智启未来”为主题的飞腾基础软件联合实验室(简称 “实验室”)第四届年会暨技术交流分享会在南京顺利召开。大唐高鸿信安(浙江)信息科技有限公司(简称“高鸿信安”)作为实验室
    的头像 发表于 07-16 15:08 1140次阅读

    飞腾基础软件联合实验室第四届年会暨技术交流分享会顺利召开

    近日,以 “芯软融合·智启未来” 为主题的飞腾基础软件联合实验室(简称 “实验室” )第四届年会暨技术交流分享会在南京顺利召开。活动旨在进一步凝聚实验室成员单位、深化协作,在基础软件
    的头像 发表于 07-16 10:01 1200次阅读

    爱普生与南山电子晶体电路评估联合测试实验室成立

    2025年6月,爱普生电子元器件事业部总经理程伟民率队亲临江苏南山电子工业有限公司,为“爱普生-南山晶体电路评估联合测试实验室”授牌。该实验室的正式运营,标志着爱普生和南山电子迈入了更紧密的合作阶段。
    的头像 发表于 07-07 17:50 1310次阅读

    奥迪威携手华南理工大学共建联合创新实验室,校企深度合作助力产业升级

    2025年5月21日,广东奥迪威传感科技股份有限公司与华南理工大学联合设立的创新实验室正式揭牌。
    的头像 发表于 05-23 08:48 2091次阅读
    奥迪威携手华南理<b class='flag-5'>工大</b>学共建<b class='flag-5'>联合</b>创新<b class='flag-5'>实验室</b>,校企深度合作助力产业升级