0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型

WpOh_rgznai100 来源:lq 2019-07-18 14:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中文BERT预训练模型。我们在多个中文数据集上得到了较好的结果,覆盖了句子级到篇章级任务。同时,我们对现有的中文预训练模型进行了对比,并且给出了若干使用建议。我们欢迎大家下载试用。

下载地址:https://github.com/ymcui/Chinese-BERT-wwm

技术报告:https://arxiv.org/abs/1906.08101

摘要

基于Transformers的双向编码表示(BERT)在多个自然语言处理任务中取得了广泛的性能提升。近期,谷歌发布了基于全词覆盖(Whold Word Masking)的BERT预训练模型,并且在SQuAD数据中取得了更好的结果。应用该技术后,在预训练阶段,同属同一个词的WordPiece会被全部覆盖掉,而不是孤立的覆盖其中的某些WordPiece,进一步提升了Masked Language Model (MLM)的难度。在本文中我们将WWM技术应用在了中文BERT中。我们采用中文维基百科数据进行了预训练。该模型在多个自然语言处理任务中得到了测试和验证,囊括了句子级到篇章级任务,包括:情感分类,命名实体识别,句对分类,篇章分类,机器阅读理解。实验结果表明,基于全词覆盖的中文BERT能够带来进一步性能提升。同时我们对现有的中文预训练模型BERT,ERNIE和本文的BERT-wwm进行了对比,并给出了若干使用建议。预训练模型将发布在:https://github.com/ymcui/Chinese-BERT-wwm

简介

Whole Word Masking (wwm),暂翻译为全词Mask,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个词缀,在生成训练样本时,这些被分开的词缀会随机被[MASK]替换。在全词Mask中,如果一个完整的词的部分WordPiece被[MASK]替换,则同属该词的其他部分也会被[MASK]替换,即全词Mask。

同理,由于谷歌官方发布的BERT-base(Chinese)中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词(CWS)。我们将全词Mask的方法应用在了中文中,即对组成同一个词的汉字全部进行[MASK]。该模型使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大语言技术平台LTP(http://ltp.ai)作为分词工具。

下述文本展示了全词Mask的生成样例。

基线测试结果

我们选择了若干中文自然语言处理数据集来测试和验证预训练模型的效果。同时,我们也对近期发布的谷歌BERT,百度ERNIE进行了基准测试。为了进一步测试这些模型的适应性,我们特别加入了篇章级自然语言处理任务,来验证它们在长文本上的建模效果。

以下是我们选用的基准测试数据集。

我们列举其中部分实验结果,完整结果请查看我们的技术报告。为了确保结果的稳定性,每组实验均独立运行10次,汇报性能最大值和平均值(括号内显示)。

▌中文简体阅读理解:CMRC 2018

CMRC 2018是哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。

▌中文繁体阅读理解:DRCD

DRCD数据集由中国***台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。

▌中文命名实体识别:人民日报,MSRA-NER

中文命名实体识别(NER)任务中,我们采用了经典的人民日报数据以及微软亚洲研究院发布的NER数据。

▌句对分类:LCQMC,BQ Corpus

LCQMC以及BQ Corpus是由哈尔滨工业大学(深圳)发布的句对分类数据集。

▌篇章级文本分类:THUCNews

由清华大学自然语言处理实验室发布的新闻数据集,需要将新闻分成10个类别中的一个。

使用建议

基于以上实验结果,我们给出以下使用建议(部分),完整内容请查看我们的技术报告。

初始学习率是非常重要的一个参数(不论是BERT还是其他模型),需要根据目标任务进行调整。

ERNIE的最佳学习率和BERT/BERT-wwm相差较大,所以使用ERNIE时请务必调整学习率(基于以上实验结果,ERNIE需要的初始学习率较高)。

由于BERT/BERT-wwm使用了维基百科数据进行训练,故它们对正式文本建模较好;而ERNIE使用了额外的百度百科、贴吧、知道等网络数据,它对非正式文本(例如微博等)建模有优势。

在长文本建模任务上,例如阅读理解、文档分类,BERT和BERT-wwm的效果较好。

如果目标任务的数据和预训练模型的领域相差较大,请在自己的数据集上进一步做预训练。

如果要处理繁体中文数据,请使用BERT或者BERT-wwm。因为我们发现ERNIE的词表中几乎没有繁体中文。

声明

虽然我们极力的争取得到稳定的实验结果,但实验中难免存在多种不稳定因素(随机种子,计算资源,超参),故以上实验结果仅供学术研究参考。由于ERNIE的原始发布平台是PaddlePaddle(https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),我们无法保证在本报告中的效果能反映其真实性能(虽然我们在若干数据集中复现了效果)。同时,上述使用建议仅供参考,不能作为任何结论性依据。

该项目不是谷歌官方发布的中文Whole Word Masking预训练模型。

总结

我们发布了基于全词覆盖的中文BERT预训练模型,并在多个自然语言处理数据集上对比了BERT、ERNIE以及BERT-wwm的效果。实验结果表明,在大多数情况下,采用了全词覆盖的预训练模型(ERNIE,BERT-wwm)能够得到更优的效果。由于这些模型在不同任务上的表现不一致,我们也给出了若干使用建议,并且希望能够进一步促进中文信息处理的研究与发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563

原文标题:刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    江波龙与华曦达联合创新实验室揭牌,共建AI存储创新生态

    切入点,旨在构建覆盖端侧AI设备与智能家庭场景的技术验证体系。实验室秉承开源协作理念,致力于解决存储与AI终端适配中的关键痛点,形成从联合调试、场景验证到可靠性评估的流程
    的头像 发表于 12-05 13:36 521次阅读
    江波龙与华曦达<b class='flag-5'>联合</b>创新<b class='flag-5'>实验室</b>揭牌,共建AI存储创新生态

    北京化工大学与昱栎技术联合实验室正式揭牌

    2025年11月14日上午,北京化工大学信息科学与技术学院与北京昱栎技术有限公司(以下简称“昱栎技术”)共同设立的“人工智能终端校企联合实验室”在昱栎技术正式揭牌。这一重要时刻标志着双方在产学研协同
    的头像 发表于 11-18 15:50 332次阅读
    北京化<b class='flag-5'>工大</b>学与昱栎技术<b class='flag-5'>联合</b><b class='flag-5'>实验室</b>正式揭牌

    强强联合:之江实验室与沐曦股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工智能算力基础设施创新发展 。之江实验
    的头像 发表于 10-23 10:50 1022次阅读

    光峰科技与深圳技术大学签署联合实验室合作协议

    10月16日,光峰科技公告官宣,与深圳技术大学拟签署《光峰科技与深圳技术大学联合实验室合作协议》,围绕半导体激光前沿领域进行合作研发,共同建立联合实验室,预计在协议有效期的6年内,向
    的头像 发表于 10-17 17:32 1177次阅读

    华为星辰联合创新实验室揭牌成立

    以“跃升行业智能化”为主题的华为联接大会2025在上海举行。大会期间,华为“星辰·联合创新实验室”在深圳市人才集团有限公司(以下简称“深圳人才集团”)正式揭牌成立。
    的头像 发表于 09-20 09:48 1001次阅读

    高鸿信安出席飞腾基础软件联合实验室第四届年会

    近日,以 “芯软融合·智启未来”为主题的飞腾基础软件联合实验室(简称 “实验室”)第四届年会暨技术交流分享会在南京顺利召开。大唐高鸿信安(浙江)信息科技有限公司(简称“高鸿信安”)作为实验室
    的头像 发表于 07-16 15:08 722次阅读

    奥迪威携手华南理工大学共建联合创新实验室,校企深度合作助力产业升级

    2025年5月21日,广东奥迪威传感科技股份有限公司与华南理工大学联合设立的创新实验室正式揭牌。
    的头像 发表于 05-23 08:48 1236次阅读
    奥迪威携手华南理<b class='flag-5'>工大</b>学共建<b class='flag-5'>联合</b>创新<b class='flag-5'>实验室</b>,校企深度合作助力产业升级

    中汽信科牵头成立汽车北斗应用联合实验室

    近日,由中汽信科牵头组建的“汽车北斗应用联合实验室”(以下简称“联合实验室”)正式通过中国产学研合作促进会评审,并获批授牌。
    的头像 发表于 03-27 15:22 842次阅读

    用PaddleNLP为GPT-2模型制作FineWeb二进制训练数据集

    ,使用PaddleNLP将FineWeb数据集中文本形式的数据,经过分词化(Tokenize),转换为大语言模型能直接使用的二进制数据,以便提升训练效果。 ChatGPT发布后,当代大
    的头像 发表于 03-21 18:24 3824次阅读
    用PaddleNLP为GPT-2<b class='flag-5'>模型</b>制作FineWeb二进制<b class='flag-5'>预</b><b class='flag-5'>训练</b>数据集

    龙芯“百芯计划”联合实验室首批高校名单揭晓

    为响应国家集成电路产业发展战略,龙芯中科于2024年9月启动“LoongArch生态联合创新实验室-百芯计划”,旨在通过校企合作模式,在全国范围选择百所高校,共建芯片联合实验室,加速自
    的头像 发表于 01-24 11:47 1280次阅读

    科大发布医疗大模型升级版

    近日,科大宣布了一项令人瞩目的计划:在2025年上半年,公司将正式发布基于星火X1的医疗大模型
    的头像 发表于 01-17 09:57 936次阅读

    科大星火大模型升级发布会回顾

    发布首个基于全国产算力平台训练的具备深度思考和推理能力的大模型——星火深度推理模型X1,
    的头像 发表于 01-16 14:51 2222次阅读

    科大发布星火X1深度推理大模型

    近日,科大宣布了一项重大突破,成功推出了当前全国产算力平台上唯一的深度推理大模型——星火X1。这款大
    的头像 发表于 01-16 10:46 1059次阅读

    科大即将发布星火深度推理模型X1

    近日,科大飞在1月7日成功举办的办公智能体产品升级发布会上,宣布了一项令人振奋的新进展。据科大官方透露,公司将于1月15日正式对外发布
    的头像 发表于 01-08 10:30 1025次阅读

    阿里云与零一万物战略合作,成立产业大模型联合实验室

    近日,阿里云与业界领先的大模型企业零一万物宣布达成模型平台业务的战略合作。此次合作的核心内容是双方将共同成立“产业大模型联合实验室”,旨在加
    的头像 发表于 01-03 11:12 798次阅读