0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

BERT是一种用于自然语言处理的先进神经网络方法

倩倩 来源:互联网分析沙龙 作者:互联网分析沙龙 2020-12-13 10:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在一篇新论文中,Frankle及其同事发现了潜伏在BERT中的此类子网,BERT是一种用于自然语言处理(NLP)的先进神经网络方法。作为人工智能的一个分支,NLP旨在通过预测文本生成或在线聊天机器人等应用程序来解密和分析人类语言。在计算方面,BERT体积庞大,通常需要大多数用户无法获得的超级计算能力。从而可能使更多用户在智能手机上开发有效的NLP工具。

弗兰克勒说:“我们正在达到必须使这些模型更精简,更高效的地步。”他补充说,这一进步有一天可能会“减少NLP的准入门槛”。

麻省理工学院计算机科学与人工智能实验室的迈克尔·卡宾小组的博士生Frankle是该研究的共同作者,该研究将于下个月在神经信息处理系统会议上发表。德克萨斯大学奥斯汀分校的陈天龙是该论文的主要作者,其中包括得克萨斯州A&M的合作者Wang Zhangyang Wang,以及所有MIT-IBM Watson AI Lab的常石宇,刘思佳和张扬。

您今天可能已经与BERT网络进行了互动。这是Google搜索引擎的基础技术之一,自Google于2018年发布BERT以来,它一直引起研究人员的兴奋。BERT是一种创建神经网络的方法-使用分层节点或“神经元”的算法来学习执行通过培训大量实例来完成一项任务。

BERT是通过反复尝试填写写作段落中遗漏的单词来进行训练的,它的功能在于此初始训练数据集的庞大大小。然后,用户可以将BERT的神经网络微调至特定任务,例如构建客户服务聊天机器人。但是争吵的BERT需要大量的处理能力。

弗兰克尔说:“如今,标准的BERT模型-园林品种-具有3.4亿个参数,”他补充说,这个数字可以达到10亿。对如此庞大的网络进行微调可能需要一台超级计算机。“这简直太贵了。这远远超出了您或我的计算能力。”

为了削减计算成本,Chen和他的同事试图找出隐藏在BERT中的较小模型。他们通过迭代修剪整个BERT网络的参数进行了实验,然后将新子网的性能与原始BERT模型的性能进行了比较。他们对一系列NLP任务进行了此比较,从回答问题到填充句子中的空白词。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4840

    浏览量

    108143
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14712
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自然语言处理NLP的概念和工作原理

    自然语言处理 (NLP) 是人工智能 (AI) 的个分支,它会教计算机如何理解口头和书面形式的人类语言自然语言
    的头像 发表于 01-29 14:01 565次阅读
    <b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>NLP的概念和工作原理

    神经网络的初步认识

    如今在机器学习的领域中,有许多方法可以用来解决特定的问题,例如房价预测、邮件分类、文件压缩等。而与我们日常生活关系最密切的应用莫过于计算机视觉(如学校门禁系统)和自然语言处理(如Siri)。这些
    的头像 发表于 12-17 15:05 448次阅读
    <b class='flag-5'>神经网络</b>的初步认识

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环
    的头像 发表于 11-19 18:17 2441次阅读

    自动驾驶中常提的卷积神经网络是个啥?

    在自动驾驶领域,经常会听到卷积神经网络技术。卷积神经网络,简称为CNN,是一种专门用来处理网格状数据(比如图像)的深度学习模型。CNN在图像处理
    的头像 发表于 11-19 18:15 2231次阅读
    自动驾驶中常提的卷积<b class='flag-5'>神经网络</b>是个啥?

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知
    的头像 发表于 11-10 17:30 895次阅读
    云知声论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会EMNLP 2025

    NMSIS神经网络库使用介绍

    NMSIS NN 软件库是组高效的神经网络内核,旨在最大限度地提高 Nuclei N 处理器内核上的神经网络的性能并最​​大限度地减少其内存占用。 该库分为多个功能,每个功能涵盖特定
    发表于 10-29 06:08

    在Ubuntu20.04系统中训练神经网络模型的些经验

    模型。 我们使用MNIST数据集,训练个卷积神经网络(CNN)模型,用于手写数字识别。旦模型被训练并保存,就可以用于对新图像进行推理和预
    发表于 10-22 07:03

    CICC2033神经网络部署相关操作

    在完成神经网络量化后,需要将神经网络部署到硬件加速器上。首先需要将所有权重数据以及输入数据导入到存储器内。 在仿真环境下,可将其存于个文件,并在 Verilog 代码中通过 readmemh 函数
    发表于 10-20 08:00

    液态神经网络(LNN):时间连续性与动态适应性的神经网络

    1.算法简介液态神经网络(LiquidNeuralNetworks,LNN)是一种新型的神经网络架构,其设计理念借鉴自生物神经系统,特别是秀丽隐杆线虫的
    的头像 发表于 09-28 10:03 1523次阅读
    液态<b class='flag-5'>神经网络</b>(LNN):时间连续性与动态适应性的<b class='flag-5'>神经网络</b>

    神经网络的并行计算与加速技术

    问题。因此,并行计算与加速技术在神经网络研究和应用中变得至关重要,它们能够显著提升神经网络的性能和效率,满足实际应用中对快速响应和大规模数据处理的需求。神经网络并行
    的头像 发表于 09-17 13:31 1279次阅读
    <b class='flag-5'>神经网络</b>的并行计算与加速技术

    小白学大模型:国外主流大模型汇总

    )领域。论文的核心是提出了一种名为Transformer的全新模型架构,它完全舍弃了以往序列模型(如循环神经网络RNNs和卷积神经网络CNNs)中常用的循环和卷积结构
    的头像 发表于 08-27 14:06 1136次阅读
    小白学大模型:国外主流大模型汇总

    无刷电机小波神经网络转子位置检测方法的研究

    摘要:论文通过对无刷电机数学模型的推导,得出转角:与三相相电压之间存在映射关系,因此构建了个以三相相电压为输人,转角为输出的小波神经网络来实现转角预测,并采用改进遗传算法来训练网络结构与参数,借助
    发表于 06-25 13:06

    神经网络专家系统在电机故障诊断中的应用

    摘要:针对传统专家系统不能进行自学习、自适应的问题,本文提出了基于网络专家系统的并步电机故障诊断方法。本文将小波神经网络和专家系统相结合,充分发挥了二者故障诊断的优点,很大程度上降
    发表于 06-16 22:09

    神经网络RAS在异步电机转速估计中的仿真研究

    众多方法中,由于其结构简单,稳定性好广泛受到人们的重视,且已被用于产品开发。但是MRAS仍存在在低速区速度估计精度下降和对电动机参数变化非常敏感的问题。本文利用神经网络的特点,使估计更为简单、快速
    发表于 06-16 21:54

    基于FPGA搭建神经网络的步骤解析

    本文的目的是在神经网络已经通过python或者MATLAB训练好的神经网络模型,将训练好的模型的权重和偏置文件以TXT文件格式导出,然后通过python程序将txt文件转化为coe文件,(coe
    的头像 发表于 06-03 15:51 1486次阅读
    基于FPGA搭建<b class='flag-5'>神经网络</b>的步骤解析