0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

1024块TPU在燃烧!将BERT预训练模型的训练时长从3天缩减到了76分钟

电子工程师 来源:lp 2019-04-04 16:27 次阅读

“Jeff Dean称赞,TensorFlow官方推特支持,BERT目前工业界最耗时的应用,计算量远高于ImageNet。我们将BERT的训练时间从三天缩短到了一小时多。”UC Berkeley大学在读博士尤洋如是说道。

近日,来自Google、UC Berkeley、UCLA研究团队再度合作,成功燃烧1024块TPU,将BERT预训练模型的训练时长从3天缩减到了76分钟。batch size技术是加速神经网络训练的关键,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”这篇论文中,作者提出了LAMB优化器,它支持自适应元素更新和分层校正。

论文传送门:https://arxiv.org/pdf/1904.00962.pdf

论文摘要:batch size增加到很大时的模型训练是加速大型分布式系统中深度神经网络训练的关键。但是,这种模型训练很难,因为它会导致一种泛化差距。直接优化通常会导致测试集上的准确性下降。

BERT是一种先进的深度学习模型,它建立在语义理解的深度双向转换器上。当我们增加batch size的大小(如超过8192)时,此前的模型训练技巧在BERT上表现得并不好。BERT预训练也需要很长时间才能完成,如在16个TPUv3上大约需要三天。

为了解决这个问题,我们提出了LAMB优化器,可将batch size扩展到65536,且不会降低准确率。LAMB是一个通用优化器,batch size大小均使用,且除了学习率之外不需要别的参数调整。

基线BERT-Large模型需要100万次迭代才能完成预训练,而batch size大小为65536/32768的LAMB仅需要8599次迭代。我们还将batch size进行内存限制,接近TPUv3 pod,结果可在76分钟内完成BERT训练。

据悉,该论文的一作是来自UC Berkeley计算机科学部的在读博士尤洋,同时也是Google Brain的实习生。据公开信息显示,尤洋的导师是美国科学院与工程院院士,ACM/IEEE fellow,伯克利计算机系主任,以及首批中关村海外顾问James Demmel教授。他当前的研究重点是大规模深度学习训练算法的分布式优化。2017年9月,尤洋等人的新算法以24分钟完成ImageNet训练,刷新世界纪录。

在此之前,他曾在英特尔实验室、微软研究院、英伟达、IBM沃森研究中心等机构实习。尤洋本科就读于中国农业大学计算机系,硕士保送清华大学计算机系,是一名杠杠的理工学霸!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98720
  • TPU
    TPU
    +关注

    关注

    0

    文章

    132

    浏览量

    20541
  • 深度学习
    +关注

    关注

    73

    文章

    5236

    浏览量

    119900
  • 训练模型
    +关注

    关注

    1

    文章

    35

    浏览量

    3755

原文标题:1024块TPU在燃烧!BERT训练从3天缩短到76分钟 | 技术头条

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【书籍评测活动NO.30】大规模语言模型理论到实践

    学习展开,详细介绍各阶段使用的算法、数据、难点及实践经验。 训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千高性能GPU 和高速网络组成的超级计算机,花费数十
    发表于 03-11 15:16

    谷歌模型训练软件有哪些?谷歌模型训练软件哪个好?

    谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。
    的头像 发表于 03-01 16:24 276次阅读

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是一种新的预训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且在效率上更胜一筹。
    的头像 发表于 02-29 17:37 393次阅读

    【飞腾派4G版免费试用】第三章:抓取图像,手动标注并完成自定义目标检测模型训练和测试

    自己获取素材并进行标注然后完成模型训练,本章就介绍下,如何网络抓取素材并完成佩奇的目标检测。 整个过程由如下几个部分: 抓取素材,这里我使用下面的python脚本完成 #!/bin/python
    发表于 12-16 10:05

    谷歌发布多模态Gemini大模型及新一代TPU系统Cloud TPU v5p

    谷歌亦发布新一代TPU 系统——Cloud TPU v5p,以帮助训练尖端的 AI 模型。目
    的头像 发表于 12-12 10:50 801次阅读
    谷歌发布多模态Gemini大<b class='flag-5'>模型</b>及新一代<b class='flag-5'>TPU</b>系统Cloud <b class='flag-5'>TPU</b> v5p

    【KV260视觉入门套件试用体验】Vitis AI 通过迁移学习训练自定义模型

    学习的方法,训练的resnet18模型原来的1000类分类任务,改造为适应自定义的30类分类任务。 ResNet18介绍 ResNet
    发表于 10-16 15:03

    TPU-MLIR之量化感知训练

    TPU-MLIR之量化感知训练(上)
    的头像 发表于 08-21 10:47 505次阅读
    <b class='flag-5'>TPU</b>-MLIR之量化感知<b class='flag-5'>训练</b>

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    如何使用TensorFlow神经网络模型部署到移动或嵌入式设备上

    .使用TensorFlow的transform_graph工具生成一个优化的8位模型,该模型效率更高,但精度较低。 4.设备上对优化的模型进行基准测试,并选择最符合您部署需求的
    发表于 08-02 06:43

    PyTorch教程-15.9。预训练 BERT 的数据集

    实验室在 SageMaker Studio Lab 中打开笔记本 为了预训练第 15.8 节中实现的 BERT 模型,我们需要以理想的格式生成数据集,以促进两项预训练任务:掩码语言
    的头像 发表于 06-05 15:44 551次阅读

    PyTorch教程15.9之预训练BERT的数据集

    电子发烧友网站提供《PyTorch教程15.9之预训练BERT的数据集.pdf》资料免费下载
    发表于 06-05 11:06 0次下载
    PyTorch教程15.9之预<b class='flag-5'>训练</b><b class='flag-5'>BERT</b>的数据集

    PyTorch教程15.10之预训练BERT

    电子发烧友网站提供《PyTorch教程15.10之预训练BERT.pdf》资料免费下载
    发表于 06-05 10:53 0次下载
    PyTorch教程15.10之预<b class='flag-5'>训练</b><b class='flag-5'>BERT</b>

    如何跳过SPL中的ddr训练

    我正在优化启动速度,ddr 训练 SPL 中需要 360ms,所以我想跳过它。 我厌倦了 ddr 训练后注意 ddrphy_trained_csr[] 和 g_cdd_max[],
    发表于 06-01 08:16

    调教LLaMA类模型没那么难,LoRA将模型微调缩减到几小时

    最近几个月,ChatGPT 等一系列大语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿参数模型训练的机构却寥寥无几。
    的头像 发表于 05-28 10:58 1335次阅读
    调教LLaMA类<b class='flag-5'>模型</b>没那么难,LoRA将<b class='flag-5'>模型</b>微调<b class='flag-5'>缩减到</b>几小时

    什么是预训练AI模型

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,也可以根据不同行业的应用需求进行自定义。
    的头像 发表于 05-25 17:10 633次阅读