0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型训练和部署的关键技术

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-05-30 13:56 次阅读

电子发烧友网报道(文/李弯弯)ChatGPT的出现让大模型迅速出圈,事实上,在过去这些年中,模型规模在快速提升。数据显示,自2016年至今,模型大小每18个月增长40倍,自2019年到现在,更是每18个月增长340倍。

然而相比之下,硬件增长速度较慢,自2016年至今,GPU的性能增长每18个月1.7倍,模型大小和硬件增长的差距逐渐扩大。显存占用大、算力消费大、成本高昂等瓶颈严重阻碍AIGC行业的快速发展。在此背景下,潞晨科技创始人尤洋认为,分布式训练势在必行。

图:潞晨科技创始人尤洋演讲


基础大模型结构为模型训练提供了基础架构

其一、Google首创的Transformer大模型,是现在所有大模型最基础的架构。现在Transformer已经成为除了MLP、CNN、RNN以外第四种最重要的深度学习算法架构。

其二、Google发布的首个预大模型BERT,从而引爆了预练大横型的潮流和的势,BERT强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言横型进行浅层拼接的方法进行预认训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。

其三、ViT Google提出的首个使用Transformert的视觉大模型,ViT作为视觉转换器的使用,而不是CNN威混合方法来执行图像任务,作者假设进一步的预认训练可以提高性能,因为与其他现有技术模型相比,ViT具有相对可扩展性。

其四、Google将Transformer中的Feedforward Network(FFN)层替换成了MoE层,并且将MoE层和数据并行巧妙地结合起来,在数据并行训练时,模型在训练集群中已经被复制了若干份,通过在多路数据并行中引入Al-to-Al通信来实现MoE的功能。

在这些基础大模型结构之上,过去这些年,在大模型的发展历程中,出现了几个具有里程碑意义性的大模型包括GPT-3、T5、Swin Transformer、Switch Transformer。

GPT-3:OpenAI发布的首个百亿规模的大模型,应该非常具有开创性意义,现在的大模型都是对标GPT-3,GPT-3依旧延续自己的单向语言模型认训练方式,只不过这次把模型尺寸增大到了1750亿,并且使用45TB数据进行训练。

T5(Text-To-Text Transfer Transformer):Google T5将所有NLP任务都转化成Text-to-Text(文本到文本)任务。它最重要作用给整个NLP预训型领城提供了一个通用框架,把所有任务都转化成一种形式。

Swin Transformer:微软亚研提出的Swin Transformer的新型视觉Transformer,它可以用作计算机视的通用backbone。在个领域之同的差异,例如视觉实体尺度的巨大差异以及与文字中的单词相比,图像中像素的高分率,带来了使Transformer从语言适应视觉方面的挑战。

超过万亿规模的稀疏大模型Switch Transformer:能够训练包含超过一万亿个参数的语言模型的技术,直接将参数量从GPT-3的1750亿拉高到1.6万亿,其速度是Google以前开发的语言模型T5-XXL的4倍。

另外,更具里程碑意义的大模型,在Pathways上实现的大预言模型PaLM。

分布式框架Pathways:Pathways的很多重要思想来源于现有系统,包括用于表达和执行TPU计算的XLA、用于表征和执行分布式CPU计算的TensorFlow图和执行器、基于Python编程框架的JAX以及TensorFlowAPL,通过有效地使用这些模块,Pathways不需要对现有横型进行很多改动就能运行。

PaLM模型:PaLM吸引人眼球的是该模型具有5400亿参数以及果用新一代AI框架Pathways训练。模型结构也给出了很多方面优化,这些技术优化工作汲取了现有突出的研究成果,具体包括SwiGLU激活函数代替ReLU、层并行技术(Parallel Layers)、多查询注意力(Multi-Query Attention),旋转位置编码(RoPE)、共享输入和输出词嵌入、去掉偏置参数(No Biases)等。


PaLM模型也是通过堆叠Transformer中的Decoder部分而成,该模型具有5400亿参数以及采用新一代AI框架Pathways训练。

大规模分布式训练当前主要技术路线

大规模分布式训练当前主要技术路线——并行训练技术。分布式训练并行技术即通过在训练过程中使用GPU集群(多机多卡)来提高神经网络的训练速度。

数据并行:相同的设置和模型被复制多份,每份每次都被馈送不同的一份数据,处理是并行完成的,所有份在每个训练步结束时同步。

张量并行:每个张量都被分成多个块,因此张量的每个分片都位于其指定的GPU上,在处理过程中,每个分片在不同的GPU上分别并行处理,结果在步骤结束时同步。

流水线并行:模型在多个GPU上垂直(即按量)拆分,因此只有一个或多个模型层放置在单个GPU上,每个GPU并行处理流水线的不同阶段,并处理batch的一部分数据。


潞晨科技成立于2021年,是一家致力于“解放AI生产力”的全球性公司。主要业务是通过打造分布式AI开发和部署平台,帮助企业降低大模型的落地成本,提升训练、推理效率。

潞晨开源的智能系统架构Colossal-AI技术,有两大特性:一是最小化部署成本,Colossal-AI 可以显著提高大规模AI模型训练和部署的效率。仅需在笔记本电脑上写一个简单的源代码,Colossal-AI 便可自动部署到云端和超级计算机上。

通常训练大模型 (如GPT-3) 需要 100 多个GPU,而使用Colossal-AI仅需一半的计算资源。即使在低端硬件条件下,Colossal-AI也可以训练2-3倍的大模型。

二是最大化计算效率,在并行计算技术支持下,Colossal-AI在硬件上训练AI模型,性能显著提高。潞晨开源的目标是提升训练AI大模型速度10倍以上。

小结

如今,全球众多科技企业都在研究大模型,然而大模型的训练和部署对硬件也有极高的要求,高昂的硬件需求和训练成本是当前亟待解决的问题。可见,除了OpenAI、谷歌、百度、阿里等致力于大模型研究企业,以及英伟达等提供硬件的企业之外,潞晨科技这类提供微调,致力于提升大模型训练和部署效率、降低成本的企业,也值得关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1101
收藏 人收藏

    评论

    相关推荐

    百度首席技术官王海峰解读文心大模型关键技术和最新进展

    4月16日,以“创造未来”为主题的Create 2024百度AI开发者大会在深圳国际会展中心成功举办。百度首席技术官王海峰以“技术筑基,星河璀璨”为题,发表演讲,解读了智能体、代码、多模型等多项文心大
    的头像 发表于 04-18 09:20 234次阅读
    百度首席<b class='flag-5'>技术</b>官王海峰解读文心大<b class='flag-5'>模型</b>的<b class='flag-5'>关键技术</b>和最新进展

    盘点一下史上最全大语言模型训练中的网络技术

    人工智能的基础设施在大语言模型训练和推理过程中发挥了关键的作用。随着大语言模型规模不断增大,其对计算和通信的需求也在不断增加。高
    的头像 发表于 03-27 17:24 385次阅读
    盘点一下史上最全大语言<b class='flag-5'>模型</b><b class='flag-5'>训练</b>中的网络<b class='flag-5'>技术</b>

    谷歌模型训练软件有哪些?谷歌模型训练软件哪个好?

    谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。
    的头像 发表于 03-01 16:24 278次阅读

    光伏逆变器拓扑概述及关键技术

    光伏逆变器拓扑概述及关键技术
    的头像 发表于 02-21 09:47 267次阅读
    光伏逆变器拓扑概述及<b class='flag-5'>关键技术</b>

    【爱芯派 Pro 开发板试用体验】人体姿态估计模型部署前期准备

    movenet网络模型,但是笔者训练模型出现了一点问题,感觉输出总是差距较大,准确度不太高,也正在排查原因: 后续笔者先尝试将openpose/lightweight openpose部署
    发表于 01-01 01:04

    【爱芯派 Pro 开发板试用体验】模型部署(以mobilenetV2为例)

    的,只不过主角这次换成了pulsar2: 1、先在服务器上训练好网络模型,并以一个通用的中间形式导出(通常是onnx) 2、根据你要使用的推理引擎进行离线转换,把onnx转换成你的推理引擎能部署
    发表于 12-10 16:34

    物联网关键技术和应用

    电子发烧友网站提供《物联网关键技术和应用.pdf》资料免费下载
    发表于 11-28 10:37 0次下载
    物联网<b class='flag-5'>关键技术</b>和应用

    实现IPTV成功部署关键技术分析

    电子发烧友网站提供《实现IPTV成功部署关键技术分析.doc》资料免费下载
    发表于 11-10 14:42 0次下载
    实现IPTV成功<b class='flag-5'>部署</b>的<b class='flag-5'>关键技术</b>分析

    百度知识增强大语言模型关键技术荣获“2023世界互联网大会领先科技奖”

    11月8日,2023年世界互联网大会乌镇峰会正式开幕,今年是乌镇峰会举办的第十年,本次峰会的主题为“建设包容、普惠、有韧性的数字世界——携手构建网络空间命运共同体”。百度知识增强大语言模型关键技术
    的头像 发表于 11-09 11:02 329次阅读

    视觉导航关键技术及应用

    由于视觉导航技术的应用越来越普及 ,因此 ,有必要对视觉导航中的关键技术及应用进行研究。文章对其中的图像处理技术和定位与跟踪技术进行了详细研究 ,并与此相对应 ,介绍的相关的应用。
    发表于 09-25 08:09

    面向OpenHarmony终端的密码安全关键技术

    本文转载自 OpenHarmony TSC 官方​[​《峰会回顾第17期 | 面向OpenHarmony终端的密码安全关键技术》​]​ 演讲嘉宾 | 何道敬 回顾整理 | 廖涛 排版校对 | 李萍萍
    发表于 09-13 19:20

    使用OpenVINO优化并部署训练好的YOLOv7模型

    在《英特尔锐炫 显卡+ oneAPI 和 OpenVINO 实现英特尔 视频 AI 计算盒训推一体-上篇》一文中,我们详细介绍基于英特尔 独立显卡搭建 YOLOv7 模型训练环境,并完成了 YOLOv7 模型
    的头像 发表于 08-25 11:08 919次阅读
    使用OpenVINO优化并<b class='flag-5'>部署</b><b class='flag-5'>训练</b>好的YOLOv7<b class='flag-5'>模型</b>

    轮毂电机及电动轮关键技术是什么

    轮毂电机的研发、产业化和整车应用为全球技术竞争的焦点和研究热点。十三五和十四五期间,国家“新能源汽车”试点专项持续推动轮毂电机相关课题的研究,如2017年分布式纯电动轿车底盘开发(重大共性关键技术
    发表于 08-17 10:01 435次阅读
    轮毂电机及电动轮<b class='flag-5'>关键技术</b>是什么

    如何使用TensorFlow将神经网络模型部署到移动或嵌入式设备上

    有很多方法可以将经过训练的神经网络模型部署到移动或嵌入式设备上。不同的框架在各种平台上支持Arm,包括TensorFlow、PyTorch、Caffe2、MxNet和CNTK,如Android
    发表于 08-02 06:43

    利用OpenVINO™部署HuggingFace预训练模型的方法与技巧

    作为深度学习领域的 “github”,HuggingFace 已经共享了超过 100,000 个预训练模型
    的头像 发表于 05-19 15:57 597次阅读
    利用OpenVINO™<b class='flag-5'>部署</b>HuggingFace预<b class='flag-5'>训练</b><b class='flag-5'>模型</b>的方法与技巧