0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超算训练大模型,不浪费一丁点计算资源

E4Life 来源:电子发烧友网 作者:周凯扬 2024-05-20 07:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)近年来,有关大语言模型(LLM)的开发非常活跃,尤其是在中国、美国等市场。以OpenAI开发的ChatGPT为例,其迅速普及极大影响了技术研发、经济系统等,为此不少国家政府也投入到LLM的计算资源整合中来,从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在超算领域,而两者的计算资源存在一定的重合,不少人开始借助超算来进行LLM的开发。

超算训练大模型的天然优势

大语言模型的训练经常会撞上GPU的内存墙,比如训练一个万亿参数的模型,就需要至少24TB的GPU内存。好在对于现代超算系统而言,GPU已经成为不可或缺的算力资源之一,不少超算的GPU规模与云服务厂商的数据中心相比,也不遑多让。以目前排名第一的Frontier超算为例,就集成了37888块AMD MI250X GPU。

美国橡树岭国家实验室的研究人员除了用Frontier完成科学计算任务以外,也使用了一部分GPU资源训练一个万亿级参数的LLM。据他们发布的论文,使用3072块MI250X GPU,他们训练了一个一万亿参数的大语言模型,这样的规模已经与OpenAI的GPT-4在同一水平线上了。

绝大多数模型的内存要求,除了来自参数量外,也来自梯度和优化器状态。尽管对大模型训练的任务进行了并行分解,美国橡树岭国家实验室的研究人员发现训练一个万亿级别的大模型还是需要14TB的内存,好在单个MI250X就拥有64GB的显存,足以满足训练要求。

富岳大模型

日前,一队日本研究员发布了富岳-LLM,一个专门针对日语能力进行加强的大语言模型,由RIKEN的超算系统富岳训练。尽管目前GPU才是训练LLM的首选硬件,而富岳超算是基于自研的Arm架构处理器构筑的,只有CPU并没有GPU。

为了在富岳上训练大语言模型,研究员们开发了分布式的训练方案,将深度学习框架Megatron-DeepSpeed移植到富岳上,从而优化Transformer模型在富岳上的性能表现。通过加速Transformer的密集矩阵乘法库,并结合三种并行化技术优化富岳的通信性能,富岳的并行训练能力得到了最大化。

富岳大模型有130亿参数,比目前已经在日本广泛使用的70亿参数模型规模还要大,尽管市面上早已出现参数更大的模型,但对于富岳超算来说,这已经是一个平衡高性能与计算资源的选择了。

除此之外,不少日本公司开发的大模型采用持续学习,采用海外开发的公开模型,用日本数据进行持续训练。而富岳大模型则是采用团队自己的数据从头开始训练的,所以在透明度和安全性上更高一筹。

富岳大模型用到了3800万个Token和富岳超算的13824个节点,其数据60%为日语,并与英语、数学运算和代码结合。该模型在人文和社会科学任务中获得了9.18的基准跑分,可以结合敬语或日语的其他特征进行自然对话。

写在最后

随着各地区纷纷开始建设超算智算资源,如何提高这些计算资源的利用率也成了关键。而训练大模型恰好需要用到如此庞大的计算资源,也有助于为各行各业提供可用大模型应用,由此看来,未来超算上大模型训练的场景也会越来越普遍。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超算
    +关注

    关注

    1

    文章

    118

    浏览量

    9499
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4964
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在Ubuntu20.04系统中训练神经网络模型些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型训练框架提高显存使用效率

    策略;理解这些策略对显存的影响,才能更好地规划训练参数,在 OOM (out of memory) 的情况下尽可能提升硬件使用效率。
    的头像 发表于 10-21 10:55 785次阅读
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>框架提高显存使用效率

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升力还是智力

    持续发展体现在: 1、收益递减 大模型的基础的需要极大的力,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。 收益递减体现在: ①模型大小 ②
    发表于 09-14 14:04

    面向万亿级参数大模型,“节点”涌现

    UniPoD系列节点产品,旨在为万亿级参数大模型训练与推理提供更强劲、更智能且更绿色的力支持。   H3C UniPoD系列节点产
    的头像 发表于 08-03 02:37 8340次阅读
    面向万亿级参数大<b class='flag-5'>模型</b>,“<b class='flag-5'>超</b>节点”涌现

    模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这
    发表于 07-03 19:43

    力网络的“神经突触”:AI互联技术如何重构分布式训练范式

    过程中,由于单个AI芯片的力提升速度无法跟上模型参数的增长速率,再加上庞大的模型参数和训练数据,已远远超出单个AI芯片甚至单台服务器的能力范围。因此,需要将数据样本和
    的头像 发表于 06-08 08:11 7075次阅读
    <b class='flag-5'>算</b>力网络的“神经突触”:AI互联技术如何重构分布式<b class='flag-5'>训练</b>范式

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的力突破

    近年来,随着千亿级参数模型的崛起,AI训练力的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶
    的头像 发表于 04-24 09:27 612次阅读

    如何高效训练AI模型?这些常用工具你必须知道!

    特定领域的中小型模型。这类模型针对垂直领域,性价比更高,在特定场景下能以较低资源实现高准确率的专项任务。例如在边缘计算领域,模型推理所需
    的头像 发表于 04-17 16:43 2239次阅读
    如何高效<b class='flag-5'>训练</b>AI<b class='flag-5'>模型</b>?这些常用工具你必须知道!

    RAKsmart智能力架构:异构计算+低时延网络驱动企业AI训练范式升级

    在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临力效率与成本的双重挑战。RAKsmart推出的智能力架构,以异构计算
    的头像 发表于 04-17 09:29 597次阅读

    力芯片的生态突围与力革命

    据的爆发式增长,大力芯片已成为科技竞争的核心领域之。   大力芯片的核心应用场景丰富多样。在人工智能训练与推理方面,大模型(如 GPT
    的头像 发表于 04-13 00:02 2610次阅读

    利用RAKsmart服务器托管AI模型训练的优势

    AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型
    的头像 发表于 03-18 10:08 523次阅读

    让大模型训练更高效,奇异摩尔用互联创新方案定义下代AI计算

      电子发烧友网报道(文/吴子鹏)近段时间以来,DeepSeek现象级爆火引发产业对大规模数据中心建设的思考和争议。在训练端,DeepSeek以开源模型通过算法优化(如稀疏计算、动态
    的头像 发表于 02-18 09:19 1918次阅读
    让大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>更高效,奇异摩尔用互联创新方案定义下<b class='flag-5'>一</b>代AI<b class='flag-5'>计算</b>

    国家平台推出AI生态加速计划

    向有需求的企业免费开放为期三个月的DeepSeek API接口使用权。DeepSeek作为国家互联网平台的重要技术成果,其满血版模型镜像已正式上线,并将通过API接口的形式,为企业提供强大的AI
    的头像 发表于 02-14 09:16 686次阅读

    忆阻器存体技术深度解析

    AI领域正在经历场颠覆性的变革!DeepSeek,款近期火爆全球的开源AI大模型,正与GPT-4、Sora等模型起,掀起
    的头像 发表于 02-13 17:32 1273次阅读
    忆阻器存<b class='flag-5'>算</b><b class='flag-5'>一</b>体技术深度解析

    GPU是如何训练AI大模型

    在AI模型训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练AI大
    的头像 发表于 12-19 17:54 1323次阅读