电子发烧友网报道(文/周凯扬)近年来,有关大语言模型(LLM)的开发非常活跃,尤其是在中国、美国等市场。以OpenAI开发的ChatGPT为例,其迅速普及极大影响了技术研发、经济系统等,为此不少国家政府也投入到LLM的计算资源整合中来,从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在超算领域,而两者的计算资源存在一定的重合,不少人开始借助超算来进行LLM的开发。
超算训练大模型的天然优势
大语言模型的训练经常会撞上GPU的内存墙,比如训练一个万亿参数的模型,就需要至少24TB的GPU内存。好在对于现代超算系统而言,GPU已经成为不可或缺的算力资源之一,不少超算的GPU规模与云服务厂商的数据中心相比,也不遑多让。以目前排名第一的Frontier超算为例,就集成了37888块AMD MI250X GPU。
美国橡树岭国家实验室的研究人员除了用Frontier完成科学计算任务以外,也使用了一部分GPU资源训练一个万亿级参数的LLM。据他们发布的论文,使用3072块MI250X GPU,他们训练了一个一万亿参数的大语言模型,这样的规模已经与OpenAI的GPT-4在同一水平线上了。
绝大多数模型的内存要求,除了来自参数量外,也来自梯度和优化器状态。尽管对大模型训练的任务进行了并行分解,美国橡树岭国家实验室的研究人员发现训练一个万亿级别的大模型还是需要14TB的内存,好在单个MI250X就拥有64GB的显存,足以满足训练要求。
富岳大模型
日前,一队日本研究员发布了富岳-LLM,一个专门针对日语能力进行加强的大语言模型,由RIKEN的超算系统富岳训练。尽管目前GPU才是训练LLM的首选硬件,而富岳超算是基于自研的Arm架构处理器构筑的,只有CPU并没有GPU。
为了在富岳上训练大语言模型,研究员们开发了分布式的训练方案,将深度学习框架Megatron-DeepSpeed移植到富岳上,从而优化Transformer模型在富岳上的性能表现。通过加速Transformer的密集矩阵乘法库,并结合三种并行化技术优化富岳的通信性能,富岳的并行训练能力得到了最大化。
富岳大模型有130亿参数,比目前已经在日本广泛使用的70亿参数模型规模还要大,尽管市面上早已出现参数更大的模型,但对于富岳超算来说,这已经是一个平衡高性能与计算资源的选择了。
除此之外,不少日本公司开发的大模型采用持续学习,采用海外开发的公开模型,用日本数据进行持续训练。而富岳大模型则是采用团队自己的数据从头开始训练的,所以在透明度和安全性上更高一筹。
富岳大模型用到了3800万个Token和富岳超算的13824个节点,其数据60%为日语,并与英语、数学运算和代码结合。该模型在人文和社会科学任务中获得了9.18的基准跑分,可以结合敬语或日语的其他特征进行自然对话。
写在最后
随着各地区纷纷开始建设超算智算资源,如何提高这些计算资源的利用率也成了关键。而训练大模型恰好需要用到如此庞大的计算资源,也有助于为各行各业提供可用大模型应用,由此看来,未来超算上大模型训练的场景也会越来越普遍。
超算训练大模型的天然优势
大语言模型的训练经常会撞上GPU的内存墙,比如训练一个万亿参数的模型,就需要至少24TB的GPU内存。好在对于现代超算系统而言,GPU已经成为不可或缺的算力资源之一,不少超算的GPU规模与云服务厂商的数据中心相比,也不遑多让。以目前排名第一的Frontier超算为例,就集成了37888块AMD MI250X GPU。
美国橡树岭国家实验室的研究人员除了用Frontier完成科学计算任务以外,也使用了一部分GPU资源训练一个万亿级参数的LLM。据他们发布的论文,使用3072块MI250X GPU,他们训练了一个一万亿参数的大语言模型,这样的规模已经与OpenAI的GPT-4在同一水平线上了。
绝大多数模型的内存要求,除了来自参数量外,也来自梯度和优化器状态。尽管对大模型训练的任务进行了并行分解,美国橡树岭国家实验室的研究人员发现训练一个万亿级别的大模型还是需要14TB的内存,好在单个MI250X就拥有64GB的显存,足以满足训练要求。
富岳大模型
日前,一队日本研究员发布了富岳-LLM,一个专门针对日语能力进行加强的大语言模型,由RIKEN的超算系统富岳训练。尽管目前GPU才是训练LLM的首选硬件,而富岳超算是基于自研的Arm架构处理器构筑的,只有CPU并没有GPU。
为了在富岳上训练大语言模型,研究员们开发了分布式的训练方案,将深度学习框架Megatron-DeepSpeed移植到富岳上,从而优化Transformer模型在富岳上的性能表现。通过加速Transformer的密集矩阵乘法库,并结合三种并行化技术优化富岳的通信性能,富岳的并行训练能力得到了最大化。
富岳大模型有130亿参数,比目前已经在日本广泛使用的70亿参数模型规模还要大,尽管市面上早已出现参数更大的模型,但对于富岳超算来说,这已经是一个平衡高性能与计算资源的选择了。
除此之外,不少日本公司开发的大模型采用持续学习,采用海外开发的公开模型,用日本数据进行持续训练。而富岳大模型则是采用团队自己的数据从头开始训练的,所以在透明度和安全性上更高一筹。
富岳大模型用到了3800万个Token和富岳超算的13824个节点,其数据60%为日语,并与英语、数学运算和代码结合。该模型在人文和社会科学任务中获得了9.18的基准跑分,可以结合敬语或日语的其他特征进行自然对话。
写在最后
随着各地区纷纷开始建设超算智算资源,如何提高这些计算资源的利用率也成了关键。而训练大模型恰好需要用到如此庞大的计算资源,也有助于为各行各业提供可用大模型应用,由此看来,未来超算上大模型训练的场景也会越来越普遍。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
超算
+关注
关注
1文章
118浏览量
9499 -
大模型
+关注
关注
2文章
3440浏览量
4964
发布评论请先 登录
相关推荐
热点推荐
在Ubuntu20.04系统中训练神经网络模型的一些经验
本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
发表于 10-22 07:03
借助NVIDIA Megatron-Core大模型训练框架提高显存使用效率
策略;理解这些策略对显存的影响,才能更好地规划训练超参数,在不 OOM (out of memory) 的情况下尽可能提升硬件使用效率。
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力
持续发展体现在:
1、收益递减
大模型的基础的需要极大的算力,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。
收益递减体现在:
①模型大小
②
发表于 09-14 14:04
大模型推理显存和计算量估计方法研究
随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这
发表于 07-03 19:43
算力网络的“神经突触”:AI互联技术如何重构分布式训练范式
过程中,由于单个AI芯片的算力提升速度无法跟上模型参数的增长速率,再加上庞大的模型参数和训练数据,已远远超出单个AI芯片甚至单台服务器的能力范围。因此,需要将数据样本和
AI原生架构升级:RAKsmart服务器在超大规模模型训练中的算力突破
近年来,随着千亿级参数模型的崛起,AI训练对算力的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶
RAKsmart智能算力架构:异构计算+低时延网络驱动企业AI训练范式升级
在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临算力效率与成本的双重挑战。RAKsmart推出的智能算力架构,以异构计算
大算力芯片的生态突围与算力革命
据的爆发式增长,大算力芯片已成为科技竞争的核心领域之一。 大算力芯片的核心应用场景丰富多样。在人工智能训练与推理方面,大模型(如 GPT
利用RAKsmart服务器托管AI模型训练的优势
AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型
让大模型训练更高效,奇异摩尔用互联创新方案定义下一代AI计算
电子发烧友网报道(文/吴子鹏)近一段时间以来,DeepSeek现象级爆火引发产业对大规模数据中心建设的思考和争议。在训练端,DeepSeek以开源模型通过算法优化(如稀疏计算、动态
国家超算平台推出AI生态加速计划
向有需求的企业免费开放为期三个月的DeepSeek API接口使用权。DeepSeek作为国家超算互联网平台的重要技术成果,其满血版模型镜像已正式上线,并将通过API接口的形式,为企业提供强大的AI
GPU是如何训练AI大模型的
在AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练AI大

超算训练大模型,不浪费一丁点计算资源
评论