0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从零开始训练一个大语言模型需要投资多少钱?

jf_23871869 来源:jf_23871869 作者:jf_23871869 2024-11-08 14:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一,前言

AI领域,训练一个大型语言模型(LLM)是一个耗时且复杂的过程。几乎每个做大型语言模型(LLM)训练的人都会被问到:“从零开始,训练大语言模型需要多久和花多少钱?”虽然网上有很多关于训练技巧和模型评估的文章,但很少有直接告诉你如何估算训练时间和成本的。前面分享了一些关于大模型/本地知识库的安装部署方法,无需编写代码,即可使用Ollama+AnythingLLM搭建企业私有知识库,或者,三步完成Llama3.2在算力魔方的INT4量化和部署...本篇文章就教你一个简单的方法,帮你快速估算基于大语言模型权重大小、数据量以及可用GPU算力训练大语言模型所需的时间和成本。

二,估算方法

训练模型时,处理数据和更新模型参数需要大量的计算,我们用浮点运算次数(FLOPs)来表示。首先,我们要估算处理一个token所需的FLOPs,包括前向传递和反向传递两个部分。

  • 前向传递:

每个token的前向传递涉及的加乘操作数大约为:

FLOPsforward= 2 x N²+2 x N x Dmodel

这里N表示模型的参数量,Dmodel是模型的维度。系数2来源于矩阵乘法中的累加操作。

  • 反向传递:

大约需要前向传递的两倍计算量,因为要计算权重和激活值的梯度。

FLOPsbackward=(2 x N²+2 x N x Dmodel)x 2

  • 所以,一个token总的计算量大概是前向传递的三倍。因此,每个训练token的浮点运算可以估算为:

FLOPstotal=(2 x N²+2 x N x Dmodel)x 3

三,GPU性能

现在大多数模型都是用GPU来训练的。不同的GPU有不同的性能,比如NVIDIA的H100、A100或V100。每个GPU的性能可以用每秒浮点运算次数(FLOPS)来衡量。不过,实际训练时,由于多GPU之间的通信等因素,实际性能可能达不到理论上的最高值。

GPU Model Peak FLOPS (FP32)
H100 67 TFLOPS
A100 19.5 TFLOPS
V100 14 TFLOPS

一个重要的概念是模型FLOPS利用率(MFU),它反映了实际计算效率与理论最大值的比例。通常情况下,随着GPU数量的增加,MFU会下降。LLaMA 3的研究者们用16,000个GPU训练模型时,每个GPU的实际效率为380 teraflops,MFU为38%。

wKgaoWctrHiAWQXlAAAUop8DYW8628.png

四,实际案例

1,l Llama 3 405B 参数模型

LLaMA 3.1(405B参数)是在15.6万亿token的数据集上训练的。训练这样一个规模的模型所需的总FLOPs可以通过以下方式计算:

  • 模型大小N = 405B
  • 数据集大小P = 15.6T

模型使用了16,000个H100 GPU进行训练。据了解,平均吞吐量为每个GPU 400 teraflops。这意味着训练基础设施可以提供的总吞吐量为:

TotalThroughput

=400TFLOPs/GPU×16,000GPUs

=6.4ExaFLOPs

最后,通过将所需的总FLOPs除以可用吞吐量,并将结果转换为天数(因为我们真正关心的是训练天数),我们可以得到训练时间。

3.8 x 1025FLOPs ÷ 6.4 x1018FLOPs/秒 =61

2,成本估算

训练模型不仅耗时,还非常昂贵。以LLaMA 3.1为例,如果一个H100 GPU每小时的费用是2美元,那么用16,000个H100训练这个模型的总成本大约为2 x 24 x 61 x 16,000 = 46,848,000美元。

五,总结

训练大型语言模型是一项技术复杂且资金密集的任务。从零开始,把一个LLaMA 3.1(405B参数)的模型在15.6万亿token数据集上训练出来,大约需要花费61天(假设没有训练中断)和46,848,000美元(仅估算GPU租金、数据集制作费用和研发人力成本未计入),你算对了吗?

更多精彩内容请点击下方名片,关注“算力魔方®”公众号!


审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296807
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255
  • 大模型
    +关注

    关注

    2

    文章

    3446

    浏览量

    4972
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直播预约 |开源芯片系列讲座第30期:“芯”计划——从零开始设计自己的RISC-V处理器芯片

    鹭岛论坛开源芯片系列讲座第30期「“芯”计划从零开始设计自己的RISC-V处理器芯片」11月17日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目“
    的头像 发表于 11-10 12:03 423次阅读
    直播预约 |开源芯片系列讲座第30期:“<b class='flag-5'>一</b>生<b class='flag-5'>一</b>芯”计划——<b class='flag-5'>从零开始</b>设计自己的RISC-V处理器芯片

    从零开始了解智慧教室():智慧教室核心设备

    在教育数字化转型的浪潮中,智慧教室已成为现代教育的标配。但对于初次接触智慧教室的学校来说,"智慧教室"到底包含哪些设备?今天将从零开始,全面介绍智慧教室的常见智能设备。
    的头像 发表于 11-03 17:58 1273次阅读
    <b class='flag-5'>从零开始</b>了解智慧教室(<b class='flag-5'>一</b>):智慧教室核心设备

    在Ubuntu20.04系统中训练神经网络模型些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    电商API集成入门:从零开始搭建高效接口

    ​ 在当今数字化电商时代,API(应用程序接口)集成已成为企业提升效率、实现系统互联的关键技术。无论是同步商品信息、处理订单,还是整合支付系统,高效的API接口能显著优化业务流程。本文将从零开始
    的头像 发表于 07-10 14:23 419次阅读
    电商API集成入门:<b class='flag-5'>从零开始</b>搭建高效接口

    以太网入门:从零开始,掌握以太网基础知识!

    以太网作为现代通信技术的基石,其重要性不言而喻。无论是日常网络应用,还是AI对高速大带宽网络的需求,以太网都扮演着不可或缺的角色。本文将从零开始,带您了解以太网的基础知识,帮助您快速入门。什么是以
    的头像 发表于 06-09 14:00 4117次阅读
    以太网入门:<b class='flag-5'>从零开始</b>,掌握以太网基础知识!

    小白学大模型:从实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为热门话题。这些模型通过学习大量的文本数据,能够生成自然
    的头像 发表于 04-30 18:34 1066次阅读
    小白学大<b class='flag-5'>模型</b>:从<b class='flag-5'>零</b>实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    从零开始之电机FOC控制

    我们将撕开FOC神秘而虚伪的面纱,以说人话的方式讲述它。真正的做到从零开始,小白看就会,学就废。如果觉得有用的话,就点个赞呗,纯手码。、什么是FOC?FOC
    的头像 发表于 04-23 19:34 4134次阅读
    <b class='flag-5'>从零开始</b>之电机FOC控制

    从零开始学电源

    从零开始学电源···内部篇 从零开始学电源---------内部篇 (写这篇文的着眼点就在“从零开始”上,所以涉及到些词汇和技术的时候,我会采取戏说的方式。网上电源高手甚多,且科班出
    发表于 04-07 15:30

    从零开始学电路仿真Multisim与电路设计Protel技术——完整版

    资料介绍为读者从零开始,快速掌握EDA(电子设计自动化)领域中最常用、最流行的两功能强大的应用软件Multisim、Protel而编写的。 本书首先介绍了EDA技术的发展与应用,并对常用EDA软件
    发表于 03-25 14:37

    小白学大模型训练语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的项研究中,科学家们为了深入了解如何高效地
    的头像 发表于 03-03 11:51 1211次阅读
    小白学大<b class='flag-5'>模型</b>:<b class='flag-5'>训练</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060单卡上实践大模型训练技术

    作者:算力魔方创始人/英特尔创新大使刘力 之前我们分享了《从零开始训练个大语言模型
    的头像 发表于 02-19 16:10 2135次阅读
    用PaddleNLP在4060单卡上实践大<b class='flag-5'>模型</b>预<b class='flag-5'>训练</b>技术

    腾讯公布大语言模型训练新专利

    语言模型训练过程中引入第摘要文本和第二摘要文本,为模型提供了更为丰富的学习信息。这两摘要
    的头像 发表于 02-10 09:37 719次阅读

    采用FP8混合精度,DeepSeek V3训练成本仅557.6万美元!

    , 前言    在AI领域,训练个大语言模型(LLM)是
    的头像 发表于 01-13 11:12 1604次阅读

    小白学大模型:构建LLM的关键步骤

    随着大规模语言模型(LLM)在性能、成本和应用前景上的快速发展,越来越多的团队开始探索如何自主训练LLM模型。然而,是否
    的头像 发表于 01-09 12:12 1556次阅读
    小白学大<b class='flag-5'>模型</b>:构建LLM的关键步骤

    AI大语言模型开发步骤

    开发高效、准确的大语言模型复杂且多阶段的过程,涉及数据收集与预处理、
    的头像 发表于 12-19 11:29 1225次阅读