0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代的深度学习框架

jf_23871869 来源:刘力 作者:刘力 2025-04-25 11:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:算力魔方创始人/英特尔创新大使刘力

CNN时代AI模型的参数规模都在百万级别,仅需在单张消费类显卡上即可完成训练。例如,以业界知名的CNN模型:ResNet50为例,模型参数量是约为 25.63M,在ImageNet1K数据集上,使用单张消费类显卡RTX-4090只需大约35~40个小时,即可完成ResNet50模型的预训练。在大模型时代,由于大模型参数规模庞大,无法跟CNN时代的小模型一样在单张显卡上完成训练,需要构建多张AI加速卡的集群才能完成AI大模型的预训练。例如:DeepSeek-V3在其技术报告中介绍,DeepSeek-V3的模型参数量为671B,需要278万8千个H800 GPU小时才能完成预训练,换句话说,在有1万张H800的GPU集群上,需要训练278.8个小时。

wKgZPGgJvI6AK6v3AAR6CZcI17A083.png

包含1万张H800的AI数据中心包括:带H800的服务器节点、网络、存储、电源、散热等,一般来说,总建设预算在15亿美金左右。以从AWS上租用1万张H800为例,每小时的租金大约为12.3万美金/小时。以训练DeepSeek-V3为例,

训练效率每提升1%,相当于节约278.8*1%*12.3=34.3万美金,

即240万人民币的租金。所以,在大模型时代,如何充分利用分布式的GPU集群算力,是深度学习框架首先需要考虑的点。

要充分利用分布式的GPU集群算力,就需要充分使用复杂的并行策略,

包括数据并行、张量并行、参数分片并行、流水线并行、序列并行、专家并行等;并且还要提升GPU与GPU,服务器节点与服务器节点间的通讯效率;除此之外,还要考虑AI数据中心不同算力芯片的适配;前沿模型快速发展时,对新型模型的支持等等...若要求AI模型科学家既要

熟知模型结构,还要深入了解芯片特点、硬件架构、并行策略、调度逻辑等等

,这会使得大模型的开发和性能优化的

技术门槛变得非常高

,大大制约了大模型的开发和训练效率。针对上述需求和痛点,

飞桨新一代框架3.0

应运而生,该版本提供了丰富的深度学习相关的各种开发接口

表示层:专注于计算图的表达与转换,通过高可扩展中间表示PIR,实现动转静、自动微分、自动并行、算子组合以及计算图优化等核心功能;

调度层:负责对代码或计算图进行智能编排与高效调度,支持动态图和静态图两种不同的执行模式;

算子层:神经网络编译器CINN和算子库PHI共同构成,涵盖了张量定义、算子定义、算子自动融合和算子内核实现等关键功能;

适配层:则用于实现与底层芯片适配,包括设备管理、算子适配、通信适配以及编译接入等功能。

wKgZO2gJvJWAa-4eAAumNKFn45A615.png

飞桨框架3.0凭借强大的功能和优化的设计,

帮助算法工程师和科研人员以更低的成本进行算法创新,

并实现产业应用。以百度文心大模型为例,飞桨框架3.0在训练、推理等方面为文心大模型提供端到端优化,训练方面重点提升训练吞吐、训练有效率和收敛效率,集群训练有效率超过98%;推理部署方面通过注意力机制量化推理、通用投机解码等技术提升推理吞吐和效率;全面支持文心4.5、文心X1等大模型的技术创新和产业应用。

飞桨框架3.0 Github仓:https://github.com/PaddlePaddle/Paddle。

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123889
  • 大模型
    +关注

    关注

    2

    文章

    3439

    浏览量

    4960
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2799
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    (第10系列)、YOLOv8-Tiny工业优化版(第9系列),满足产线端设备算力限制,模型推理速度提升300%。 LabVIEW生态整合 作为工业自动化领域主流开发环境,LabVIEW与深度学习的集成
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    领域主流开发环境,LabVIEW与深度学习的集成一直是行业痛点。课程提供独家开发的labview调用框架,实现从模型训练(Python)到部署(LabVIEW)的无缝衔接,已成功应用于
    发表于 12-03 13:50

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3906次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    宁畅与与百度文心大模型展开深度技术合作

    近日,百度正式开源文心大模型4.5系列模型。作为文心开源合作伙伴,宁畅在模型开源首日即实现即刻部署,做到“开源即接入、发布即可用”。据悉,文心4.5开源系列全部基于飞桨深度
    的头像 发表于 07-07 16:26 637次阅读

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    在人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型
    发表于 07-04 11:10

    模型推理显存和计算量估计方法研究

    ,如乘法、加法等; (2)根据各层计算操作的类型和复杂度,确定每层所需的计算量; (3)将各层计算量相加,得到模型总的计算量。 基于硬件加速的算力估计 随着硬件加速技术的发展,许多深度学习框架
    发表于 07-03 19:43

    龙芯中科与文心系列模型开展深度技术合作

    ”解决方案。 强强联合!自主架构赋能大模型训练 文心大模型 文心4.5系列模型均使用飞桨深度学习框架
    的头像 发表于 07-02 16:53 1123次阅读

    兆芯率先展开文心系列模型深度技术合作

    对文心系列大模型的快速适配、无缝衔接。   文心大模型   文心4.5系列开源模型共10款,均使用飞浆深度学习
    的头像 发表于 07-01 10:49 776次阅读

    百度飞桨框架3.0正式版发布

    模型训练成本高?推理效率低?硬件适配难? 4月1日,百度发布 飞桨框架3.0正式版 !五大特性专为大模型设计。 作为大模型时代的Infra
    的头像 发表于 04-02 19:03 1038次阅读
    百度飞桨<b class='flag-5'>框架</b>3.0正式版发布

    嵌入式AI技术之深度学习:数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习框架,可以深度理解数
    的头像 发表于 04-02 18:21 1277次阅读

    用树莓派搞深度学习?TensorFlow启动!

    介绍本页面将指导您在搭载64位Bullseye操作系统的RaspberryPi4上安装TensorFlow。TensorFlow是一个专为深度学习开发的大型软件库,它消耗大量资源。您可以在
    的头像 发表于 03-25 09:33 958次阅读
    用树莓派搞<b class='flag-5'>深度</b><b class='flag-5'>学习</b>?TensorFlow启动!

    在OpenVINO™工具套件的深度学习工作台中无法导出INT8模型怎么解决?

    无法在 OpenVINO™ 工具套件的深度学习 (DL) 工作台中导出 INT8 模型
    发表于 03-06 07:54

    Triton编译器在机器学习中的应用

    多种深度学习框架,如TensorFlow、PyTorch、ONNX等,使得开发者能够轻松地将不同框架下训练的模型部署到GPU上。 2. Tr
    的头像 发表于 12-24 18:13 1617次阅读

    Flexus X 实例 ultralytics 模型 yolov10 深度学习 AI 部署与应用

    前言: ���深度学习新纪元,828 B2B 企业节 Flexus X 实例特惠!想要高效训练 YOLOv10 模型,实现精准图像识别?Flexus X 以卓越算力,助您轻松驾驭大规模数据集,加速
    的头像 发表于 12-24 12:24 1287次阅读
    Flexus X 实例 ultralytics <b class='flag-5'>模型</b> yolov10 <b class='flag-5'>深度</b><b class='flag-5'>学习</b> AI 部署与应用

    大语言模型开发框架是什么

    大语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,AI部落小编为您介绍大语言模型开发框架
    的头像 发表于 12-06 10:28 819次阅读