0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代的深度学习框架

jf_23871869 来源:刘力 作者:刘力 2025-04-25 11:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:算力魔方创始人/英特尔创新大使刘力

CNN时代AI模型的参数规模都在百万级别,仅需在单张消费类显卡上即可完成训练。例如,以业界知名的CNN模型:ResNet50为例,模型参数量是约为 25.63M,在ImageNet1K数据集上,使用单张消费类显卡RTX-4090只需大约35~40个小时,即可完成ResNet50模型的预训练。在大模型时代,由于大模型参数规模庞大,无法跟CNN时代的小模型一样在单张显卡上完成训练,需要构建多张AI加速卡的集群才能完成AI大模型的预训练。例如:DeepSeek-V3在其技术报告中介绍,DeepSeek-V3的模型参数量为671B,需要278万8千个H800 GPU小时才能完成预训练,换句话说,在有1万张H800的GPU集群上,需要训练278.8个小时。

wKgZPGgJvI6AK6v3AAR6CZcI17A083.png

包含1万张H800的AI数据中心包括:带H800的服务器节点、网络、存储、电源、散热等,一般来说,总建设预算在15亿美金左右。以从AWS上租用1万张H800为例,每小时的租金大约为12.3万美金/小时。以训练DeepSeek-V3为例,

训练效率每提升1%,相当于节约278.8*1%*12.3=34.3万美金,

即240万人民币的租金。所以,在大模型时代,如何充分利用分布式的GPU集群算力,是深度学习框架首先需要考虑的点。

要充分利用分布式的GPU集群算力,就需要充分使用复杂的并行策略,

包括数据并行、张量并行、参数分片并行、流水线并行、序列并行、专家并行等;并且还要提升GPU与GPU,服务器节点与服务器节点间的通讯效率;除此之外,还要考虑AI数据中心不同算力芯片的适配;前沿模型快速发展时,对新型模型的支持等等...若要求AI模型科学家既要

熟知模型结构,还要深入了解芯片特点、硬件架构、并行策略、调度逻辑等等

,这会使得大模型的开发和性能优化的

技术门槛变得非常高

,大大制约了大模型的开发和训练效率。针对上述需求和痛点,

飞桨新一代框架3.0

应运而生,该版本提供了丰富的深度学习相关的各种开发接口

表示层:专注于计算图的表达与转换,通过高可扩展中间表示PIR,实现动转静、自动微分、自动并行、算子组合以及计算图优化等核心功能;

调度层:负责对代码或计算图进行智能编排与高效调度,支持动态图和静态图两种不同的执行模式;

算子层:神经网络编译器CINN和算子库PHI共同构成,涵盖了张量定义、算子定义、算子自动融合和算子内核实现等关键功能;

适配层:则用于实现与底层芯片适配,包括设备管理、算子适配、通信适配以及编译接入等功能。

wKgZO2gJvJWAa-4eAAumNKFn45A615.png

飞桨框架3.0凭借强大的功能和优化的设计,

帮助算法工程师和科研人员以更低的成本进行算法创新,

并实现产业应用。以百度文心大模型为例,飞桨框架3.0在训练、推理等方面为文心大模型提供端到端优化,训练方面重点提升训练吞吐、训练有效率和收敛效率,集群训练有效率超过98%;推理部署方面通过注意力机制量化推理、通用投机解码等技术提升推理吞吐和效率;全面支持文心4.5、文心X1等大模型的技术创新和产业应用。

飞桨框架3.0 Github仓:https://github.com/PaddlePaddle/Paddle。

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124759
  • 大模型
    +关注

    关注

    2

    文章

    3864

    浏览量

    5299
  • DeepSeek
    +关注

    关注

    2

    文章

    861

    浏览量

    3475
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度学习为什么还是无法处理边缘场景?

    选择视而不见甚至直接加速。 之所以出现这个问题,是因为深度学习模型大多建立在统计学基础之上,它们通过观察数以千万计的图像学习识别物体的特征。然而,真实世界的道路场景是无限多样的,这种基
    的头像 发表于 05-04 10:16 2271次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>为什么还是无法处理边缘场景?

    零基础手写大模型资料2026

    零基础纯代码手写大模型:从数学原理到工程实践的技术解析 在深度学习框架高度封装的今天,理解大模型底层原理的开发者愈发稀缺。本文将剥离复杂
    发表于 05-01 17:44

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习的工程化落地,早已不是纸上谈兵的事。从卷积神经网络到Transformer,从目标检测到大模型私有化部署,技术栈不断延伸,工程师面临的知识体系也越来越庞杂。现根据中际赛威工程师培训老师的一份
    的头像 发表于 04-21 11:01 472次阅读
    人工智能-Python<b class='flag-5'>深度</b><b class='flag-5'>学习</b>进阶与应用技术:工程师高培解读

    人工智能多模态与视觉大模型开发实战 - 2026必会

    模型通常采用深度神经网络,尤其是卷积神经网络(CNN)及其变体。CNN 具有强大的特征提取能力,能够自动从图像中学习到不同层次的特征,从简单的边缘、纹理到复杂的物体形状和语义信息。通过多层网络的堆叠
    发表于 04-15 16:06

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注
    的头像 发表于 01-07 15:37 411次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    (第10系列)、YOLOv8-Tiny工业优化版(第9系列),满足产线端设备算力限制,模型推理速度提升300%。 LabVIEW生态整合 作为工业自动化领域主流开发环境,LabVIEW与深度学习的集成
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    (第10系列)、YOLOv8-Tiny工业优化版(第9系列),满足产线端设备算力限制,模型推理速度提升300%。 LabVIEW生态整合 作为工业自动化领域主流开发环境,LabVIEW与深度学习的集成
    发表于 12-03 13:50

    2025百度十大科技前沿发明亮相

    从大模型深度学习框架到智能体、数字人、无人驾驶等AI技术突破,今年发布的十大科技前沿发明涵盖了人工智能算力、框架
    的头像 发表于 11-05 15:42 918次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4458次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    宁畅与与百度文心大模型展开深度技术合作

    近日,百度正式开源文心大模型4.5系列模型。作为文心开源合作伙伴,宁畅在模型开源首日即实现即刻部署,做到“开源即接入、发布即可用”。据悉,文心4.5开源系列全部基于飞桨深度
    的头像 发表于 07-07 16:26 1099次阅读

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    在人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型
    发表于 07-04 11:10

    模型推理显存和计算量估计方法研究

    ,如乘法、加法等; (2)根据各层计算操作的类型和复杂度,确定每层所需的计算量; (3)将各层计算量相加,得到模型总的计算量。 基于硬件加速的算力估计 随着硬件加速技术的发展,许多深度学习框架
    发表于 07-03 19:43

    龙芯中科与文心系列模型开展深度技术合作

    ”解决方案。 强强联合!自主架构赋能大模型训练 文心大模型 文心4.5系列模型均使用飞桨深度学习框架
    的头像 发表于 07-02 16:53 1530次阅读

    兆芯率先展开文心系列模型深度技术合作

    对文心系列大模型的快速适配、无缝衔接。   文心大模型   文心4.5系列开源模型共10款,均使用飞浆深度学习
    的头像 发表于 07-01 10:49 1146次阅读