0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中科驭数DPU助力大模型训练和推理

驭数科技 来源:驭数科技 2025-02-19 09:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着深度学习技术的快速发展,大模型(如GPT、BERT等)在自然语言处理、计算机视觉等领域取得了显著成果。然而,大模型的参数量和计算量极其庞大,传统的硬件架构或者单台设备(如单个GPU)难以满足其计算需求。大模型的特点如下:

1. DeepSeek-R1模型的参数量高达6710亿,训练过程需要数万台GPU协同工作。

2. 计算需求:大模型的前向传播、反向传播和梯度更新涉及大规模的矩阵运算,单设备无法在合理时间内完成。

3. 内存需求:大模型的参数和中间结果需要大量内存存储,单设备的内存容量有限。

4. 数据需求:大模型的训练需要海量数据,单设备难以高效处理。

为提高大模型的计算效率,必须充分利用矩阵和向量运算的内在并行性。大模型训练的核心流程:前向传播、反向传播和梯度更新,均依赖大规模矩阵计算,这为分布式并行提供了天然优势。目前,主要的并行计算策略包括:

a)数据并行(Data Parallelism):将训练数据拆分成多个批次或子集,分配到多个设备上执行局部计算。各设备独立计算梯度后,通过梯度同步或聚合机制实现全局参数更新。

b)模型并行(Model Parallelism):将模型按照参数或模块划分,分布到多台设备上进行计算。当模型单个设备内存难以容纳时,模型并行可以有效扩展计算规模。

c)流水线并行(Pipeline Parallelism):将模型按照层级或阶段划分成多个片段,各设备依次负责不同层的计算。数据在设备间依次传递,形成一条类似流水线的处理路径,从而在不同处理阶段实现并行性。

分布式计算通过多种并行策略的协同应用,不仅可以突破单设备算力和内存的限制,还能显著加速大规模深度学习模型的训练。

在大模型训练和推理中,GPU虽然是核心计算单元,但其计算能力往往受到数据管理、通信和存储等任务的限制。DPU(Data Processing Unit,数据处理单元)作为一种新型硬件加速器,正在成为大模型训练和推理的重要助力。DPU的出现正是为了解决这些问题:

a)卸载GPU的计算负担:GPU主要负责矩阵运算等核心计算任务,但数据加载、预处理、通信等任务会占用其资源。DPU可以接管这些任务,通过高速I/O接口直接从存储设备读取数据,减少CPU的介入。大模型训练需要频繁读取和写入大量数据(如模型参数、中间结果、数据集等),传统的存储系统可能成为瓶颈。DPU支持NVMe over Fabric/RDMA等高速存储协议,能够直接从远程存储设备读取数据。让GPU专注于计算,从而提高整体效率。

b)优化数据预处理与检索:大模型在训练阶段需要大量的预处理(如图像增强、文本分词等),在推理阶段也需要通过知识库进行检索增强,这些操作通过远程访问分布式文件系统来完成。在CPU处理模式下,远端存储访问协议的处理成为瓶颈。我们通过DPU进行远端存储访问协议的卸载,提高数据读写的效率,提供比CPU更高的吞吐量和更低的延迟。

c)加速分布式训练中的通信:分布式训练中,GPU之间的通信(如梯度同步)会消耗大量时间。DPU可以优化通信任务,支持高效的All-Reduce操作,减少通信延迟。DPU内置专用的通信引擎,使能GPU Direct RDMA,减少CPU的干预,实现超高带宽、低延迟的GPU间通信。

d)提高能效比:DPU专门针对数据管理和通信任务进行了优化,能够以更低的功耗完成这些任务,从而降低整体能耗

中科驭数作为国内领军的DPU芯片和产品供应商,凭借多年在DPU领域的积累,不断推陈出新,基于公司全自研的国产芯片K2-Pro,推出应用于智算中心的系列产品和方案。

0d0f4986-ede4-11ef-9310-92fbcf53809c.png

图1 : 中科驭数K2-Pro

K2-Pro芯片的网络处理能力,可以很好的支撑国产化推理集群的各种应用需求,在中科驭数自建的全国产化推理集群中,很好的承担了高通量网络传输,云化流表卸载与分布式资源快速加载的任务。

同时,在AI模型训练方向,中科驭数完全自主研发的RDMA网卡助力数据中心高速网络连接,确保大规模模型的数据传输效率,减少通信延迟,提升整体计算性能。RDMA性能达到200Gbps。释放CPU算力,弥补国产CPU性能不足问题。提供微秒级时延和百G级带宽以及千万级别的IOPS存储访问能力,满足模型计算对数据快速加载的性能要求。

近日,中科驭数基于全国产化CPU、GPU、DPU 三U一体设备本地化部署了DeepSeek模型,系统中通过国产CPU实现整体业务调度与主要服务进程运行,采用国产GPU完成模型推理运算,由中科驭数DPU进行设备裸金属业务管理以及云化网络/存储能力卸载提速。该系统底层采用全国产化的3U一体服务器搭建,在兼顾安全性与低成本的同时,可以高效运行DeepSeek-V3与DeepSeek-R1等多个AI推理模型系统。中科驭数通过这种方式完成多个AI模型适配,打通全国产化三U一体算力底层支撑,能够帮助AI应用在落地过程中实现更好的数据隐私性保护与抵御外部风险的能力,同时也积极推动产业链协同与资源优化整合。

0d2e953e-ede4-11ef-9310-92fbcf53809c.png

图2 :中科驭数智算中心解决方案

DPU通过卸载GPU的计算负担、优化数据预处理、加速通信和存储任务,正在成为大模型训练和推理的重要助力。驭数的DPU产品凭借其高性能、低功耗和可扩展性,为大模型训练和推理提供了强有力的支持。随着深度学习技术的进一步发展,类似DeepSeek大模型的兴起,以及由此带来对智算资源的大幅优化,给国产GPU和CPU实现高效大模型训练和推理的大规模部署带来巨大可能和期盼。

同时,智算租赁因为DeepSeek模型对于部署资源的优化,让最终从“看着挺美”变成“用着挺美”。很多用户开始尝试租赁智能算资源,这要求智算资源可以按需快速部署。中科驭数的DPU产品,通过流程简化和存储卸载,实现了裸金属部署时间从传统的30分钟优化到3分钟,大大便利了资源的反复利用,也极大地提升了客户订阅的体验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DPU
    DPU
    +关注

    关注

    0

    文章

    417

    浏览量

    27145
  • 中科驭数
    +关注

    关注

    0

    文章

    145

    浏览量

    4607
  • 大模型
    +关注

    关注

    2

    文章

    3750

    浏览量

    5268

原文标题:中科驭数DPU助力大模型训练和推理

文章出处:【微信号:yusurtech,微信公众号:驭数科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    训练推理:大模型算力需求的新拐点已至

    在大模型产业发展的早期阶段,行业焦点主要集中在大模型训练所需的算力投入。一个万亿参数大模型训练可能需要数千张GPU芯片连续运行数月,成本高
    的头像 发表于 02-05 16:07 1003次阅读
    从<b class='flag-5'>训练</b>到<b class='flag-5'>推理</b>:大<b class='flag-5'>模型</b>算力需求的新拐点已至

    中关村云计算产业联盟党建交流活动在中科圆满举办

    活动伊始,与会人员参观了中科 DPU 展厅,深入了解 DPU 技术在云计算领域的创新应用与发展前景。
    的头像 发表于 01-23 15:20 693次阅读

    中科亮相光合组织2025人工智能创新大会 共筑开放智算新生态

    作为国内 DPU 芯片领域的领军企业,中科近期受邀参与由海光信息牵头成立的光合组织主办的 2025 人工智能创新大会。本次大会以 “智算无界,光合共生” 为核心主题,汇聚了 250
    的头像 发表于 12-30 16:33 541次阅读

    彰显硬科技实力 中科荣登VENTURE50硬科技榜 构建DPU“运力”底座

    近日,由清科控股、投资界发起的 2025 VENTURE50(简称 V50)评选结果正式揭晓,DPU 芯片研发领军企业中科凭借深厚的技术壁垒、成熟的商业化能力及突出的产业价值,成功
    的头像 发表于 12-13 11:26 1220次阅读

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    模型。 我们使用MNIST数据集,训练一个卷积神经网络(CNN)模型,用于手写数字识别。一旦模型训练并保存,就可以用于对新图像进行
    发表于 10-22 07:03

    中科西南总部落地成都天府新区

    近日,2025 天府人工智能产业生态大会在成都科创生态岛盛大开幕。省委副书记、省长施小琳出席活动。在开幕式备受关注的人工智能产业重大项目集中签约环节,中科与天府新区管委会正式签署合作协议,宣告
    的头像 发表于 10-13 15:10 1132次阅读

    中科荣登2025北京民营企业科技创新百强榜单

    近日,北京市工商业联合会正式发布《2025 北京民营企业科技创新百强榜单》,国内领先的 DPU 芯片研发企业中科凭借在研发投入强度、知识产权积累、产业号召力等核心维度的突出表现,成
    的头像 发表于 09-26 11:17 1432次阅读

    中科亮相2025新一代计算产业大会

    近日,由中国电子工业标准化技术协会指导、新一代计算标准工作委员会(以下简称 “新一代计算标工委”)主办,中科、Intel 及经开区国家信创园联合承办的新一代计算产业大会顺利召开。本次大会聚焦数字
    的头像 发表于 09-26 11:14 904次阅读

    中科曙光助力紫东太初4.0大模型重磅发布

    近日,全球首个“深度推理+多模态”大模型——“紫东太初”4.0在2025东湖国际人工智能高峰论坛上正式发布。中科曙光作为核心生态伙伴,依托中国首个AI计算开放架构,为“紫东太初”4.0提供图文多模态
    的头像 发表于 09-24 09:33 786次阅读

    中科亮相2025 CCF全国高性能计算学术大会

    在昨日开幕的中国计算机学会全国高性能计算学术大会(CCF HPC China 2025)上,中科作为高通量以太网联盟成员参与联盟成果发布。同期举办的世界算力博览会上,中科
    的头像 发表于 08-20 09:39 1108次阅读

    蚂蚁科正式发布金融推理模型

    7月26日,以“智能时代,同球共济”为主题的2025世界人工智能大会在上海开幕;亮点很多。我们看到在世界人工智能大会论坛上,蚂蚁科正式发布了金融推理模型Agentar-Fin-R1,金融
    的头像 发表于 07-28 16:36 746次阅读

    模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大模型
    发表于 07-03 19:43

    龙芯中科与文心系列模型开展深度技术合作

    ”解决方案。 强强联合!自主架构赋能大模型训练 文心大模型 文心4.5系列模型均使用飞桨深度学习框架进行高效训练
    的头像 发表于 07-02 16:53 1465次阅读

    中科亮相2025龙芯产品发布暨用户大会

    近日,龙芯中科正式发布基于国产自主指令集龙架构研发的服务器处理器龙芯3C6000系列芯片、工控领域及移动终端处理器龙芯2K3000/3B6000M芯片,以及相关整机和解决方案。中科
    的头像 发表于 07-02 15:30 1568次阅读

    中科DPU全栈产品亮相福州博会,赋能智算时代算力基建

    会”)也拉开帷幕。共有150多家企业参展,展会吸引了八万多名观众参观。作为国内DPU领域领军企业,中科携三大产品线亮相展会,其创新的DPU
    的头像 发表于 05-23 11:01 750次阅读
    <b class='flag-5'>中科</b><b class='flag-5'>驭</b><b class='flag-5'>数</b>携<b class='flag-5'>DPU</b>全栈产品亮相福州<b class='flag-5'>数</b>博会,赋能智算时代算力基建