0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中科驭数DPU助力大模型训练和推理

驭数科技 来源:驭数科技 2025-02-19 09:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着深度学习技术的快速发展,大模型(如GPT、BERT等)在自然语言处理、计算机视觉等领域取得了显著成果。然而,大模型的参数量和计算量极其庞大,传统的硬件架构或者单台设备(如单个GPU)难以满足其计算需求。大模型的特点如下:

1. DeepSeek-R1模型的参数量高达6710亿,训练过程需要数万台GPU协同工作。

2. 计算需求:大模型的前向传播、反向传播和梯度更新涉及大规模的矩阵运算,单设备无法在合理时间内完成。

3. 内存需求:大模型的参数和中间结果需要大量内存存储,单设备的内存容量有限。

4. 数据需求:大模型的训练需要海量数据,单设备难以高效处理。

为提高大模型的计算效率,必须充分利用矩阵和向量运算的内在并行性。大模型训练的核心流程:前向传播、反向传播和梯度更新,均依赖大规模矩阵计算,这为分布式并行提供了天然优势。目前,主要的并行计算策略包括:

a)数据并行(Data Parallelism):将训练数据拆分成多个批次或子集,分配到多个设备上执行局部计算。各设备独立计算梯度后,通过梯度同步或聚合机制实现全局参数更新。

b)模型并行(Model Parallelism):将模型按照参数或模块划分,分布到多台设备上进行计算。当模型单个设备内存难以容纳时,模型并行可以有效扩展计算规模。

c)流水线并行(Pipeline Parallelism):将模型按照层级或阶段划分成多个片段,各设备依次负责不同层的计算。数据在设备间依次传递,形成一条类似流水线的处理路径,从而在不同处理阶段实现并行性。

分布式计算通过多种并行策略的协同应用,不仅可以突破单设备算力和内存的限制,还能显著加速大规模深度学习模型的训练。

在大模型训练和推理中,GPU虽然是核心计算单元,但其计算能力往往受到数据管理、通信和存储等任务的限制。DPU(Data Processing Unit,数据处理单元)作为一种新型硬件加速器,正在成为大模型训练和推理的重要助力。DPU的出现正是为了解决这些问题:

a)卸载GPU的计算负担:GPU主要负责矩阵运算等核心计算任务,但数据加载、预处理、通信等任务会占用其资源。DPU可以接管这些任务,通过高速I/O接口直接从存储设备读取数据,减少CPU的介入。大模型训练需要频繁读取和写入大量数据(如模型参数、中间结果、数据集等),传统的存储系统可能成为瓶颈。DPU支持NVMe over Fabric/RDMA等高速存储协议,能够直接从远程存储设备读取数据。让GPU专注于计算,从而提高整体效率。

b)优化数据预处理与检索:大模型在训练阶段需要大量的预处理(如图像增强、文本分词等),在推理阶段也需要通过知识库进行检索增强,这些操作通过远程访问分布式文件系统来完成。在CPU处理模式下,远端存储访问协议的处理成为瓶颈。我们通过DPU进行远端存储访问协议的卸载,提高数据读写的效率,提供比CPU更高的吞吐量和更低的延迟。

c)加速分布式训练中的通信:分布式训练中,GPU之间的通信(如梯度同步)会消耗大量时间。DPU可以优化通信任务,支持高效的All-Reduce操作,减少通信延迟。DPU内置专用的通信引擎,使能GPU Direct RDMA,减少CPU的干预,实现超高带宽、低延迟的GPU间通信。

d)提高能效比:DPU专门针对数据管理和通信任务进行了优化,能够以更低的功耗完成这些任务,从而降低整体能耗

中科驭数作为国内领军的DPU芯片和产品供应商,凭借多年在DPU领域的积累,不断推陈出新,基于公司全自研的国产芯片K2-Pro,推出应用于智算中心的系列产品和方案。

0d0f4986-ede4-11ef-9310-92fbcf53809c.png

图1 : 中科驭数K2-Pro

K2-Pro芯片的网络处理能力,可以很好的支撑国产化推理集群的各种应用需求,在中科驭数自建的全国产化推理集群中,很好的承担了高通量网络传输,云化流表卸载与分布式资源快速加载的任务。

同时,在AI模型训练方向,中科驭数完全自主研发的RDMA网卡助力数据中心高速网络连接,确保大规模模型的数据传输效率,减少通信延迟,提升整体计算性能。RDMA性能达到200Gbps。释放CPU算力,弥补国产CPU性能不足问题。提供微秒级时延和百G级带宽以及千万级别的IOPS存储访问能力,满足模型计算对数据快速加载的性能要求。

近日,中科驭数基于全国产化CPU、GPU、DPU 三U一体设备本地化部署了DeepSeek模型,系统中通过国产CPU实现整体业务调度与主要服务进程运行,采用国产GPU完成模型推理运算,由中科驭数DPU进行设备裸金属业务管理以及云化网络/存储能力卸载提速。该系统底层采用全国产化的3U一体服务器搭建,在兼顾安全性与低成本的同时,可以高效运行DeepSeek-V3与DeepSeek-R1等多个AI推理模型系统。中科驭数通过这种方式完成多个AI模型适配,打通全国产化三U一体算力底层支撑,能够帮助AI应用在落地过程中实现更好的数据隐私性保护与抵御外部风险的能力,同时也积极推动产业链协同与资源优化整合。

0d2e953e-ede4-11ef-9310-92fbcf53809c.png

图2 :中科驭数智算中心解决方案

DPU通过卸载GPU的计算负担、优化数据预处理、加速通信和存储任务,正在成为大模型训练和推理的重要助力。驭数的DPU产品凭借其高性能、低功耗和可扩展性,为大模型训练和推理提供了强有力的支持。随着深度学习技术的进一步发展,类似DeepSeek大模型的兴起,以及由此带来对智算资源的大幅优化,给国产GPU和CPU实现高效大模型训练和推理的大规模部署带来巨大可能和期盼。

同时,智算租赁因为DeepSeek模型对于部署资源的优化,让最终从“看着挺美”变成“用着挺美”。很多用户开始尝试租赁智能算资源,这要求智算资源可以按需快速部署。中科驭数的DPU产品,通过流程简化和存储卸载,实现了裸金属部署时间从传统的30分钟优化到3分钟,大大便利了资源的反复利用,也极大地提升了客户订阅的体验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DPU
    DPU
    +关注

    关注

    0

    文章

    408

    浏览量

    26239
  • 中科驭数
    +关注

    关注

    0

    文章

    143

    浏览量

    4540
  • 大模型
    +关注

    关注

    2

    文章

    3460

    浏览量

    4975

原文标题:中科驭数DPU助力大模型训练和推理

文章出处:【微信号:yusurtech,微信公众号:驭数科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中科西南总部落地成都天府新区

    近日,2025 天府人工智能产业生态大会在成都科创生态岛盛大开幕。省委副书记、省长施小琳出席活动。在开幕式备受关注的人工智能产业重大项目集中签约环节,中科与天府新区管委会正式签署合作协议,宣告
    的头像 发表于 10-13 15:10 629次阅读

    中科荣登2025北京民营企业科技创新百强榜单

    近日,北京市工商业联合会正式发布《2025 北京民营企业科技创新百强榜单》,国内领先的 DPU 芯片研发企业中科凭借在研发投入强度、知识产权积累、产业号召力等核心维度的突出表现,成
    的头像 发表于 09-26 11:17 963次阅读

    中科亮相2025 CCF全国高性能计算学术大会

    在昨日开幕的中国计算机学会全国高性能计算学术大会(CCF HPC China 2025)上,中科作为高通量以太网联盟成员参与联盟成果发布。同期举办的世界算力博览会上,中科
    的头像 发表于 08-20 09:39 648次阅读

    中科DPU全栈产品亮相福州博会,赋能智算时代算力基建

    会”)也拉开帷幕。共有150多家企业参展,展会吸引了八万多名观众参观。作为国内DPU领域领军企业,中科携三大产品线亮相展会,其创新的DPU
    的头像 发表于 05-23 11:01 508次阅读
    <b class='flag-5'>中科</b><b class='flag-5'>驭</b><b class='flag-5'>数</b>携<b class='flag-5'>DPU</b>全栈产品亮相福州<b class='flag-5'>数</b>博会,赋能智算时代算力基建

    中关村泛联院一行来访中科

    中关村泛联移动通信技术创新应用研究院(以下简称“中关村泛联院”)专职副院长金毅敦一行来访中科,双方探讨了6G技术发展现状,以及DPU在6G场景的应用机会。
    的头像 发表于 04-14 10:26 1049次阅读

    中科受邀出席2025中关村论坛

      2025中关村论坛年会3月27日至31日在京举办,中科作为高性能芯片企业代表受邀参与中关村论坛,在位于中关村展示中心的常设展中展出公司最新的DPU芯片产品。
    的头像 发表于 04-07 09:57 848次阅读

    中科高性能网卡产品 成就DeepSeek推理模型网络底座

    2025年初,DeepSeek-V3与DeepSeek-R1推理模型的开源引爆了AI社区,这两款产品作为通用千亿级模型与专用推理优化模型,为全球AI技术生态带来重大变革,不仅展示了中国
    的头像 发表于 03-31 11:56 544次阅读
    <b class='flag-5'>中科</b><b class='flag-5'>驭</b><b class='flag-5'>数</b>高性能网卡产品 成就DeepSeek<b class='flag-5'>推理模型</b>网络底座

    中科受邀参与华泰证券春季投资峰会 分享DPU在AI领域的应用

    华泰证券2025年春季投资峰会以“破局、重构、裂变”为主题,探讨全球变局下的新趋势。中科高级副总裁张宇受邀参与,分享DPU的产业应用。
    的头像 发表于 03-29 16:50 761次阅读

    郑州市领导莅临中科调研

    郑州市工业和信息化局党组成员、副局长曹永涛一行人来访中科,双方共同探讨在算力产业方向的合作。
    的头像 发表于 03-11 09:15 1032次阅读

    合肥市科技局莅临中科调研

    近日,合肥市科技局副局长吕波一行来访中科考察调研。
    的头像 发表于 02-27 14:27 1150次阅读

    中科K2-Pro芯片助力智算中心创新

    中科,作为国内DPU芯片与产品供应的领军者,凭借在DPU领域的深厚积累,不断推出创新产品。近日,公司基于全自研的国产芯片K2-Pro,推
    的头像 发表于 02-19 15:00 839次阅读

    中科获批设立博士后科研工作站 加强DPU产学研合作

    的设立是对企业在科技创新和高水平人才队伍建设的高度肯定和大力支持,将进一步推动中科在科研创新、DPU产学研合作、DPU高层次人才培养等领
    的头像 发表于 12-31 18:56 1142次阅读
    <b class='flag-5'>中科</b><b class='flag-5'>驭</b><b class='flag-5'>数</b>获批设立博士后科研工作站 加强<b class='flag-5'>DPU</b>产学研合作

    中科凭借在DPU芯片领域的积累被认定为北京市知识产权优势单位

    近日北京市知识产权局公布了2024年拟认定北京市知识产权优势单位名单,中科凭借在DPU芯片领域积累的知识产权成果以及在知识产权创造、运用、保护和管理等方面的优势,被认定为北京市知识
    的头像 发表于 12-31 18:49 1053次阅读
    <b class='flag-5'>中科</b><b class='flag-5'>驭</b><b class='flag-5'>数</b>凭借在<b class='flag-5'>DPU</b>芯片领域的积累被认定为北京市知识产权优势单位

    中科被认定为北京市知识产权优势单位

    近日北京市知识产权局公布了2024年拟认定北京市知识产权优势单位名单,中科凭借在DPU芯片领域积累的知识产权成果以及在知识产权创造、运用、保护和管理等方面的优势,被认定为北京市知识
    的头像 发表于 12-31 10:35 992次阅读

    中科受邀出席华泰证券金融科技峰会

    近日中科作为创新生态伙伴,受邀参与华泰证券在香港举办的2024年度金融科技峰会。中科创始
    的头像 发表于 12-13 15:19 1012次阅读