0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中科驭数高性能网卡产品 成就DeepSeek推理模型网络底座

中科驭数 来源:中科驭数 作者:中科驭数 2025-03-31 11:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2025年初,DeepSeek-V3与DeepSeek-R1推理模型的开源引爆了AI社区,这两款产品作为通用千亿级模型与专用推理优化模型,为全球AI技术生态带来重大变革,不仅展示了中国AGI技术的突破性进展,而且开源模型发展带来部署成本的极速下降,为定制化AGI服务,推理本地化部署,带来发展机遇,也掀起了新的一轮智算基础设施建设浪潮。

与按Token生成数量计费的AI云服务模式不同,出于数据安全的考虑,很多用户选择采用本地化部署推理集群的方式将AI能力集成到当前业务流中。由于整个推理应用的业务链条非常长,本地化部署需要综合考虑如下各个方面与需求的匹配度:

硬件与基础设施规划:包括GPU与专用芯片选型、网络架构优化与隔离、存储方案评估

模型优化与部署策略:包括量化压缩等推理加速技术选型、资源动态调度技术等

安全与合规性:需要综合考虑数据使用的便捷性与合规要求

高可用与容灾设计:包括故障自愈方案、数据备份等

成本控制:根据业务使用模式合理制定需求规格,严控成本

为了更好地服务客户完成本地化推理集群的选型与部署工作,近期中科驭数作为国内AI网络的头部DPU芯片产品供应商,从网络选型对推理集群性能影响的角度出发,设计与执行了一系列实验并收集了翔实的一手材料数据。

本实验环境共采用了DeepSeek-R1-Distill-Qwen-32B未量化版本作为基础模型,基于vLLM搭建了推理集群,并采用evalscope对推理效果完成了评估。本次时延共使用了两台双GPU服务器,服务器基本配置如下:

wKgZPGfqEmyAYGdXAABBxTO92jo515.png

首先,我们关注采用TCP方式作为底层推理网络基础时,进行了如下测试:

当采用2TP+2PP的模型切割方式时,获得了如下基础数据:

wKgZO2fqEm2AfHMkAACuI4a0wyQ954.png

随后切换到4TP+1PP模型切割模式,加大了不同节点间的矩阵数据交换需求,得到如下数据:

wKgZPGfqEm2ATKkCAACg0byqwjM265.png

为了更好的体现测试数据的公平性,本测试随后选择行业领导企业的成熟网卡产品进行了实验,得出了基本一致的数据测试结果。并且在TCP模式下,中科驭数FlexFlow-2200T设备基本达到了与国际一线厂商相同的能力水平。

wKgZO2fqEm2AWR7HAAESY-R7iYQ492.png

随后,本实验将底层基础网络技术切换为RDMA网络,进行了测试验证并收集到如下数据:

wKgZPGfqEm6ASuZiAAE2xuyU9TE948.png

通过对比可以得知在模型进行良好切分设计的情况下,RDMA网络并未能提升整体推理性能,但是在节点间需要传递张量数据的情况下,RDMA网络可大幅提升模型推理性能,同时在大并发规模时,能够更好的保持推理集群的服务稳定性。

wKgZO2fqEm6ANiufAAAtfole5AE22.webpwKgZPGfqEm6ABPWOAAAytATWCfA30.webp

通过一系列的实验结果,我们可以得出如下结论:

一、良好的模型切分设计可以大幅提升模型性能,此时无需引入复杂的RDMA网络运维,即可获得最佳的推理性能体验,从而获得最高的投入产出比。

二、在单台服务器GPU算力受限,不得不在节点间进行张量切分时,可以使用RDMA网络保证推理模型的服务性能与稳定性。但是引入RDMA带来性能提升的同时,成本的提升比例也是一致的。大家可以按照实际应用场景,考虑多方因素后综合选择。

wKgZO2fqEm-ACDe5AAAeYNUAnHM46.webp

中科驭数的作为国内全品种网卡的研发企业,基于全自研、国产芯片K2-Pro打造的FlexFlow-2200T网卡,可以承担智算大模型的网络底座,为您的智算模型增加一颗“中国芯”。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网卡
    +关注

    关注

    4

    文章

    334

    浏览量

    28726
  • DPU
    DPU
    +关注

    关注

    0

    文章

    407

    浏览量

    26226
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2825
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 1412次阅读
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>发布

    中科亮相2025 CCF全国高性能计算学术大会

    在昨日开幕的中国计算机学会全国高性能计算学术大会(CCF HPC China 2025)上,中科作为高通量以太网联盟成员参与联盟成果发布。同期举办的世界算力博览会上,
    的头像 发表于 08-20 09:39 640次阅读

    利用NVIDIA推理模型构建AI智能体

    开放式推理模型能够更快、更广泛地进行思考,为客户服务、网络安全、制造、物流和机器人等领域的 AI 智能体生成更明智的结果。
    的头像 发表于 08-13 14:32 1304次阅读
    利用NVIDIA<b class='flag-5'>推理模型</b>构建AI智能体

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    DeepSeek性能突破形成直观的认识。同时,介绍 DeepSeek模型家族 ,涵盖通用语言模型、多模态
    发表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案
    发表于 07-16 15:29

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    DeepSeek-V3 的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型,它在后训练
    发表于 06-09 14:38

    详解 LLM 推理模型的现状

    领域的最新研究进展,特别是自DeepSeekR1发布后兴起的推理时间计算扩展相关内容。在LLM中实施和改进推理简单来说,基于LLM的推理模型是一种旨在通过生成中间
    的头像 发表于 04-03 12:09 1261次阅读
    详解 LLM <b class='flag-5'>推理模型</b>的现状

    如何使用OpenVINO运行DeepSeek-R1蒸馏模型

    DeepSeek-R1在春节期间引发了全球科技界的热度,DeepSeek-R1 是由 DeepSeek 开发的开源推理模型,用于解决需要逻辑推理
    的头像 发表于 03-12 13:45 2043次阅读
    如何使用OpenVINO运行<b class='flag-5'>DeepSeek</b>-R1蒸馏<b class='flag-5'>模型</b>

    合肥市科技局莅临中科调研

    近日,合肥市科技局副局长吕波一行来访中科考察调研。
    的头像 发表于 02-27 14:27 1143次阅读

    中科K2-Pro芯片助力智算中心创新

    以其卓越的网络处理能力,成为支撑国产化推理集群应用需求的关键。该芯片不仅能够满足高性能计算、大数据分析等复杂任务对网络带宽和延迟的严苛要求,还在中科
    的头像 发表于 02-19 15:00 833次阅读

    OpenAI O3与DeepSeek R1:推理模型性能深度分析

    OpenAI刚推出的O3和DeepSeek的R1代表了推理模型领域的重大进步。这两种模型都因在各种基准测试中的出色表现而备受关注,引发了人们对人工智能的未来及其对各个行业的潜在影响的讨论。据我们所知
    的头像 发表于 02-18 11:07 1310次阅读

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    在 AI 技术日新月异的当下,新的模型与突破不断涌现。近期,DeepSeek(深度求索)模型以其卓越性能和亲民成本,迅速在全球开发者圈子里引发热议。作为一款强大的语言
    发表于 02-14 17:42

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    功能对比: 1. 核心定位差异 维度 DeepSeek-V3 DeepSeek-R1 目标场景 通用型任务(文本生成、多轮对话等) 复杂推理与数学能力优先(如STEM领域) 优化方向 平衡性能
    发表于 02-14 02:08

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    。 据悉,DeepSeek开源模型在多语言理解与复杂推理任务中一直表现出卓越的性能,其V3、R1等系列模型更是备受业界关注。而此次摩尔线程所
    的头像 发表于 02-06 13:49 1185次阅读

    科大讯飞发布星火深度推理模型X1

    今天,科大讯飞正式发布星火深度推理模型X1,星火4.0 Turbo底座全面升级,首发星火语音同传大模型
    的头像 发表于 01-15 15:54 1034次阅读