0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

沐曦加速DeepSeek满血版单卡C500异构推理

沐曦MetaX 来源:沐曦MetaX 2025-03-20 15:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,基于开源KTransformers架构的 CPU/GPU 异构推理能力,沐曦在曦云C500单卡GPU上成功实现DeepSeek-R1-671B满血版单并发解码吞吐16.5 tokens/s的优异成绩,相比社区官方数据提升20%以上。

相比国际高端GPU八卡满血版部署方案,本项目在单并发性能上具有极高的性价比。

KTransformers项目介绍

KTransformers (https://github.com/kvcache-ai/ktransformers)是由清华大学 KVCache.AI 团队联合趋境科技开源的一套轻量化高性能模型推理框架,能够在计算资源受限的场景下,通过 CPU/GPU 异构推理的方式更快速、更高效地实现大模型的本地推理。KTransformers旨在作为一个开放的平台,用于试验创新的大型语言模型(LLM)推理优化方案。同时,KTransformers也计划演进成本地化中小并发场景下针对稀疏MoE模型最具性价比的开源推理引擎,以及成为一个算子级优化的集成实验平台。沐曦正在做的工作非常符合开源社区和KTransformers开源项目的发展。

开源合作内容介绍

沐曦和KVCache.AI团队合作,通过对KTransformers模型框架进行细致的分析和调整,团队成功达成了曦云C500与KTransformers的无缝对接,为进一步性能优化奠定了坚实的基础。

完成基本功能适配后,沐曦研发团队继续对整个框架进行了优化。在深入研究了DeepSeek R1满血版模型的计算特点和性能瓶颈,结合曦云C500的优势,采用了一系列先进的技术和算法,详细如下:

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能;

2加入了GPU fused MoE功能,该功能有效利用曦云C500 64GB的高带宽显存和高速FP16/BF16运算能力,提升推理性能;

3配合自动/手工算子融合技术,高效的FP16/BF16精度Marlin算子(W4A16),以及经过深度优化的mcBLAS、PyTorch库、FlashInfer库。

此次合作不仅为KTransformers带来了性能上的提升,更体现了开源共创的价值:不同的团队和开发者通过资源共享、经验交流,共同推动技术的进步。沐曦和清华大学KVCache.AI团队的合作就是很好的例子,通过开源仓库汇聚了各自的优势,实现了技术上的突破,也为后续持续在开源社区推理优化提供了合作基础。

通过开源社区的共同努力,KTransformers将不断提升其性能和功能,为更多的用户提供优质的服务。同时,这也将促进整个人工智能行业的发展,推动技术的不断创新。单卡打开DeepSeek R1满血版并不断地提升性能只是一个开始,在开源共创的道路上,我们将迎来更多的惊喜和突破,共同开创国产算力生态和人工智能的无限未来。

关于沐曦

沐曦致力于为异构计算提供安全可靠的GPU芯片及解决方案,打造全栈GPU芯片产品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用计算,以及曦彩G系列GPU用于图形渲染,满足“高能效”及“高通用性”的算力需求。沐曦产品均采用完全自主研发的GPU IP,拥有完全自主的指令集和架构,配以兼容主流GPU生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案,是“双碳”背景下推动数字经济建设和产业数字化、智能化转型升级的算力基石。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5102

    浏览量

    134480
  • 开源
    +关注

    关注

    3

    文章

    4039

    浏览量

    45579
  • 沐曦
    +关注

    关注

    0

    文章

    56

    浏览量

    1659
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2825

原文标题:开源赋能:沐曦联合清华大学KVCache.AI团队加速DeepSeek满血版单卡C500异构推理

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DLInfer联手股份实现数据生成场景的实际落地

    近期,上海 AI 实验室 DeepLink 团队推出的 DLInfer 通过支持 LMDeploy 主流模型推理,助力股份C500
    的头像 发表于 12-09 14:55 297次阅读
    DLInfer联手<b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份实现数据生成场景的实际落地

    首款全国产通用GPU芯片发布 集成推出C600

    集成电路(南京)有限公司近日正式发布了首款全国产通用GPU——C600,这标志着国产高性能GPU实现历史性突破。 据新华日报报道显示,
    的头像 发表于 10-19 20:04 4.5w次阅读

    GPU与龙蜥操作系统完成适配

    集成电路(上海)股份有限公司(以下简称"")于 2020 年 9 月成立于上海,其拥有技术完备、设计和产业化经验丰富的团队,曾主导过十多款世界主流高性能 GPU 产品研发
    的头像 发表于 10-17 15:06 820次阅读

    C系列产品已支持TileLang

    近日,DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang,引发业界广泛关注。作为国产高性能GPU的代表,C系列产品已
    的头像 发表于 10-14 09:25 675次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C</b>系列产品已支持TileLang

    硅基流动携手首发基于云的Kimi K2推理服务

    今天,硅基流动联合集成电路(上海)股份有限公司(简称“”),全球首发基于
    的头像 发表于 07-23 17:33 1568次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    润和软件StackRUNS异构分布式推理框架的应用案例

    江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的StackRUNS异构分布式推理框架已在实际场景中取得显著成效,成功应用于大型园区多模态模型演练及高校满血DeepSeek-
    的头像 发表于 06-13 09:11 1098次阅读
    润和软件StackRUNS<b class='flag-5'>异构</b>分布式<b class='flag-5'>推理</b>框架的应用案例

    PaddleScience完成与AI芯片适配

    当前,PaddleScience已与展开深度合作,涵盖智能仿真、高性能计算、科学建模等多个方向。这一趋势正加速形成面向"Al for Science"的国产智算生态新格局。
    的头像 发表于 05-06 14:49 1375次阅读

    C500通用计算GPU与百度飞桨完成Ⅱ级兼容性测试

    近日,C500通用计算GPU与百度飞桨已完成Ⅱ级兼容性测试。测试结果显示,双方兼容性表现良好,整体运行稳定。这是
    的头像 发表于 03-31 14:22 1487次阅读

    壁仞科技支持DeepSeek-V3满血版训练推理

    DeepSeek在开源周开源了部分关键模块的代码及推理系统参考架构,再次引发行业震动,但目前尚未开源DeepSeek-V3 满血版完整训练代码。壁仞科技凭借八大自主创新技术,实现
    的头像 发表于 03-04 14:01 1929次阅读

    省内领先!南京率先引入DeepSeek满血

    近期 “国民级AI”DeepSeek 正凭借低成本高性能的优势 激发一波新的创新浪潮 2025年2月14日,南京市数据局在南京市政务云的华为昇腾 910B虚拟化AI算力资源池内,成功部署上线满血
    的头像 发表于 02-19 13:55 1183次阅读
    省内领先!南京率先引入<b class='flag-5'>DeepSeek</b><b class='flag-5'>满血</b>版

    探讨DeepSeek-R1满血版的推理部署与优化策略

    TL;DR 春节假期开始, 好像很多人都在开始卷DeepSeek-R1的推理了. 渣B也被兄弟团队带着一起卷了一阵, 其实推理中还有很多约束, 比较认同的是章老师的一个观点: “推理
    的头像 发表于 02-14 10:19 3223次阅读
    探讨<b class='flag-5'>DeepSeek</b>-R1<b class='flag-5'>满血</b>版的<b class='flag-5'>推理</b>部署与优化策略

    Gitee AI 联合首发全套 DeepSeek R1 千问蒸馏模型,全免费体验!

    -R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四个较小尺寸的 DeepSeek 模型。值得关注的是, 本次上线的四个模型
    的头像 发表于 02-10 09:56 1103次阅读
    Gitee AI 联合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首发全套 <b class='flag-5'>DeepSeek</b> R1 千问蒸馏模型,全免费体验!

    澎峰科技与完成联合测试,实现全面兼容

    近日,澎峰科技与科技宣布,双方已完成对PerfXLM推理引擎、PerfXCloud大模型服务平台与
    的头像 发表于 01-21 15:20 970次阅读

    澎峰科技计算软件栈与GPU完成适配和互认证

    ‍近期,澎峰科技与完成了对PerfXLM(推理引擎)、PerfXCloud(大模型服务平台)与
    的头像 发表于 01-21 09:51 1199次阅读