0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

沐曦加速DeepSeek满血版单卡C500异构推理

沐曦MetaX 来源:沐曦MetaX 2025-03-20 15:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,基于开源KTransformers架构的 CPU/GPU 异构推理能力,沐曦在曦云C500单卡GPU上成功实现DeepSeek-R1-671B满血版单并发解码吞吐16.5 tokens/s的优异成绩,相比社区官方数据提升20%以上。

相比国际高端GPU八卡满血版部署方案,本项目在单并发性能上具有极高的性价比。

KTransformers项目介绍

KTransformers (https://github.com/kvcache-ai/ktransformers)是由清华大学 KVCache.AI 团队联合趋境科技开源的一套轻量化高性能模型推理框架,能够在计算资源受限的场景下,通过 CPU/GPU 异构推理的方式更快速、更高效地实现大模型的本地推理。KTransformers旨在作为一个开放的平台,用于试验创新的大型语言模型(LLM)推理优化方案。同时,KTransformers也计划演进成本地化中小并发场景下针对稀疏MoE模型最具性价比的开源推理引擎,以及成为一个算子级优化的集成实验平台。沐曦正在做的工作非常符合开源社区和KTransformers开源项目的发展。

开源合作内容介绍

沐曦和KVCache.AI团队合作,通过对KTransformers模型框架进行细致的分析和调整,团队成功达成了曦云C500与KTransformers的无缝对接,为进一步性能优化奠定了坚实的基础。

完成基本功能适配后,沐曦研发团队继续对整个框架进行了优化。在深入研究了DeepSeek R1满血版模型的计算特点和性能瓶颈,结合曦云C500的优势,采用了一系列先进的技术和算法,详细如下:

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能;

2加入了GPU fused MoE功能,该功能有效利用曦云C500 64GB的高带宽显存和高速FP16/BF16运算能力,提升推理性能;

3配合自动/手工算子融合技术,高效的FP16/BF16精度Marlin算子(W4A16),以及经过深度优化的mcBLAS、PyTorch库、FlashInfer库。

此次合作不仅为KTransformers带来了性能上的提升,更体现了开源共创的价值:不同的团队和开发者通过资源共享、经验交流,共同推动技术的进步。沐曦和清华大学KVCache.AI团队的合作就是很好的例子,通过开源仓库汇聚了各自的优势,实现了技术上的突破,也为后续持续在开源社区推理优化提供了合作基础。

通过开源社区的共同努力,KTransformers将不断提升其性能和功能,为更多的用户提供优质的服务。同时,这也将促进整个人工智能行业的发展,推动技术的不断创新。单卡打开DeepSeek R1满血版并不断地提升性能只是一个开始,在开源共创的道路上,我们将迎来更多的惊喜和突破,共同开创国产算力生态和人工智能的无限未来。

关于沐曦

沐曦致力于为异构计算提供安全可靠的GPU芯片及解决方案,打造全栈GPU芯片产品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用计算,以及曦彩G系列GPU用于图形渲染,满足“高能效”及“高通用性”的算力需求。沐曦产品均采用完全自主研发的GPU IP,拥有完全自主的指令集和架构,配以兼容主流GPU生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案,是“双碳”背景下推动数字经济建设和产业数字化、智能化转型升级的算力基石。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5307

    浏览量

    136157
  • 开源
    +关注

    关注

    3

    文章

    4405

    浏览量

    46546
  • 沐曦
    +关注

    关注

    1

    文章

    112

    浏览量

    1889
  • DeepSeek
    +关注

    关注

    2

    文章

    860

    浏览量

    3442

原文标题:开源赋能:沐曦联合清华大学KVCache.AI团队加速DeepSeek满血版单卡C500异构推理

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    股份Day 0适配DeepSeek-V4-Flash模型

    4月24日,股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,
    的头像 发表于 04-28 15:53 659次阅读

    股份C系列GPU产品Day 0适配百度文心ERNIE-Image文生图模型

    4月15日,百度文心大模型团队重磅推出ERNIE‑Image文生图模型,股份C 系列 GPU 已完成对 ERNIE‑Image 的Day 0 深度适配,同步支持 ERNIE‑
    的头像 发表于 04-15 17:39 563次阅读

    C500/C550 GPU产品深度适配MiniMax M2.5模型

    2月13日晚间,MiniMax正式开源MiniMax M2.5模型。技术团队依托MXMACA软件栈,在24小时内完成C500/C55
    的头像 发表于 02-26 14:19 1246次阅读

    C系列GPU Day 0 适配智谱全新一代大模型GLM-5

    智谱AI正式上线并开源全新一代大模型 GLM-5,股份实现 Day 0 深度适配。 GLM-5目前可于C 系列(C500/
    的头像 发表于 02-12 10:53 1189次阅读
    <b class='flag-5'>曦</b>云<b class='flag-5'>C</b>系列GPU Day 0 适配智谱全新一代大模型GLM-5

    C500/C550 GPU产品适配智谱GLM-OCR模型

    今天,智谱AI正式发布并开源GLM-OCR,以 “小尺寸、高精度” 实现文档解析能力新标杆。股份C500/C550 GPU充分发挥高
    的头像 发表于 02-03 11:36 995次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C500</b>/<b class='flag-5'>C</b>550 GPU产品适配智谱GLM-OCR模型

    C500/C550 GPU产品适配腾讯混元图像3.0图生图模型

    近日,腾讯混元团队宣布开源混元图像3.0图生图版本(HunyuanImage 3.0-Instruct),股份C500/C550 2
    的头像 发表于 02-02 14:43 637次阅读

    C500/C550 GPU产品适配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上线,C500/C550 Day 0 适配Pad
    的头像 发表于 01-30 10:19 1541次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C500</b>/<b class='flag-5'>C</b>550 GPU产品适配PaddleOCR-VL-1.5模型

    C500/C550 GPU产品适配腾讯混元开源翻译模型1.5版本

    种民汉/方言,除了中文、英语、日语等常见语种,也包含捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种。目前两个模型均在腾讯混元官网上线,通过开源社区也可以直接下载使用。 C500/
    的头像 发表于 01-06 14:13 683次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C500</b>/<b class='flag-5'>C</b>550 GPU产品适配腾讯混元开源翻译模型1.5版本

    股份MXMACA软件栈3.3.0.X版本技术解析

    近期,股份发布了MXMACA软件栈(以下简称“MACA”)的3.3.0.X版本,MACA套件是面向
    的头像 发表于 12-24 09:08 1252次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份MXMACA软件栈3.3.0.X版本技术解析

    股份C系列GPU Day 0适配智谱GLM-4.6V多模态大模型

    12月8日智谱AI发布并开源 GLM-4.6V 系列多模态大模型,股份C系列GPU完成Day 0适配。
    的头像 发表于 12-17 14:28 901次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b>云<b class='flag-5'>C</b>系列GPU Day 0适配智谱GLM-4.6V多模态大模型

    DLInfer联手股份实现数据生成场景的实际落地

    近期,上海 AI 实验室 DeepLink 团队推出的 DLInfer 通过支持 LMDeploy 主流模型推理,助力股份C500
    的头像 发表于 12-09 14:55 928次阅读
    DLInfer联手<b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份实现数据生成场景的实际落地

    首款全国产通用GPU芯片发布 集成推出C600

    集成电路(南京)有限公司近日正式发布了首款全国产通用GPU——C600,这标志着国产高性能GPU实现历史性突破。 据新华日报报道显示,
    的头像 发表于 10-19 20:04 4.7w次阅读

    C系列产品已支持TileLang

    近日,DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang,引发业界广泛关注。作为国产高性能GPU的代表,C系列产品已
    的头像 发表于 10-14 09:25 1402次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C</b>系列产品已支持TileLang

    硅基流动携手首发基于云的Kimi K2推理服务

    今天,硅基流动联合集成电路(上海)股份有限公司(简称“”),全球首发基于
    的头像 发表于 07-23 17:33 2232次阅读

    润和软件StackRUNS异构分布式推理框架的应用案例

    江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的StackRUNS异构分布式推理框架已在实际场景中取得显著成效,成功应用于大型园区多模态模型演练及高校满血DeepSeek-
    的头像 发表于 06-13 09:11 1485次阅读
    润和软件StackRUNS<b class='flag-5'>异构</b>分布式<b class='flag-5'>推理</b>框架的应用案例