沐曦加速DeepSeek满血版单卡C500异构推理-电子发烧友网

近日，基于开源KTransformers架构的 CPU/GPU 异构推理能力，沐曦在曦云C500单卡GPU上成功实现DeepSeek-R1-671B满血版单并发解码吞吐16.5 tokens/s的优异成绩，相比社区官方数据提升20%以上。

相比国际高端GPU八卡满血版部署方案，本项目在单并发性能上具有极高的性价比。

KTransformers项目介绍

KTransformers （https://github.com/kvcache-ai/ktransformers）是由清华大学 KVCache.AI 团队联合趋境科技开源的一套轻量化高性能模型推理框架，能够在计算资源受限的场景下，通过 CPU/GPU 异构推理的方式更快速、更高效地实现大模型的本地推理。KTransformers旨在作为一个开放的平台，用于试验创新的大型语言模型（LLM）推理优化方案。同时，KTransformers也计划演进成本地化中小并发场景下针对稀疏MoE模型最具性价比的开源推理引擎，以及成为一个算子级优化的集成实验平台。沐曦正在做的工作非常符合开源社区和KTransformers开源项目的发展。

开源合作内容介绍

沐曦和KVCache.AI团队合作，通过对KTransformers模型框架进行细致的分析和调整，团队成功达成了曦云C500与KTransformers的无缝对接，为进一步性能优化奠定了坚实的基础。

完成基本功能适配后，沐曦研发团队继续对整个框架进行了优化。在深入研究了DeepSeek R1满血版模型的计算特点和性能瓶颈，结合曦云C500的优势，采用了一系列先进的技术和算法，详细如下：

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能；

2加入了GPU fused MoE功能，该功能有效利用曦云C500 64GB的高带宽显存和高速FP16/BF16运算能力，提升推理性能；

3配合自动/手工算子融合技术，高效的FP16/BF16精度Marlin算子（W4A16），以及经过深度优化的mcBLAS、PyTorch库、FlashInfer库。

此次合作不仅为KTransformers带来了性能上的提升，更体现了开源共创的价值：不同的团队和开发者通过资源共享、经验交流，共同推动技术的进步。沐曦和清华大学KVCache.AI团队的合作就是很好的例子，通过开源仓库汇聚了各自的优势，实现了技术上的突破，也为后续持续在开源社区推理优化提供了合作基础。

通过开源社区的共同努力，KTransformers将不断提升其性能和功能，为更多的用户提供优质的服务。同时，这也将促进整个人工智能行业的发展，推动技术的不断创新。单卡打开DeepSeek R1满血版并不断地提升性能只是一个开始，在开源共创的道路上，我们将迎来更多的惊喜和突破，共同开创国产算力生态和人工智能的无限未来。

关于沐曦

沐曦致力于为异构计算提供安全可靠的GPU芯片及解决方案，打造全栈GPU芯片产品，推出曦思N系列GPU用于智算推理，曦云C系列GPU用于通用计算，以及曦彩G系列GPU用于图形渲染，满足“高能效”及“高通用性”的算力需求。沐曦产品均采用完全自主研发的GPU IP，拥有完全自主的指令集和架构，配以兼容主流GPU生态的完整软件栈（MXMACA），具备高能效和高通用性的天然优势，能够为客户构建软硬件一体的全面生态解决方案，是“双碳”背景下推动数字经济建设和产业数字化、智能化转型升级的算力基石。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉