0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

墨芯S40计算卡实现DeepSeek大模型部署

墨芯人工智能 来源:墨芯人工智能 2025-02-08 10:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,“国产之光”DeepSeek系列大模型发展迅猛,领跑开源大模型技术与生态,为中国人工智能行业带来了前所未有的变革动力,对全球科技竞争格局产生积极影响。

1稀疏计算

助力DeepSeek R1模型高效部署

日前,墨芯人工智能(Moffett AI)已完成与DeepSeek R1全系列蒸馏模型的推理部署。凭借自研的双稀疏算法技术,墨芯S40计算卡性能得到充分释放,为DeepSeek R1的高效部署提供了强劲的算力后盾,并在较短时间内完成DeepSeek-R1-70B* 和DeepSeek-R1-32B* 等中、大模型部署,且成功实现单卡支持DeepSeek-R1-32B*部署。

墨芯S40计算卡支持DeepSeek R1-70B和DeepSeek R1-32B推理部署

2软硬件协同

提升DeepSeek R1模型推理效率

DeepSeek-R1蒸馏模型是DeepSeek在模型压缩与优化领域的重要创新,通过蒸馏技术实现了高效、低成本的AI推理,适合企业内部实施部署,实现降本增效。

DeepSeek-R1-70B* 和DeepSeek-R1-32B*是DeepSeek-R1蒸馏模型的中大规模和大规模模型。DeepSeek-R1-32B*推理速度较快,实时性要求高的场景,擅长处理日常对话、文档生成和基础代码辅助;DeepSeek-R1-70B*侧重复杂逻辑推理、科研分析、高质量内容创作。

墨芯的稀疏计算技术则是通过算法与硬件的协同设计,有效地减少蒸馏模型部署所需的资源,其中稀疏化技术将模型中的稠密张量转换为等效的稀疏张量,使张量中产生大量的零元素,通过剪枝,有效消减模型冗余,以显著加快计算速度,实现了大模型的高效稀疏化,显著提升DeepSeek-R1系列蒸馏模型的推理速度并降低能耗。

此外,相较于传统推理平台,墨芯S40算力卡能够实现“单卡推理大模型”,简化了多卡分布式处理大模型的复杂部署流程,降低了时间、功耗和成本。这一优势在DeepSeek-R1蒸馏模型的部署中得到了充分体现,墨芯的S40计算卡满足了高算力需求,降低了总拥有成本(TCO),为 AI大模型在各行业的应用提供了支持。

墨芯人工智能与DeepSeek-R1蒸馏模型的成功部署,实现了国产AI算力基座和国产大模型在应用层面的“双向奔赴”,展示了稀疏计算技术在大模型领域的实践成果,也为企业部署“高性能”且“用得起”的大模型提供新思路。

备注:

DeepSeek-R1-70B*:指DeepSeek-R1-Distill-Llama-70B模型

DeepSeek-R1-32B*:指DeepSeek-R1-Distill-Qwen-32B模型

关于墨芯人工智能

墨芯人工智能是稀疏计算引领者,致力于提供云端和终端AI计算平台和服务。通过全球领先的稀疏计算技术优势,打造软硬协同的新一代智能计算平台。产品性能位居行业领先,相较行业主流产品,在算力、能效比与成本等方面均实现数量级优化。面向互联网、运营商、金融、制造、医疗、交通、能源、生命科学、自动驾驶等众多行业与场景,提供高算力、低功耗、高性价比的AI算力服务,赋能前沿科技的进步与社会的智能化升级。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 墨芯
    +关注

    关注

    0

    文章

    22

    浏览量

    1332
  • 大模型
    +关注

    关注

    2

    文章

    3771

    浏览量

    5273
  • DeepSeek
    +关注

    关注

    2

    文章

    839

    浏览量

    3406

原文标题:墨芯S40计算卡完成DeepSeek大模型部署, 支持单卡推理大模型

文章出处:【微信号:墨芯人工智能,微信公众号:墨芯人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能千集群正式签约入驻新疆算力中心

    在“东数西算”国家工程全面推进的大背景下,新疆凭借其丰富的清洁能源和独特的区位优势,正迅速崛起为国家级算力网络的关键枢纽。近日,人工智能(以下简称“”)的千
    的头像 发表于 12-30 17:27 935次阅读

    如何在ZYNQ本地部署DeepSeek模型

    一个将最小号 DeepSeek 模型部署到 AMD Zynq UltraScale+ MPSoC 处理系统的项目。
    的头像 发表于 12-19 15:43 7823次阅读
    如何在ZYNQ本地<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek</b><b class='flag-5'>模型</b>

    DeepSeek模型如何在云服务器上部署

    随着大型语言模型(LLM)的应用日益普及,许多开发者和企业希望将像DeepSeek这样的优秀模型部署到自己的云服务器上,以实现私有化、定制化
    的头像 发表于 10-13 16:52 1147次阅读

    广和通成功部署DeepSeek-R1-0528-Qwen3-8B模型

    近日,广和通在MediaTek MT8893平台上成功部署并运行了DeepSeek-R1-0528-Qwen3-8B模型,显著提升了端侧AI设备的处理效率与智能化水平,特别是在本地化复杂
    的头像 发表于 09-26 13:35 995次阅读

    人工智能亮相2025外滩大会

    9月10日至13日,人工智能在2025外滩大会盛大亮相,成为"数据与计算展区"备受瞩目的焦点之一。作为深耕稀疏计算的AI芯片企业,
    的头像 发表于 09-11 14:04 941次阅读

    本地部署openWebUI + ollama+DeepSeek 打造智能知识库并实现远程访问

    DeepSeek是一款由国内人工智能公司研发的大型语言模型实现了媲美OpenAI-o1模型的效果,拥有强大的自然语言处理能力,还大幅降低了推理模型
    的头像 发表于 09-10 16:41 5521次阅读
    本地<b class='flag-5'>部署</b>openWebUI + ollama+<b class='flag-5'>DeepSeek</b> 打造智能知识库并<b class='flag-5'>实现</b>远程访问

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    -V3的版本区别, 深入了解Deepseek的技术细节,快速掌握大模型领域的前沿知识,洞察对行业应用的影响,提升自身在该领域的专业水平和竞争力。 本书流程非常清晰,先认识Deepseek性能,然后讲解原理,底层
    发表于 07-22 22:14

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源大模型,网址为https://ollama.com, 试用该平台,可以在多平台上部署 Deepseek-R1, Qwen3, L
    发表于 07-19 15:45

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    的展望,大模型的训练方法、推理部署,到 GPU 硬件及推理模型的发展趋势,以前瞻性的视角为读者描绘了大模型的发展蓝图。 技惊四座的DeepSee
    发表于 07-17 11:59

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    今年年初,开源大语言模型 (LLM) DeepSeek 在国内外人工智能 (AI) LLM 领域掀起热议。它在模型架构和训练、推理方法上实现创新,在性能和工程效率上带来了显著提升,并在
    的头像 发表于 07-03 14:37 1432次阅读
    Arm Neoverse N2平台<b class='flag-5'>实现</b><b class='flag-5'>DeepSeek</b>-R1满血版<b class='flag-5'>部署</b>

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    MoE 训练中的通信瓶颈,实现了高效稳定的训练。DeepSeek-V3 是业界率先使用 FP8 进行混合精度训练的开源模型。 在推理部署方面,De
    发表于 06-09 14:38

    ElfBoard技术实战|ELF 2开发板本地部署DeepSeek模型的完整指南

    ELF 2开发板本地部署DeepSeek模型的完整指南
    的头像 发表于 05-16 11:13 2778次阅读
    ElfBoard技术实战|ELF 2开发板本地<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek</b>大<b class='flag-5'>模型</b>的完整指南

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型
    的头像 发表于 05-13 17:07 1865次阅读
    瑞萨RZ/V2H平台支持<b class='flag-5'>部署</b>离线版<b class='flag-5'>DeepSeek</b> -R1大语言<b class='flag-5'>模型</b>

    DeepSeek 引领边缘 AI 芯片向更高性能、更低功耗、更强泛化能力的方向演进

    )等优化技术,从而在性能上取得优异表现。但其计算和内存需求也极高:部署原始的大型模型往往需要多 GPU 集群(如数十到上百块 H100)才能在
    的头像 发表于 05-09 10:27 2421次阅读

    Deepseek海思SD3403边缘计算AI产品系统

    的训练样本和训练 模型,具体商业价值和保密性,采用海思SD3403边缘计算AI服务器+多路安防监控IPC,让差异化AI视频系统, 成本控制极具市场竞争力。 海思SD3403边缘计算AI部署
    发表于 04-28 11:05