0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

昆仑芯率先完成Deepseek训练推理全版本适配

昆仑芯科技 来源:昆仑芯科技 2025-02-06 15:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:本文是昆仑芯适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑芯P800上进行DeepSeek-V3/R1推理、训练的深度文章,干货满满、持续关注!

短短两周,DeepSeek成为全球增速最快的AI应用。凭借卓越的性能和广泛的应用场景,这匹大模型黑马已然成为行业标杆,为千行百业提供了AI解决方案新选择。 蛇年开工当天,昆仑芯新一代产品P800万卡集群点亮的消息引发关注,三万卡集群也将于近日点亮,为国产AI算力注入强大势能。

昆仑芯在大模型时代爆发出卓越的竞争力,而这正是基于十余年真实业务场景历练以及独特的自研优势。作为国产AI芯片引领者,昆仑芯已完成Deepseek训练推理全版本适配,且性能卓越、成本效率极致,一键部署,为广大开发者提供更快、更强、更省的训推体验。

全版本: 率先完成训练推理DeepSeek全版本适配

在模型适配方面,昆仑芯领先业界。在DeepSeek-V3/R1上线不久,昆仑芯便率先完成全版本模型适配,这其中包括DeepSeek MoE 模型及其蒸馏的Llama/Qwen等小规模dense模型(详见下方海报)。

同时,昆仑芯也已全面适配文心系列、Llama、Qwen、ChatGLM、Baichuan等各类大模型的推理和训练任务,性能优势明显。在各个行业客户、合作伙伴的业务场景中,昆仑芯已实际上线运行各类大模型任务;通过千卡和万卡集群为客户提供了稳定的服务和优秀的性能表现。

性能卓越: 前瞻产品定义、极致成本效率

得益于昆仑芯前瞻的产品定义,昆仑芯产品性能表现卓越,成本优势领先。 昆仑芯P800可以较好的支撑Deepseek系列MoE模型大规模训练任务,全面支持MLA、多专家并行等特性,仅需32台即可支持模型全参训练,高效完成模型持续训练和微调。 P800显存规格优于同类主流GPU20%-50%,对MoE架构更加友好,且率先支持8bit推理,单机8卡即可运行 671B 模型。正因如此,昆仑芯相较同类产品更加易于部署,同时可显著降低运行成本,轻松完成DeepSeek-V3/R1全版本推理任务。

开发者友好:

一键部署、即刻上线

P800生态完备,易用性强,可以实现对训练和推理任务的快速适配。P800快速适配支持了Deepseek-V3/R1的持续全参数训练,LoRA等PEFT能力,提供给用户开箱即用的训练体验。基于昆仑芯完整的软件生态栈,两个步骤即可轻松实现在昆仑芯P800上进行DeepSeek-V3/R1推理部署,对广大开发者十分友好。

欢迎体验: 两步完成DeepSeek-V3/R1模型推理部署

1 .资源准备

主要是镜像和模型,镜像提供完整的依赖环境开箱即用。

模型准备

昆仑芯P800支持8bit推理,下载官方权重后使用如下命令进行量化(后文附有下载方式);其他不同尺寸蒸馏模型则通过huggingface下载即可。

67da842e-e453-11ef-9310-92fbcf53809c.png

镜像准备(后文附有下载方式)

2 .启动服务&请求示例

server和client使用方式和vllm社区基本一致,零成本上手,如下:

启动服务

镜像中一键启动,采样和推理参数可根据实际业务场景在脚本中配置。

67f03d8c-e453-11ef-9310-92fbcf53809c.jpg

请求示例

下图为一个简单的请求示例:

680358a4-e453-11ef-9310-92fbcf53809c.jpg

关于昆仑芯科技

昆仑芯科技前身为百度智能芯片及架构部,在实际业务场景中深耕AI加速领域十余年,2021年4月完成独立融资。秉承着“让计算更智能”的使命,昆仑芯科技专注打造拥有强大通用性、易用性和高性能的通用AI芯片,并已实现数代芯片系列产品的量产及规模部署。新一代产品昆仑芯P800万卡集群已成功点亮,将进一步点亮3万卡集群。

大模型时代,昆仑芯科技已与智能产业的上下游企业建立良好的合作生态,通过向不同行业提供以AI芯片为基础的智能算力,在互联网、交通、金融、工业、教育等领域中广泛部署应用,促进了千行百业的智能化转型,并创造了巨大的产业和社会价值。

*本文借助DeepSeek生成

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53550

    浏览量

    459267
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296810
  • 昆仑芯科技
    +关注

    关注

    0

    文章

    37

    浏览量

    1009
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2819

原文标题:首发 | 昆仑芯 | 国产AI卡Deepseek训练推理全版本适配、性能卓越,一键部署等您来(附文档下载方式)

文章出处:【微信号:昆仑芯科技,微信公众号:昆仑芯科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中科曙光AI超集群系统和scaleX640超节点等产品全面适配DeepSeek V3.2

    层实现“跨层协同”,曙光AI超集群系统、scaleX640超节点等产品0day完成DeepSeek版本的深度适配与调优,支持各行各业客户进行
    的头像 发表于 12-05 14:32 274次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现了网络流量深度解析能力与AI智能推理分析能力的有机融合
    发表于 07-16 15:29

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    MoE 训练中的通信瓶颈,实现了高效稳定的训练DeepSeek-V3 是业界率先使用 FP8 进行混合精度训练的开源模型。 在
    发表于 06-09 14:38

    壁仞科技完成Qwen3旗舰模型适配

    近日,在高效适配Qwen3系列模型推理后,壁仞科技宣布完成旗舰版Qwen3-235B-A22B模型的训练适配和优化。由此,壁仞科技已实现Qw
    的头像 发表于 05-16 16:23 782次阅读

    壁仞科技支持DeepSeek-V3满血版训练推理

    DeepSeek-V3满血版在国产GPU平台的高效栈式训练推理,实现国产大模型与国产GPU的深度融合优化,开启国产算力新篇章。
    的头像 发表于 03-04 14:01 1925次阅读

    东软睿驰NeuSAR OS完成DeepSeek深度适配

    近日,东软睿驰面向AIDV时代的AIOS——NeuSAR OS完成DeepSeek大模型的深度适配,以更强大的决策规划与逻辑推理能力,为智能汽车软件开发提供更智能、高效的产品方案,推
    的头像 发表于 02-20 11:02 1186次阅读

    DeepSeek推出NSA机制,加速长上下文训练推理

    近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练
    的头像 发表于 02-19 14:01 927次阅读

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    ) 扩展上下文+结构化推理(支持更长复杂输入) 响应控制 通用流畅性优先 强化分步解释与中间过程可解释性 3. 技术架构差异 技术点 DeepSeek-V3 DeepSeek-R1 训练
    发表于 02-14 02:08

    天数智加速DeepSeek全系列模型适配

    R1-Distill-Qwen系列模型,包括1.5B、7B、14B和32B等不同参数版本,以及DeepSeek R1-Distill-Llama系列的8B和70B版本,均已完成
    的头像 发表于 02-10 15:30 1409次阅读

    AIBOX 系产品已适配 DeepSeek-R1

    国产AI大模型DeepSeek以出色的性价比和高效的模型技术,迅速成为全球AI关注的焦点。Firefly开源团队率先实现AIBOX系列产品对DeepSeek-R1的全面适配。R1模型性
    的头像 发表于 02-08 17:30 946次阅读
    AIBOX <b class='flag-5'>全</b>系产品已<b class='flag-5'>适配</b> <b class='flag-5'>DeepSeek</b>-R1

    瀚博完成DeepSeek版本训推适配

    国产高端GPU芯片提供商瀚博半导体(以下简称“瀚博”)已完成DeepSeek-V3与R1全系列模型训推适配,单机可支持V3与R1 671B量满血版模型部署。
    的头像 发表于 02-08 11:28 3071次阅读

    动力神速适配DeepSeek-R1大模型,AI芯片设计迈入“快车道”!

    近期,国产大模型 DeepSeek-R1横空出世,迅速成为AI领域的焦点。 动力在24小时内完成了与DeepSeek-R1大模型的适配
    的头像 发表于 02-07 16:55 903次阅读
    <b class='flag-5'>芯</b>动力神速<b class='flag-5'>适配</b><b class='flag-5'>DeepSeek</b>-R1大模型,AI芯片设计迈入“快车道”!

    DeepSeek-R1尺寸版本上线Gitee AI

    DeepSeek 全套蒸馏模型以及 V3 版本上线后,经过 Gitee AI 和沐曦团队两天紧锣密鼓的适配和机器筹备,DeepSeek-R1
    的头像 发表于 02-07 15:25 1830次阅读

    首发 | 昆仑 | 国产AI卡Deepseek训练推理版本适配、性能卓越,一键部署等您来(附文档下载方式)

    编者按:本文是昆仑适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑P800上进行
    发表于 02-06 15:28 1192次阅读
    首发 | <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b> | 国产AI卡<b class='flag-5'>Deepseek</b><b class='flag-5'>训练</b><b class='flag-5'>推理</b><b class='flag-5'>全</b><b class='flag-5'>版本</b><b class='flag-5'>适配</b>、性能卓越,一键部署等您来(附文档下载方式)

    燧原科技完成DeepSeek量模型高效适配

    DeepSeek-R1和V3为代表的开源模型系列在多语言理解和复杂推理任务中表现出色,极大优化了算力成本,并进一步改变了训练和部署的算法结构,这一技术创新将快速提升对于推理算力的需求
    的头像 发表于 02-06 10:46 1484次阅读