0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪成功适配DeepSeek-V3.2-Exp模型

寒武纪开发者 来源:寒武纪开发者 2025-10-11 17:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。代码地址和测试步骤见文末,开发者可以在寒武纪软硬件平台上第一时间体验DeepSeek-V3.2-Exp的亮点。

寒武纪一直高度重视大模型软件生态建设,支持以DeepSeek为代表的所有主流开源大模型。借助于长期活跃的生态建设和技术积累,寒武纪得以快速实现对DeepSeek-V3.2-Exp这一全新实验性模型架构的day 0适配和优化。

寒武纪一直重视芯片和算法的联合创新,致力于以软硬件协同的方式,优化大模型部署性能,降低部署成本。此前,我们对DeepSeek系列模型进行了深入的软硬件协同性能优化,达成了业界领先的算力利用率水平。针对本次的DeepSeek-V3.2-Exp新模型架构,寒武纪通过Triton算子开发实现了快速适配,利用BangC融合算子开发实现了极致性能优化,并基于计算与通信的并行策略,再次达成了业界领先的计算效率水平。依托DeepSeek-V3.2-Exp带来的全新DeepSeek Sparse Attention机制,叠加寒武纪的极致计算效率,可大幅降低长序列场景下的训推成本,共同为客户提供极具竞争力的软硬件解决方案。

↓ vLLM-MLU DeepSeek-V3.2-Exp适配的源码(点击文末“阅读原文”可直接跳转)↓

https://github.com/Cambricon/vllm-mlu

基于vLLM-MLU的DeepSeek-V3.2-Exp运行指南

一、环境准备

软件:需使用寒武纪训推一体镜像Cambricon Pytorch Container部署,镜像内预装运行vLLM-MLU的各项依赖。

硬件:4台8卡MLU服务器。

如需获取完整的软硬件运行环境,请通过官方渠道联系寒武纪。

二、运行步骤及结果展示

Step1:模型下载

模型文件请从Huggingface官网自行下载,后文用${MODEL_PATH}表示下载好的模型路径。

Step 2:启动容器

加载镜像,启动容器,命令如下:

# 加载镜像
docker load -i cambricon_pytorch_container-torch2.7.1-torchmlu1.28.0-ubuntu22.04-py310.tar.gz

# 启动容器
docker run -it --net=host 
  --shm-size'64gb'--privileged -it 
  --ulimitmemlock=-1${IMAGE_NAME}
  /bin/bash

# 安装社区vLLM 0.9.1版本
pushd${VLLM_SRC_PATH}/vllm
  VLLM_TARGET_DEVICE=empty pip install .
popd
# 安装寒武纪vLLM-mlu
pushd${VLLM_SRC_PATH}/vllm-mlu
  pip install .
popd

Step 3:启动Ray服务

在执行模型前,需要先启动ray服务。启动命令如下:


# 设置环境变量
exportGLOO_SOCKET_IFNAME=${INFERENCE_NAME}
exportNOSET_MLU_VISIBLE_DEVICES_ENV_VAR=1

# 主节点
ray start --head--port${port}
# 从节点
ray start --address='${master_ip}:${port}'

Step 4:运行离线推理

这里提供简易的离线推理脚本`offline_inference.py`:

importsys

fromvllmimportLLM, SamplingParams


defmain(model_path):
  # Sample prompts.
  prompts = [
    "Hello, my name is",
    "The capital of France is",
    "The future of AI is",
  ]
  sampling_params = SamplingParams(
    temperature=0.6, top_p=0.95, top_k=20, max_tokens=10)

  # Create an LLM.
  engine_args_dict = {
    "model": model_path,
    "tensor_parallel_size":32,
    "distributed_executor_backend":"ray",
    "enable_expert_parallel":True,
    "enable_prefix_caching":False,
    "enforce_eager":True,
    "trust_remote_code":True,
  }
  llm = LLM(**engine_args_dict)
  # Generate texts from the prompts.
  outputs = llm.generate(prompts, sampling_params)

  # Print the outputs.
  foroutputinoutputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt:{prompt!r}, Generated text:{generated_text!r}")


if__name__ =='__main__':
  main(sys[1])

运行如下命令,完成模型离线推理:


# 运行推理命令
pythonoffline_inference.py --model${MODEL_PATH}

运行结果符合预期,具体结果如下:

e67780d8-9d1d-11f0-8c8f-92fbcf53809c.jpg

Step 5:运行在线推理


分别启动server和client,完成推理服务,示例如下:

# server
vllmserve${MODEL_PATH}
  --port8100
  --max-model-len40000
  --distributed-executor-backend ray 
  --trust-remote-code 
  --tensor-parallel-size32
  --enable-expert-parallel 
  --no-enable-prefix-caching 
  --disable-log-requests 
  --enforce-eager

# client, we post a single request here.
curl -X POST http://localhost:8100/v1/completions 
  -H"Content-Type: application/json"
  -d'{"model":${MODEL_PATH}, 
     "prompt": "The future of AI is", 
     "max_tokens": 50, "temperature": 0.7 
    }'

运行结果如下:

e6d18b8c-9d1d-11f0-8c8f-92fbcf53809c.png

提取输入输出信息如下,符合预期。

Prompt:The futureofAIis
Output:being shapedbya numberofkey trends. These include the riseoflargelanguagemodels, the increasing useofAIinenterprise, the developmentofmore powerfulandefficient AI hardware,andthe growing focusonAI ethicsandsafety.

Largelanguagemodelsare

Step 6:运行交互式对话



使用vLLM-MLU框架,运行交互式对话demo,执行结果如下:

e72e304e-9d1d-11f0-8c8f-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45545
  • 寒武纪
    +关注

    关注

    13

    文章

    212

    浏览量

    74791
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2799

原文标题:寒武纪Day 0适配DeepSeek-V3.2-Exp,同步开源推理引擎vLLM-MLU

文章出处:【微信号:Cambricon_Developer,微信公众号:寒武纪开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    寒武纪科技上市了吗_寒武纪科技股权结构是怎样的

    寒武纪科技上市了吗_寒武纪科技股权结构是怎样的?北京中科寒武纪科技有限公司宣布完成1亿美元A轮融资,成为全球AI芯片界首个独角兽的初创公司。背后“独角兽”横空出世,麒麟970的关键部件NPU,采用了来自
    发表于 12-29 17:02 7.5w次阅读

    寒武纪芯片量产了吗_如何看待国产自主的寒武纪芯片

    寒武纪芯片量产了吗_如何看待国产自主的寒武纪芯片?智能芯片哪家强,还是中国寒武纪寒武纪发布会7颗AI芯片全解析,三年后,寒武纪要力争占据中
    发表于 12-29 17:16 2.7w次阅读

    寒武纪科技的股东都有谁_寒武纪科技十大股东

    寒武纪科技的战略投资方和合作方包括顶尖互联网企业(阿里巴巴)、顶尖服务器厂商(联想、曙光)、顶尖人工智能公司(科大讯飞,天使轮战略投资方)下面来了解一下寒武纪科技的十大股东or战略伙伴吧。
    发表于 01-05 10:37 17.3w次阅读

    寒武纪科技生态爆发,产业伙伴展示寒武纪芯片应用

    业界领先的智能芯片设计公司寒武纪科技今天于上海发布了Cambricon MLU100 云端智能芯片和板卡产品、寒武纪 1M 终端智能处理器 IP 产品。联想、曙光和科大讯飞作为寒武纪的合作伙伴同时发布了基于
    的头像 发表于 05-04 17:15 1.1w次阅读

    麒麟980将整合寒武纪科技的最新AI技术:“寒武纪1M”

    麒麟980。华为和台积电关系密切,比如16nm工艺的麒麟960、10nm工艺的麒麟970,都是双方合作的成果。 此外,麒麟980将整合寒武纪科技的最新AI技术,基本断定就是寒武纪刚刚发布的第三代IP产品“寒武纪1M”,后者正是基
    的头像 发表于 05-16 10:21 7249次阅读

    寒武纪先后推出了用于终端场景的寒武纪1A寒武纪1M系列芯片

    寒武纪董事长、CEO陈天石此前曾表示:“作为一家中立的芯片公司,我们走最正统的芯片设计公司的路径,把应用场景留给人工智能行业的客户,而我们自己做大家的垫脚石。我们有远大的志向,但长跑才刚刚开始,通往伟大芯片公司的赛程很长,寒武纪将沿大路而行。”
    发表于 07-20 17:17 1958次阅读

    寒武纪持续研发投入 2020年亏损收窄,营收稳步上涨

    转化为销售额。据了解,寒武纪现已成功推出的产品体系覆盖了云端、边缘端的智能芯片及其加速卡、终端智能处理器IP,可满足云、边、端不同规模的人工智能计算需求,同时提供贯通云边端的端云一体的软件栈。具体来看
    的头像 发表于 04-28 13:16 2497次阅读

    寒武纪的思元(MLU)云端智能加速卡与百川智能完成大模型适配,携手创新生成式AI

    近日,寒武纪思元(MLU)系列云端智能加速卡与百川智能旗下的大模型Baichuan2-53B、Baichuan2-13B、Baichuan2-7B等已完成全面适配寒武纪思元(MLU)
    的头像 发表于 11-06 20:32 2593次阅读
    <b class='flag-5'>寒武纪</b>的思元(MLU)云端智能加速卡与百川智能完成大<b class='flag-5'>模型</b><b class='flag-5'>适配</b>,携手创新生成式AI

    寒武纪与智象未来达成战略合作并完成大模型适配

    1月22日,寒武纪与智象未来 (HiDream.ai) 在北京签订战略合作协议,双方将通过资源共享、优势互补,依托各自在大模型领域的技术积累,持续产品适配,携手推动视觉大模型的创新与落
    的头像 发表于 01-23 13:46 1027次阅读
    <b class='flag-5'>寒武纪</b>与智象未来达成战略合作并完成大<b class='flag-5'>模型</b><b class='flag-5'>适配</b>

    寒武纪与智象未来联手,推动视觉大模型的技术创新与应用

    在大模型领域,寒武纪自底层硬件架构至基础软件更新,皆针对大模型的实际应用场景进行了细致优化。依托高效的推理引擎MagicMind,寒武纪思元(MLU)系列云端智能加速卡支持输入输出变换
    的头像 发表于 01-24 09:59 2264次阅读

    寒武纪增资全资子公司上海寒武纪

    近日,寒武纪科技公司发布公告,宣布了一项重要的增资计划。为了保障募投项目的顺利实施,并满足全资子公司上海寒武纪的实际运营需求,寒武纪决定使用募集资金1500万元及自有资金1.85亿元,合计2亿元
    的头像 发表于 02-05 13:44 1497次阅读

    寒武纪85后创始人陈天石身价超1500亿

    芯片生产和DeepSeek适配国产芯片的利好刺激下,加之还有国外投行高盛宣布将寒武纪-U目标价上调50%至1835元,AI芯片龙头寒武纪股价持续大涨。目前
    的头像 发表于 08-26 10:37 6108次阅读

    曙光AI超集群系统全面支持DeepSeek-V3.2-Exp

    9月29日,DeepSeek-V3.2-Exp正式发布并开源,引入创新的稀疏Attention架构。基于中国首个AI计算开放架构,芯片层、软件层、模型层实现“跨层协同”,使得曙光AI超集群系统完成对DeepSeek新版本的深度
    的头像 发表于 09-30 16:18 1456次阅读

    商汤科技与寒武纪达成战略合作

    近日,商汤科技与中科寒武纪科技股份有限公司(以下简称“寒武纪”)签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态。
    的头像 发表于 10-15 17:54 521次阅读

    寒武纪引领AI芯片软件新生态

    寒武纪成立的初衷是为“人工智能的大爆发”提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整
    的头像 发表于 11-06 11:23 711次阅读
    <b class='flag-5'>寒武纪</b>引领AI芯片软件新生态