0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为昇腾超节点系列产品全面支持DeepSeek V4模型

华为 来源:华为 2026-04-28 17:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。昇腾A3超节点系列产品也全面适配,同时为便于用户快速微调,提供了基于昇腾A3超节点的训练参考实现。

昇腾950超节点重新定义长文本推理的性能天花板,实现DeepSeek V4-Pro 20ms 和DeepSeek V4-Flash 10ms低时延推理

基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS(注:上述Benchmark数据均基于Offine推理模式采集,不包含Serving调度和框架负载均衡影响)。极低时延的实现源于昇腾950代际底层架构的三大升级:

原生精度加速:全面支持FP8、MXFP8、MXFP4等数据格式,在保证模型精度的同时,可实现内存占用降低50%+,计算能力翻倍。

稀疏访存优化:针对MoE模型的离散访存特征,通过大幅提升硬件级稀疏访存能力,有效解决了专家路由过程中的带宽瓶颈。

Vector与Cube共享Memory:创新的存储架构设计,实现了向量单元(Vector)与矩阵单元(Cube)的Memory共享,消除了大量片上数据搬运开销,极大地降低了端到端推理时延。

同时我们联合定义昇腾超节点,进一步大幅提升延迟和吞吐,同时实现低成本,且兼顾万卡级别的Scale out 集群规模。解决了长序列4K到1M 序列长度范围内都有低延迟和高吞吐。此架构支持基于NAND SSU的超低成本、超大容量、高性能KV Cache有效支撑支持长序列应用。

昇腾A3超节点系列产品,DeepSeek V4-Flash模型单卡Decode吞吐2000+TPS

Atlas 900 A3 SuperPoD液冷超节点及Atlas 800 A3风冷超节点采用平等架构、全局内存统一编址、点对点互联带宽达784GB/s。提供32到384多种规格满足不同业务需求,昇腾超节点是国内唯一成熟规模商用的超节点产品,满足互联网、运营商、金融等行业对大模型推理超高吞吐、超大并发的极致性能需求。

基于昇腾A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐,单卡吞吐持续提升。针对DeepSeek V4-Pro模型,昇腾A3同步支持推理部署,性能持续优化中。

PyPTO编程新范式与TileLang方案同步开源

为了解决自定义算子开发门槛高、周期长的痛点,昇腾CANN推出了PyPTO编程范式。PyPTO提供完善的Python API,使开发者能够以符合Python习惯的语法进行算子开发。

高效的算子开发:PyPTO依托内置高级编译优化,可自动完成流水编排与内存管理,使开发者无需关注硬件细节而专注于计算流表达,实现DeepSeek V4新一代模型算子开发周期可缩短至天级。

高性能Kernel自动生成:针对Attention、Compressor、mHC等复杂逻辑算子,PyPTO可自动生成高度优化的Kernel,避免开发者手动处理繁琐的同步与数据搬运,显著缩短从算法验证到部署落地的开发周期。

PTO ISA虚拟指令集跨代兼容:PyPTO基于PTO虚拟指令集(PTO ISA),实现了对硬件新特性的“零感适配”,针对不同代际芯片统一指令接口,实现了同一套算子代码,在不同代际芯片上的兼容实现。借助毕昇编译器的VF(Vector Fusion)自动融合能力,可在micro kernel级别实现更优融合。

TileLang社区生态:TileLang-Ascend是TileLang针对华为昇腾平台深度优化的实现,分别对应Tilelang-Ascend的Expert和Developer开发模式,提供AscendC基础指令和PTO AS两种对接层次,为各种编程前端语言和编译器提供多层开放接口。DeepSeek V4模型相关实现已在TileAI开源社区正式发布,后续将持续推进性能优化与功能迭代。

昇腾A2、A3及950全系列产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。昇腾始终致力于为世界提供新选择,以极致的算力与开放的生态,加速AI产业的繁荣。我们期待与广大客户及开发者携手共进,在DeepSeek V4的新纪元中探索无限可能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36211

    浏览量

    262700
  • 昇腾
    +关注

    关注

    1

    文章

    188

    浏览量

    7553
  • DeepSeek
    +关注

    关注

    2

    文章

    847

    浏览量

    3406

原文标题:DeepSeek V4正式发布,昇腾超节点系列产品全面支持

文章出处:【微信号:huaweicorp,微信公众号:华为】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    最全!一文看懂华为芯片和节点最新演进路线

    ,尤其是对中国人工智能发展而言。此次大会上,徐直军公布了未来三年芯片演进路线(Ascend 950、Ascend 960、Ascend 970将陆续推出)、鲲鹏处理器升级规划,并同时发布了多款
    的头像 发表于 09-20 07:22 1.2w次阅读
    最全!一文看懂<b class='flag-5'>华为</b><b class='flag-5'>昇</b><b class='flag-5'>腾</b>芯片和<b class='flag-5'>超</b><b class='flag-5'>节点</b>最新演进路线

    华为云首发适配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配。DeepSeek-V4拥有百万Token超长上下文,在Agent能力、
    的头像 发表于 04-28 17:01 189次阅读

    软通华方超节点服务器产品全面适配DeepSeek V4模型

    4月24日,随着DeepSeek V4模型的正式开源与发布,国产算力生态迎来关键拼图。软通动力旗下软通华方迅速响应,依托“鲲鹏+
    的头像 发表于 04-28 16:34 64次阅读

    燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型

    2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeekV4,同步推出1.6T
    的头像 发表于 04-28 15:19 152次阅读

    壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型

    完成DeepSeek-V4在旗舰通用GPU壁砺166系列产品的适配验证与优化,充分释放产品算力密度与带宽优势,全面赋能GenAI推理加速。
    的头像 发表于 04-28 14:04 188次阅读
    壁仞科技壁砺166<b class='flag-5'>系列</b>GPU<b class='flag-5'>产品</b>率先<b class='flag-5'>支持</b><b class='flag-5'>DeepSeek-V4</b><b class='flag-5'>模型</b>

    OpenClaw 全面接入DeepSeek-V4系列模型

    近期,OpenClaw 2026.4.24版本全面接入DeepSeek-V4系列模型,以V4-Flash为默认大脑,
    的头像 发表于 04-28 09:29 424次阅读

    国产AI算力:从DeepSeek V4华为协同看全栈自主之路

    Cache滑窗和压缩算法,显著降低计算与访存开销,在Agent能力、世界知识和推理性能上处于国内及开源领域领先地位。   与此同时,华为宣布
    的头像 发表于 04-25 07:02 7052次阅读

    长江计算G940K V2节点服务器完成对DeepSeek V4模型极速适配

      4月24日,备受行业关注的大模型产品DeepSeek V4正式发布。烽火通信旗下长江计算凭借深厚的技术积累与前瞻布局,以G940K
    的头像 发表于 04-24 17:40 1676次阅读

    海光信息DCU平台完成对DeepSeek V4模型极速适配

      4月24日,深度求索正式发布并开源DeepSeek V4。海光DCU同步完成对DeepSeek V4的Day0适配,以“
    的头像 发表于 04-24 17:32 1553次阅读

    香橙派系列开发板如何部署OpenClaw

    香橙派系列开发板解锁专业级智能体,OpenClaw拥抱高算力未来 上两篇文章我们给出了香橙派此芯及RK系列产品部署OpenClaw的教程,接下来我们将这只智能小龙虾接入到
    发表于 02-25 10:13

    中科曙光AI集群系统和scaleX640节点产品全面适配DeepSeek V3.2

    层实现“跨层协同”,曙光AI集群系统、scaleX640节点产品0day完成对DeepSeek新版本的深度适配与调优,
    的头像 发表于 12-05 14:32 965次阅读

    华为发布全球最强算力节点和集群

    华为全联接大会2025(HUAWEI CONNECT 2025)上,华为发布最强算力节点和集群,并表示将发展生态作为公司核心战略,提升到前所未有的战略高度。在计算领域,鲲鹏
    的头像 发表于 10-10 17:29 2457次阅读

    商汤科技联合华为实现节点适配多项创新

    近日,商汤大装置SenseCore与384节点率先完成全面适配。
    的头像 发表于 09-05 15:22 1023次阅读

    重磅!华为384节点真机登场,中兴携厂商首秀GPU节点实力

    作为中国自主的算力核弹,华为384节点真机首次亮相。中兴通讯、上海仪电、曦智科技、壁仞科技联合打造的光互联芯片及
    的头像 发表于 07-29 00:45 1.3w次阅读
    重磅!<b class='flag-5'>华为</b><b class='flag-5'>昇</b><b class='flag-5'>腾</b>384<b class='flag-5'>超</b><b class='flag-5'>节点</b>真机登场,中兴携厂商首秀GPU<b class='flag-5'>超</b><b class='flag-5'>节点</b>实力

    华为开发者大会2025(HDC 2025)亮点:华为云发布盘古大模型5.5 宣布新一代AI云服务上线

    HarmonyOS、AI云服务、盘古大模型等最新科技创新成果。 在主题演讲中,华为常务董事、华为云计算CEO张平安宣布基于CloudMa
    的头像 发表于 06-20 20:19 4671次阅读
    <b class='flag-5'>华为</b>开发者大会2025(HDC 2025)亮点:<b class='flag-5'>华为</b>云发布盘古大<b class='flag-5'>模型</b>5.5 宣布新一代<b class='flag-5'>昇</b><b class='flag-5'>腾</b>AI云服务上线