0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模力方舟上线DeepSeek-V4系列大模型

OSC开源社区 来源:模力方舟 2026-04-30 10:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:模力方舟

当模型开始承担更复杂的任务,真正影响体验的因素已经不只在单轮问答

开发者会把更长的代码仓库、更完整的项目文档、更复杂的需求说明、更连续的工具调用流程交给模型处理。模型需要在长上下文中保持稳定理解,也需要在多步推理、检索、规划、代码生成和 Agent 任务中持续工作。

围绕这一方向,DeepSeek 在今天上推出了DeepSeek-V4,现已在模力方舟正式上线。

DeepSeek-V4是 DeepSeek 最新发布的预览版模型系列,核心目标指向「高效百万 Token 上下文智能」。本次上线的两个版本均采用 MoE 架构,并支持最高 100 万 Token 上下文窗口:

DeepSeek-V4-Pro总参数规模为 1.6T,激活参数 49B,面向复杂推理、长上下文理解、代码与 Agent 等高强度任务。

DeepSeek-V4-Flash总参数规模为 284B,激活参数 13B,面向更高效率、更低成本的高频调用场景。

百万 Token 上下文:长任务进入工程可用区间

长上下文一直是大模型走向复杂任务的关键能力。

在研发、办公、知识库、数据分析等场景中,任务输入经常超过传统上下文窗口。比如一次性分析大型代码仓库、对比多份技术文档、梳理长周期项目记录、处理多轮 Agent 任务轨迹,都需要模型在更长输入中保持信息定位、关联分析和结果生成能力。

DeepSeek-V4系列将上下文长度推进到 100 万 Token,同时在长上下文效率上做了大幅优化。

根据 DeepSeek 技术报告,在 100 万 Token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2 仅需 27% 的单 Token 推理 FLOPs 和 10% 的 KV Cache;DeepSeek-V4-Flash 则进一步降至 10% 的单 Token 推理 FLOPs 和 7% 的 KV Cache。

这意味着,百万级上下文不再只是参数表中的规格,也开始更接近可持续调用的工程形态。

架构升级:CSA 与 HCA 解决长上下文效率问题

DeepSeek-V4 系列的核心升级之一,是混合注意力架构。

DeepSeek-V4 引入了 Compressed Sparse Attention(CSA)与 Heavily Compressed Attention(HCA)。CSA 会先压缩 KV Cache,再通过稀疏选择降低注意力计算开销;HCA 则采用更高压缩率,对超长序列进行更激进的 KV 压缩。

两者组合后,模型在处理长文本时可以减少注意力计算与缓存压力,同时保留对局部细节的建模能力。

在这一基础上,DeepSeek-V4 还加入了 Manifold-Constrained Hyper-Connections(mHC),用于增强传统残差连接,提高深层信号传播稳定性;训练侧则引入 Muon 优化器,以提升收敛效率和训练稳定性。

这些改动共同指向一个目标:让模型在更长上下文、更复杂推理、更高调用频率下保持可用性。

训练与后训练:从领域专家到统一模型能力

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均基于超过 32T 高质量 Token 进行预训练。

在后训练阶段,DeepSeek-V4 系列采用两阶段范式:先分别培养数学、代码、Agent、指令跟随等方向的领域专家模型,再通过 On-Policy Distillation(OPD)将不同能力整合到统一模型中。

这种路线适合复杂通用模型的能力融合。单一模型既要完成知识问答,也要完成代码、搜索、推理和工具调用任务,后训练环节就需要把多个专项能力统一到稳定的交互体验中。

Pro 与 Flash:一个强能力版本,一个高效率版本

DeepSeek-V4-Pro 更适合复杂任务。

在 DeepSeek 技术报告中,DeepSeek-V4-Pro-Max 作为 DeepSeek-V4-Pro 的最高推理强度模式,在知识、推理、代码、Agent、长上下文等方向均展现出较强表现。报告中也提到,DeepSeek-V4-Pro-Max 在公开 Agent 评测中可与 Kimi-K2.6、GLM-5.1 等开源模型处于同一梯队,并在 100 万 Token 长上下文任务中取得强结果。

DeepSeek-V4-Flash 的定位更偏效率。

它以 284B 总参数、13B 激活参数实现 100 万 Token 上下文支持,在更小激活规模下保留了较强推理能力。对于高频调用、批量处理、成本敏感型应用,Flash 版本更适合作为默认模型底座。

简单来说:

复杂推理、长文档分析、代码 Agent、高质量内容生成,优先选择 DeepSeek-V4-Pro。

日常问答、批量摘要、检索增强、轻量 Agent、高并发调用,优先选择 DeepSeek-V4-Flash。

中文写作、搜索与 Agent:更贴近日常生产力场景

除了标准评测,DeepSeek 技术报告还给出了面向真实任务的内部评估。

在中文写作任务中,DeepSeek-V4-Pro 覆盖功能写作与创意写作两类场景。报告显示,在功能写作对比中,DeepSeek-V4-Pro 相比 Gemini-3.1-Pro 获得 62.7% 的总体胜率;在创意写作中,其在指令跟随和写作质量两个维度也取得较高胜率。

在搜索增强问答场景中,DeepSeek-V4-Pro 覆盖 RAG 与 Agentic Search 两类模式。对于需要多步检索、对比、分析和规划的问题,Agentic Search 能够调用更多工具与上下文,适合更复杂的信息处理任务。

这类能力对开发者应用尤其关键。无论是企业知识库问答、技术资料检索、代码库理解,还是自动化工作流中的多工具协同,模型都需要在「看得长」「想得深」「调得动工具」之间取得平衡。

模力方舟已开放在线体验与 API 调用

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 现均已上线模力方舟。

开发者可以在模力方舟进行在线体验,也可以通过 API 接入到自己的应用、Agent 工作流、知识库系统或研发工具链中。

对于正在构建长上下文应用的团队,DeepSeek-V4-Pro 可以承担复杂文档、代码和推理任务;对于需要控制成本和调用效率的场景,DeepSeek-V4-Flash 可以作为更轻量的基础模型选择。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大模型
    +关注

    关注

    2

    文章

    3795

    浏览量

    5275
  • DeepSeek
    +关注

    关注

    2

    文章

    852

    浏览量

    3408

原文标题:模力方舟上线 DeepSeek-V4:百万 Token 上下文,Pro 与 Flash 双版本在线体验

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    开放原子AtomGit平台首发适配DeepSeek-V4系列模型

    2026年4月24日,DeepSeek-V4系列模型正式发布并同步开源。AtomGit平台为DeepSeek-V4昇腾适配版本首发平台,为开
    的头像 发表于 04-29 16:12 585次阅读

    登临科技GPU+架构深度适配DeepSeek-V4模型

    2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeek-V4,同步带来两大重磅版本 —— 1.6T参数的D
    的头像 发表于 04-29 16:07 779次阅读

    寒武纪Day 0适配DeepSeek-V4模型

    2026年4月24日,寒武纪已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的 Day
    的头像 发表于 04-29 10:14 231次阅读

    华为云首发适配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配。DeepSeek-V4拥有百万Token超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领
    的头像 发表于 04-28 17:01 418次阅读

    华为昇腾超节点系列产品全面支持DeepSeek V4模型

    2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,
    的头像 发表于 04-28 17:00 390次阅读

    软通华方超节点服务器产品全面适配DeepSeek V4模型

    4月24日,随着DeepSeek V4模型的正式开源与发布,国产算生态迎来关键拼图。软通动力旗下软通华方迅速响应,依托“鲲鹏+昇腾”双引
    的头像 发表于 04-28 16:34 163次阅读

    沐曦股份Day 0适配DeepSeek-V4-Flash模型

    4月24日,沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,沐曦股份还联合上海人工智能实验室KernelSwif
    的头像 发表于 04-28 15:53 198次阅读

    燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型

    2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeekV4,同步推出1.6T
    的头像 发表于 04-28 15:19 323次阅读

    国产AI换芯提速!DeepSeek V4和小米MiMo-2.5上线,主流国产芯片适配

    正式发布全新系列 AI 大模型 DeepSeek-V4 的预览版本并同步开源,凭借百万字超长上下文及领先的 Agent 能力引发业界高度关注。 4月25日,梁文锋出手了,
    的头像 发表于 04-28 15:13 6923次阅读
    国产AI换芯提速!<b class='flag-5'>DeepSeek</b> <b class='flag-5'>V4</b>和小米MiMo-2.5<b class='flag-5'>上线</b>,主流国产芯片适配

    壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型

    4月24日,深度求索团队宣布全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。依托成熟的BIRENSUPA软件栈与自研GP
    的头像 发表于 04-28 14:04 403次阅读
    壁仞科技壁砺166<b class='flag-5'>系列</b>GPU产品率先支持<b class='flag-5'>DeepSeek-V4</b><b class='flag-5'>模型</b>

    OpenClaw 全面接入DeepSeek-V4系列模型

    近期,OpenClaw 2026.4.24版本全面接入DeepSeek-V4系列模型,以V4-Flash为默认大脑,V4-Pro同步
    的头像 发表于 04-28 09:29 533次阅读

    荣耀YOYO首搭DeepSeek-V4模型 重塑安卓端侧AI新标杆

    近日,荣耀YOYO接入DeepSeek-V4模型,标志着安卓阵营在AI智能助理领域实现重大突破
    的头像 发表于 04-28 09:17 491次阅读

    方舟现已正式开源官方Skills仓库Moark Skills

    方舟现已正式开源官方 Skills 仓库 Moark Skills,首批上线图像生成、OCR、文档内容提取和文本合规审查四个技能模块。开发者和用户只需将技能文件导入 OpenCla
    的头像 发表于 03-03 16:47 1461次阅读
    <b class='flag-5'>模</b><b class='flag-5'>力</b><b class='flag-5'>方舟</b>现已正式开源官方Skills仓库Moark Skills

    方舟与TorchV达成战略合作

    近日,方舟与大模型知识协作系统 TorchV(杭州萌嘉网络科技有限公司)达成战略合作。双方将联合推出基于国产算的企业级解决方案,支持在
    的头像 发表于 03-03 16:28 485次阅读
    <b class='flag-5'>模</b><b class='flag-5'>力</b><b class='flag-5'>方舟</b>与TorchV达成战略合作

    月之暗面全新开源旗舰模型Kimi K2.5上线方舟

    方舟平台现已上线来自月之暗面(Moonshot AI)发布的全新开源旗舰模型Kimi K2.5。
    的头像 发表于 01-29 10:20 1243次阅读
    月之暗面全新开源旗舰<b class='flag-5'>模型</b>Kimi K2.5<b class='flag-5'>上线</b><b class='flag-5'>模</b><b class='flag-5'>力</b><b class='flag-5'>方舟</b>