0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型竞争白热化!智谱、MiniMax密集发布,DeepSeek V4路线图曝光

章鹰观察 来源:章鹰观察 作者:章鹰 2026-02-12 15:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2月11日晚间,智谱发布新一代旗舰模型GLM-5,智谱称,GLM-5在Coding与Agent能力上,取得开源SOTA表现,在真实编程场景的使用体感逼近Claude Opus 4.5,擅长复杂系统工程与长程Agent任务。

智谱宣布,在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一。GLM-5拥有744B(激活 40B)参数模型,预训练数据从 23T 提升至 28.5T,更大规模的预训练算力显著提升了模型的通用智能水平。

GLM-5构建全新的“Slime”框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。在稀疏注意力机制方面,GLM-5首次集成 DeepSeek Sparse Attention,在维持长文本效果无损的同时,大幅降低模型部署成本,提升 Token Efficiency。

智谱称,GLM-5在编程能力上实现了对Claude Opus 4.5的对齐,在主流基准测试中取得开源模型SOTA分数。在SWE-bench-Verified和Terminal Bench 2.0中,GLM-5分别获得77.8和56.2的开源模型SOTA分数,性能超过Gemini 3 Pro。

GLM 系列模型受到全球开发者喜爱,在 GLM Coding Plan 全球爆量后,智谱公司不得不启动限售活动。值得关注的是,GLM系列已经完成已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。

2月12日,MiniMax宣布上线最新旗舰编程模型MiniMax M2.5,目前在模型界面已经可以选择调用。据官方介绍,这是一个为智能体场景原生设计的生产级模型,其编程与智能体性能对标国际顶尖模型Claude Opus 4.6,支持PC、App、跨端应用的全栈编程开发,尤其适配 Excel高阶处理、深度调研、PPT等生产力场景。M2.5模型激活参数量为10B,在显存占用和推理能效比上有优势,推理速度超过国际顶尖模型。

预计2月中旬,DeepSeek将会发布新一代旗舰大模型V4,根据近期由创办人梁文锋署名的论文及业内爆料,V4 将引入 mHC 与 Engram 两项核心架构创新,旨在显著降低训练与推理成本,并在编程能力上挑战目前的行业领导者。

在DeepSeek团队在最新发布的论文中提出,当前模型缺乏原生的知识查找机制,导致在处理静态知识时仍需耗费昂贵的算力重复推导。为此,V4 预计将引入 Engram(条件记忆模块),其设计理念是将“记忆”与“计算”解耦。

透过 Engram 技术,模型能将静态知识 (如实体、固定表达) 存储在廉价的 DRAM 中,而非昂贵的 GPU 高带宽内存 (HBM)。当模型需要推理时再快速查找,这将释放 GPU 算力专注于复杂的动态计算。此外,另一项关键技术 mHC(流形约束超连接) 则解决了超深层 Transformer 模型在训练时,信息流动瓶颈与不稳定的问题,透过严苛的数学「护栏」,提升模型在数学推理等任务上的表现。

据 美国The Information 报导,DeepSeek V4 的内部初步测试显示,其编程能力已超越市场上的顶级模型,包括 OpenAI 的 GPT 系列与 Anthropic 的 Claude。尽管 DeepSeek 先前推出的 V3.2 版本已在多项基准检验中超越部分竞争对手,但 V4 被视为核心架构的正式继任者,旨在进一步巩固其作为高性能、低成本 AI 方案的地位。

当下,大模型的竞争已经从卷开源社区,走向争夺AI时代入口的升级阶段。智谱此次发布新模型之后,大幅提价,说明国产模型的技术能力和市场竞争力明显提升。在大模型从“技术竞赛”转向“商业兑现”的关键阶段,谁能通过开源构建起活跃的开发者生态,并将其转化为可持续的收入流,谁才真正赢得下一阶段。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DeepSeek
    +关注

    关注

    2

    文章

    835

    浏览量

    3269
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    全球唯一?IBM更新量子计算路线图:2029年交付!

    电子发烧友网报道(文/梁浩斌)近年来,量子计算似乎正在取得越来越多突破,国内外都涌现出不少的技术以及产品突破。作为量子计算领域的先驱之一,IBM近日公布了其量子计算路线图,宣布将在2029年交付全球
    的头像 发表于 06-15 00:01 9087次阅读
    全球唯一?IBM更新量子计算<b class='flag-5'>路线图</b>:2029年交付!

    沐曦曦云C500/C550 GPU产品深度适配MiniMax M2.5模型

    2月13日晚间,MiniMax正式开源MiniMax M2.5模型。沐曦技术团队依托MXMACA软件栈,在24小时内完成曦云C500/C550 对该模型的深度适配。
    的头像 发表于 02-26 14:19 651次阅读

    模型 ai coding 比较

    tokens) 智GLM-5 / MiniMax M2.5 / DeepSeek V2(128K tokens) 4. 中文能力排名 智
    发表于 02-19 13:43

    投票总数超44万!星特杯投票进入白热化

    投票,激烈角逐多个星特杯奖项的最终胜利。 不少企业通过公众号、社群、客户渠道等方式主动发声,邀请合作伙伴、上下游客户参与星特杯投票,多个星特杯奖项的票数曲线在近期出现明显上扬,竞争态势愈发白热化。 在企业结构上,顺
    的头像 发表于 02-03 15:09 181次阅读
    投票总数超44万!星特杯投票进入<b class='flag-5'>白热化</b>

    天数智芯重磅公布四代架构路线图,对标英伟达

    电子发烧友综合报道 1月26日,天数智芯“智启芯程”合作伙伴大会盛大启幕。会上,天数智芯不仅公布了四代架构路线图,还发布了“彤央”边端产品,完成“云+边+端”全场景算力布局。   天数智芯AI与加速
    的头像 发表于 01-27 16:24 7825次阅读
    天数智芯重磅公布四代架构<b class='flag-5'>路线图</b>,对标英伟达

    中国2040年汽车技术路线图发布!内燃机还能再战15年?

    电子发烧友网报道(文/梁浩斌)在10月22日的第三十二届中国汽车工程学会年会开幕式上,由工业和信息化部指导、中国汽车工程学会组织修订编制的技术发展指导文件《节能与新能源汽车路线图3.0》正式发布
    的头像 发表于 11-26 08:42 8407次阅读
    中国2040年汽车技术<b class='flag-5'>路线图</b><b class='flag-5'>发布</b>!内燃机还能再战15年?

    纳芯微参编节能与新能源汽车技术路线图3.0正式发布

    近期,由工业和信息化部指导、中国汽车工程学会组织编制的《节能与新能源汽车技术路线图3.0》(以下简称“路线图3.0”)正式发布。该路线图汇聚汽车、能源、材料、人工智能等领域的2000余
    的头像 发表于 11-17 13:48 1672次阅读

    曦华科技参编节能与新能源汽车技术路线图3.0正式发布

    近日,由工业和信息化部指导、中国汽车工程学会组织修订编制的《节能与新能源汽车技术路线图3.0》(以下简称技术路线图3.0)正式发布。技术路线图3.0作为引领行业未来15年的核心文件,凝
    的头像 发表于 10-28 10:58 831次阅读

    储能战略规划:企业级储能技术路线图的制定方法与实践指南

    在 “双碳” 目标与能源转型加速推进的背景下,储能已从 “可选配置” 转变为企业优化能源成本、保障供电安全、提升绿色竞争力的 “核心基础设施”。企业如何制定科学合理的储能技术路线图?本文提供一个系统化的框架和方法论。
    的头像 发表于 10-25 09:36 1189次阅读
    储能战略规划:企业级储能技术<b class='flag-5'>路线图</b>的制定方法与实践指南

    成都汇阳投资关于大模型白热化,应用加速分化

           大模型: 加速多模态研发 ,闭源模型逐步逆袭开源 多模态技术路线尚未收敛 , 国内外大模型厂商持续刷新 SOAT。 图片领域 ,GPT-
    的头像 发表于 09-09 09:30 920次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    DeepSeek-V3中得到了优化升级。DeepSeek-V3的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 紧接着,在2025年1月20日,DeepSeek正式
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    DeepSeek-V3 的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理
    发表于 06-09 14:38

    上新:小米首个推理大模型开源 马斯克:下周推出Grok 3.5

    似乎国内外AI竞争日趋白热化,就在阿里巴巴发布Qwen3(通义千问3)之后,引发业界广泛关注;很多大厂在跟进,大模型不断上新: 阿里巴巴开源新一代通义千问
    的头像 发表于 04-30 16:08 1328次阅读

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    近日,DeepSeek正式发布了其大语言模型的全新小版本迭代——DeepSeek-V3-0324,这一版本在推理能力、代码生成、中文写作以及搜索能力等多个维度实现了显著提升。凭借其先进
    的头像 发表于 03-31 11:34 1281次阅读
    摩尔线程GPU成功适配<b class='flag-5'>Deepseek-V</b>3-0324大<b class='flag-5'>模型</b>

    HarmonyOS NEXT开发实战:DevEco Studio中DeepSeek的使用

    随着HarmonyOS Next的持续发布,鸿蒙系统对AI能力的支持显著增强。本文将深入探讨如何在鸿蒙应用中集成AI模型,结合接入DeepSeek,一起来探索开发鸿蒙原生应用的更多可能吧! 第一步
    发表于 03-07 14:56