
DeepSeek V3.2带来的最大亮点,是Agent能力的升级。到底有哪些核心特性?
首先是架构创新,9月29日,DeepSeek V3.2实验版发布,引入了DSA稀疏注意力机制,经过2个月的持续优化,12月1日推出正式版。DSA稀疏注意力机制可以实现高效率与高性能的平衡:显著降低长文本处理的计算成本和延迟,使模型能更专注于深度推理。
DeepSeek 表示,V3.2 模型具备类人推理能力,并能自动调用搜索引擎、计算器与程序代码执行器等工具,上下文的窗口扩展到128K,可以理解更长的文档或者处理大型的数据分析。这是该公司首次让模型同时支持“思考”与“非思考”两种运行模式,并让推理链与工具使用无缝结合。官方技术报告指出,V3.2 在多项 reasoning 基准中,与 Kimi-k2-thinking 与 GPT-5 表现相当。
DeepSeek V3.2 模型略低于Gemini-3.0-Pro,相比Kimi-K2-Thinking, V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。
值得关注的是,在硬件架构和企业支持方面,DeepSeek V3.2 模型不仅对英伟达的GPU做深度优化,让其支持FP8的混合精度计算,整体效率提升40%,同时他对华为昇腾、寒武纪等国产芯片进行适配,第一时间支持了华为昇腾,还完成了对VRLM框架的对接,并且和寒武纪同步发布了适配的源代码,确保在沐熙芯片上部署满血版的模型。AMD官方专门为DeepSeek V3.2 XP做了针对GPU的优化,全志科技在芯片和软件方面对DeepSeek进行了深度的协同。
另外,公司同步推出的 DeepSeek-V3.2-Speciale,其目标是将开源模型的推理能力推向极致,探索模型能力的边界。它主攻数学运算、长链推理与高难度计算任务,其在国际数学奥林匹亚(IMO)与国际信息奥林匹亚(IOI)等标准化测试上达到金牌水平,并在功能上对标 Google 最新的 Gemini-3 Pro。
经过测试显示,DeepSeek V3.2接近AI开源模型天花板级别,直接和顶级闭源AI大模型掰手腕。DeepSeek强调,在高度复杂任务上,Special模型大幅优于标准版本,但是消耗的Tokens也显著增多,成本更高,现在并没有开放给普通用户。
本文由电子发烧友原创,转载请注明以上来源。微信号zy1052625525。需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱zhangying@huaqiu.com。
-
AI大模型
+关注
关注
0文章
394浏览量
942 -
DeepSeek
+关注
关注
2文章
824浏览量
2799
发布评论请先 登录
GPT-5震撼发布:AI领域的重大飞跃
寒武纪成功适配DeepSeek-V3.2-Exp模型
曙光AI超集群系统全面支持DeepSeek-V3.2-Exp
OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT
【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得
HarmonyOS NEXT开发实战:DevEco Studio中DeepSeek的使用
北京大学两部 DeepSeek 秘籍新出炉!(附全集下载)
从性能到商业,Grok3、GPT-4o、DeepSeek如何重塑AI版图?

正面对决GPT-5和Germini-3,DeepSeek-V3.2震撼发布
评论