0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

李建忠:DeepSeek技术革新引领AI生态新变革

AI科技大本营 来源:AI科技大本营 2025-02-07 10:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】全球 AI 竞赛正酣,DeepSeek 的出现,宛如一石激水,打破了原有的平静。作为资深技术专家和行业观察者,CSDN 高级副总裁、Boolan 首席技术专家李建忠将在本文拨开“DeepSeek 热”的表象,深入探究其背后的技术创新逻辑和生态战略布局,揭示 DeepSeek 如何在全球 AI 竞争中脱颖而出,并预见其对未来 AI 格局可能产生的深远影响。

春节期间,DeepSeek 在全球科技圈引发强烈震动。“DeepSeek 时刻” 、“国运级创新”等热议现象在欧美科技界和国内不断涌现,西方主流媒体如《自然》、《纽约时报》、《经济学人》也纷纷报道,全球科学、技术、金融、政府、军事等领域的专家政要亦高度关注。尽管对于 DeepSeek 的评价各有侧重,但其出圈和影响力已不容忽视。

DeepSeek 到底做了什么?所谓的“DeepSeek 时刻”或者“国运级创新”到底意味着什么?

个人认为 DeepSeek 巨大的影响力不仅仅在于它在 AI 领域实现的几个方面的关键技术创新,更重要的是由其引发的对全球 AI 生态版图的升级和重塑。本文将从以下两个维度,谈谈我对 DeepSeek 的创新研究和思考:

(一)DeepSeek 的关键技术创新;

(二)DeepSeek 对于大模型的生态意义。

f61c64a4-e440-11ef-9310-92fbcf53809c.png

DeepSeek 的关键技术创新

1.开源强化学习引领推理计算范式转换

去年 9 月份 OpenAI 发布的 o1 模型展现了强化学习在推理计算方面的卓越能力,但是 OpenAI 既没有开源,技术报告也语焉不详,全球 AI 界虽然对大模型将迎来从预训练到推理计算的范式转换抱有很高期待,但一直没有成功的复现。直到 DeepSeek R1 的出现,无论是在以推理为主的各项国际公认的评测指标上、还是实际使用感受上,都超越 Claude Sonnet 3.5 、OpenAI GPT-4o 等一众前沿闭源模型。

DeepSeek 的推理计算路线也让很多业内专家叹为观止,其使用纯粹 RL(强化学习),无需 SFT(监督微调),不依赖冷启动数据,成功地实现了靠纯 RL(强化学习)来激励大模型的推理能力。DeepSeek 在 R1 的训练中也观察到了模型推理时“喃喃自语反思错误的 Aha Moment”(所谓大模型的“顿悟时刻”)。DeepSeek 的研究人员在其论文中谈到,这不仅是大模型的“Aha Moment”,也是研究团队的“Aha Moment”。

为什么说使用 RL 强化学习来做推理计算,为大模型带来了新的范式转换?人类智能的学习行为本质上分两种:模仿学习和探索学习。

预训练就是大模型的模仿学习,在 OpenAI o1 和 DeepSeek R1 两个模型之前,大模型主要进行的是“预训练”为主的模仿学习。喂给大模型什么样的数据,大模型才能学会什么。没教的一概不会,非要回答就会幻觉说胡话。

强化学习就是大模型的探索学习,这是在 OpenAI o1 和 DeepSeek R1 推理时主要的学习方式。在强化学习支持的推理计算下,大模型会不断探索优化、遇到错误会改正自己。不难理解,如果没有探索学习,仅仅基于预训练的模仿学习,大模型遇到复杂问题,很难超过人类专家。而有了探索学习,大模型才有可能发展出远超人类智能的水平,比如在 AlphaGo 当时大败围棋冠军李世石时著名的第 37 手(move 37),背后就是强化学习的功劳。

强化学习在 AI 领域并不新鲜,但将强化学习泛化地应用在大模型领域,成为大模型推理计算的核心,OpenAI o1 和 DeepSeek R1 属于开先河者。大模型领域也因此迎来了从预训练到推理计算的范式转换,而且因为开源的引领,相信 DeepSeek 有机会成为这一范式转换的领导者。

顺便提一句,DeepSeek 在工程领域也有很多可圈可点之处,比如从纯强化学习模型 R0,到使用 SFT、基于 V3 基座模型调教出来既有文采又懂推理、文理双全的 R1;再比如使用 R1 作为教师模型来蒸馏多个小模型,使得小模型也具备很高的推理能力。这些都会加速大模型向推理计算的范式转换。

2.MLA 和 MoE 等引领大模型架构创新

自 GPT 采用 Transformer 架构取得成功以来,经典 Transformer 架构一直是很多大模型的标配。但这不意味着 Transformer 是完美无缺的。DeepSeek 在 Transformer 架构的基础上也做了很多创新,主要包括两个方面:(1)多头潜在注意力即 MLA ;(2)混合专家模型即MoE。

MLA 用于高效推理,源自 DeepSeek V2 的原创,其显著降低了推理显存的消耗。MLA 主要通过改造注意力算子压缩 KV 缓存大小,将每个查询 KV 量减少 93.3%,实现了在同样容量下存储更多 KV 缓存,极大提升了推理效率。

MoE 用于高效训练,其由多个专家模型组成,通过部分激活给定任务所需的特定专家,而不是激活整个神经网络,从而降低计算消耗。MoE 非 DeepSeek 原创,但 DeepSeek 早在 V2 之前的代码和数学模型(DeepSeek-Coder&DeepSeek-Math),就从稠密架构转向 MoE 架构。V3 模型中更是大胆地使用了高难度的 256 个路由专家和 1 个共享专家,并创新的采用冗余专家,来实现负载均衡策略和训练目标。

3.“贴身定制”的软硬协同工程优化

由于众所周知的“芯片限制”,DeepSeek 在探索推理范式和模型架构创新的同时,在工程优化方面也丝毫没有放松。分别从计算、存储、通信等多个层面实施了软硬协同的工程优化策略:比如混合精度训练、跨节点通信优化、双流水线机制、DualPipe 算法等。甚至采用 PTX 代码(比 CUDA 更底层的汇编代码)进行底层优化,实现调整寄存器分配、线程调度、Warp 级别优化。

这种围绕模型需求,对硬件进行“贴身定制”的软硬协同工程优化,在一些手握充裕 GPU 卡资源的硅谷大厂技术人员眼里,很像一些“雕虫小技”。但我想说的是,技术界的雕虫小技不可小觑,技术领域的创新往往是从这些雕虫小技开始的。

回顾一下计算历史:Hadoop 如何倒逼 EMC、IBM 重构存储架构?ARM 精简指令集如何用低功耗设计颠覆英特尔 x86 帝国?TCP/IP 协议栈如何倒逼传统网络设备革命?记得图灵奖得主、RISC 指令发明人 David Patterson 曾经有言“硬件架构的创新往往诞生于软件需求对硬件的持续鞭策”。

如果假以时日,DeepSeek 成为开源大模型领域的标配后,很难说不会出现用“软件定义硬件”或者说“模型定义硬件”来倒逼硬件厂商,走出一条颠覆英伟达 CUDA 生态的道路。

f62db89e-e440-11ef-9310-92fbcf53809c.png

DeepSeek 对大模型生态的意义

1.大模型成本降到和搜索相当,AI 应用和智能体迎来爆发

DeepSeek 无疑引爆了大模型的成本之战:(1)自身通过“模型架构创新”和“软硬件协同工程优化”将大模型训练成本大幅度降低,大约是 Meta 的 1/10,OpenAI 的 1/20;(2)通过最开放的 MIT 开源协议,和将推理大模型蒸馏给开源小模型等一系列工程方法,为业界带来低成本的端侧模型商品

谷歌一次搜索成本大约 0.2 美分(0.002 美元),DeepSeek R1 推理成本百万 token 输出 16 元(2.2 美元), V3 对话输出百万 token 2 元(这只是 DeepSeek 官网对外的 API 价格,如果考虑实际发生的推理成本、会更低)。

作为对比:OpenAI o1 百万 token 输出 60 美元,是 DeepSeek R1 的 30 倍。如果假设平均一次推理输出大约 1000 token(相当于大约 500 个汉字)。那么 DeepSeek 一次推理输出价格大约 2.2 美元/1000 次=0.2 美分,对话输出大约 0.025 美分。

也就是说,DeepSeek将大模型的推理输出降到和谷歌一次搜索成本的价格相当,对话输出则大约是搜索的 1/10。这是具有指标意义的时刻。

我记得 2023 年 4 月份在硅谷访问时和 Google 做搜索的朋友聊,他谈到他们内部从上到下对 ChatGPT 持相当观望的态度,因为如果按照当时大模型的成本,来对比谷歌的搜索成本,谷歌马上会从一个盈利 600 亿美金的公司,变成一个亏损上千亿美金的公司。虽然,大家都预期大模型的成本会不断降低,但没想到不到 2 年时间,降低如此之快。

成本一直是技术革命背后的利器。搜索作为互联网的基础设施,正是因为极低的成本,才能快速完成对全球信息的整合,引爆了互联网革命。而 DeepSeek 在 2025 年开年将大模型成本降到和搜索相当,加上性价比极高的端侧模型,大模型将很快成为各种应用的基座支撑,GenAI 也将迎来应用爆发的 tipping point。同时随着强化学习在推理计算带来的范式转换,依赖推理能力的智能体 AI Agent 也将迎来加速,2025 年将是大模型应用和智能体爆发的元年。

2.AI 铁三角迎来新的变量,AI 产业版图有望被重塑

算法、算力、数据一直是 AI 的铁三角。随着大模型成为 AI 科技树的主流,基于 Transformer 架构、以预训练为主的模型算法,及其展现的 Scaling Law 一直在向业界传达一个信息:算力决定一切,训练数据越多、算力越大,模型性能就会越来越好,所谓“大力出奇迹“。AI 产业的竞争也变成了“谁拥有 GPU 越多、谁的 AI 能力越强”的军备竞赛。

但 DeepSeek 分别从 “后训练”和“预训练”两个阶段对这样的唯算力论提出了响亮的质疑:

(1)后训练阶段——开源强化学习加速推理计算的范式转换:随着强化学习成为后训练阶段的标配,推理计算将占比越来越大(相对预训练计算)。适应预训练模式的 GPU 大卡集群计算(英伟达的优势)将不再是未来 AI 算力需求的主流,而英伟达在推理计算方面的优势相对较弱,很多头部厂商如谷歌 TPU、AWS Inferentia、华为昇腾等专为推理优化的芯片,在特定负载下能效比显著高于通用 GPU,加上适应多元推理场景的分布式计算、边缘计算、端侧计算,推理算力领域将不会是英伟达一家独大的局面。

(2)预训练阶段——通过 MoE 和 MLA 等对经典 Transformer 架构进行的改进和迭代:这使得 DeepSeek 使用少于同行 10~20 倍的算力,完成了同等规模的预训练。另外,DeepSeek 使用 R1 作为教师模型来实现对小模型的“强化学习推理能力”蒸馏的工程实践,也会为很多模型训练带来一波红利。

DeepSeek 从 “后训练”和“预训练”两阶段对 AI 算法进行的创新,为“算法、算力、数据”构建的 AI 铁三角带来新的变量,有机会重新塑造未来 AI 产业的发展版图。

3.开源的长期主义是创新摇篮

最后,说说 DeepSeek 的开源战略。DeepSeek 支持商业友好的 MIT 许可证(最为宽松的开源协议之一),开源模型权重,没有对下游应用的限制(比如合成数据、蒸馏等)。论文开放的技术细节也很有诚意。在全球排名 Top 10 的头部模型中,DeepSeek 是开源程度最高的,比最早扛起开源大旗的 Meta 的 LLaMA 还要更 Open。这也是 DeepSeek V3 和 R1 在海内外引起众多权威专家、大佬认可+尊重、甚至赞不绝口的原因。不隐藏、不吹嘘,模型、评测、原理等都结结实实摆在那里。

顺便说一句, DeepSeek 的论文从一开始就大大方方地承认了其在微观设计上遵循了 LLaMA 的设计。相对国内各种扭扭捏捏、遮遮掩掩的“半开源”,以及违背开源协议、使用开源实现自己的闭源,DeepSeek 在模型开源方面可以说相当慷慨、也很敞亮。

DeepSeek 实际上在第一天就拥抱开源,回想起早期阅读《DeepSeek LLM :用长期主义来扩展开源语言模型》 这篇 DeepSeek 于 2024 年 1 月发表的论文,对开源的信仰和宣言,读起来让人心生敬意。深层次来看,DeepSeek 是真正深刻领悟开源精神、站在全人类创新的高度、从战略而非战术上拥抱开源的。

摘抄 DeepSeek 创始人梁文锋 2024 年 7 月份接受采访中的一段话“我们认为当下最重要的,是参与全球科技创新。长期以来,中国企业习惯于利用海外的技术创新,并通过应用层面进行商业化,但这种模式是不可持续的。我们的目标不是快速盈利,而是推动技术前沿的发展,从根本上促进整个生态的成长。开源和发表论文不会带来重大损失。对于技术人员来说,被同行追随本身就是一种成就。开源不仅仅是商业策略,更是一种文化。”以此观之,2025 年 1 月,DeepSeek V3 和 R1 给全球 AI 界带来的震撼,不足为奇。

DeepSeek 的成功点亮了中国技术界最纯粹、最原始的创新火种,他们会激励一代又一代的中国技术人为全世界做出自己独特的创新。致敬 DeepSeek。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41964

    浏览量

    303060
  • DeepSeek
    +关注

    关注

    2

    文章

    861

    浏览量

    3468

原文标题:李建忠:DeepSeek 关键技术创新及对 AI 生态的影响

文章出处:【微信号:AI科技大本营,微信公众号:AI科技大本营】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    声智科技携手华为鸿蒙推动声学AI技术革新

    作为华为鸿蒙生态的重要合作伙伴,声智在声学 AI 技术与应用服务领域持续深耕,与鸿蒙生态保持着紧密协同,不断拓展更具创造力的用户体验。声智 App 已率先登陆鸿蒙应用商店,全量适配鸿蒙
    的头像 发表于 12-04 15:44 967次阅读

    国产时钟缓冲器:技术革新与市场竞争

    随着科技的飞速发展,时钟缓冲器作为电子设备中的关键部件,其技术性能和市场需求也在不断提高。本文将以国产时钟缓冲器为切入点,深入探讨其技术革新和市场竞争。一、国产时钟缓冲器的技术革新1.高精度控制
    的头像 发表于 11-18 17:14 6414次阅读
    国产时钟缓冲器:<b class='flag-5'>技术革新</b>与市场竞争

    革新科研智造,引领材料未来——高通量智能科研制备工作站

    技术、智能硬件、测试仪器及自动化实验平台,致力于为能源科学与材料科学提供领先的解决方案。 携手共创,以人工智能引领研发新纪元 善思创兴始终致力于与行业伙伴紧密合作,通过推广高通量智能实验平台及AI模型
    发表于 09-27 14:17

    智慧科研新纪元:善思创兴引领AI与自动化变革

    同行,智创未来​ “科研融合智能,未来无限可能”。善思创兴正以其深厚的技术积累与创新的产品体系,推动科研模式从经验驱动向数据驱动、智能驱动的深刻变革。公司产品与理念已在如“2025超高能量密度电池研讨会(BB500-3)”及“首届先进储能材料产业高质量发展韶峰论坛”等行业
    发表于 09-05 16:55

    200G QSFP56 光模块:睿海光电引领 AI 时代光互连技术革新

    200G QSFP56 光模块:睿海光电引领 AI 时代光互连技术革新 在全球超算中心算力密度提升、智算集群规模扩张与 AI 大模型训练需求爆发的多重驱动下,数据中心的带宽需求正以每年
    的头像 发表于 08-19 15:05 1394次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    感谢电子发烧友提供学习Deepseek核心技术这本书的机会。 读完《Deepseek核心技术揭秘》,我深受触动,对人工智能领域有了全新的认识。了解D
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    感谢平台提供的书籍,实物如下 这本书主讲从年前开始火热的DeepSeek 。书籍看起来轻薄,但言简意赅,通俗易懂,总览全局,比较精炼。 第一章 介绍DeepSeek的一系列技术突破与创新。 第二章
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    时间减少,数据处理更流畅。这让我联想到工业生产中的流水线,AI 训练在此处借鉴类似思路,通过优化任务分配和流程,突破硬件限制,追求更高效率,体现了技术发展中持续优化、突破瓶颈的智慧。 三、细粒度
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    实现三重超越;而对开源生态技术趋势的前瞻探讨,则印证了DeepSeek“用开源击穿技术壁垒”的初心。 当DeepSeek-R1以60TPS
    发表于 07-17 11:59

    信而泰×DeepSeekAI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势
    发表于 07-16 15:29

    CES Asia 2025蓄势待发,聚焦低空经济与AI引领未来产业新变革

    Asia 2025 的举办,将为全球科技产业的发展注入新的动力。通过深入探讨低空经济与人工智能的技术突破、应用落地、政策监管与投资机遇,有望推动这两大领域实现跨越式发展,引领未来产业的新变革。让我们共同期待这场科技盛会的到来,
    发表于 07-09 10:29

    智慧舱联:AI驱动下的座舱生态革命

    ”概念,精准概括了汽车座舱的智能化演进方向:以芯片级别的通信+计算融合为技术革新路径,以AI驱动为核心要素,智慧舱联将引领智能座舱产业未来十年的生态革命。从网联到舱
    的头像 发表于 07-07 12:09 1511次阅读
    智慧舱联:<b class='flag-5'>AI</b>驱动下的座舱<b class='flag-5'>生态</b>革命

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术DeepSeek 核心技术揭秘

    2025年年初,DeepSeek 成为全球人工智能(AI)领域的焦点,其DeepSeek-V3 和DeepSeek-R1 版本在行业内引发了结构性震动。
    发表于 06-09 14:38

    耐能KNEO Pi开发板的三大技术革新

    在万物互联与AI普惠化的浪潮中,边缘计算正成为技术革新的核心战场。 传统开发板受限于算力、功耗与生态封闭性,难以满足实时AI推理与工业级部署的需求。
    的头像 发表于 06-06 09:58 1421次阅读

    2025研华嵌入式设计论坛上海站:聚焦Edge Computing &amp;amp; Edge AI,共探技术创新与生态融合

    Computing与Edge AI领域的最新技术进展、创新应用及生态构建。   一、引领前沿技术,洞见未来趋势 论坛在研华科技嵌入式物联网
    发表于 05-30 11:56 1324次阅读
    2025研华嵌入式设计论坛上海站:聚焦Edge Computing &amp;amp; Edge <b class='flag-5'>AI</b>,共探<b class='flag-5'>技术</b>创新与<b class='flag-5'>生态</b>融合