0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek模型为何掀起如此大的波澜

IBM中国 来源:IBM中国 2025-02-11 09:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Aili McConnon,IBM

2025年 1月 27 日发表与 IBM 官网 Think 频道,点击阅读英文原文

—— 在 IBM 院士 Kush Varshney 看来,全球 AI 竞赛中的地缘政治差异,可能没有人们想象的那么重要,他说:“一旦模型开源,它源自何处在很多方面就不再重要了。”

DeepSeek-R1 是中国初创公司 DeepSeek 推出的人工智能模型,不久前,在人工智能开源平台 Hugging Face 上发布数小时,便跃居下载量和活跃度最高模型的榜首;同时因其促使投资者重新考虑英伟达(NVIDIA)等芯片制造商的估值,以及 AI 巨头为扩大其AI业务规模而进行的巨额投资,从而给金融市场也带来了震荡。

为何掀起如此大的波澜?DeepSeek-R1 是一款所谓 “推理模型 ”的数字助理,在某些数学和编码任务的人工智能基准测试中,它的表现与 OpenAI 的 o1 不相上下;而据该公司称,训练该系统所使用的芯片数量却要少得多,使用成本低约 96%。

IBM AI 硬件部门的一位首席研究科学家兼经理 Kaoutar El Maghraoui 说:“DeepSeek 无疑正在重塑人工智能的格局,它以开源的雄心和最先进的创新技术向巨头们发起挑战。”

与此同时,TikTok 母公司、中国科技巨头字节跳动最近发布了自己的推理型代理(智能体)UI-TARS,并声称该智能体在某些基准测试中优于 OpenAI 的 GPT-4o、Anthropic 的 Claude 和谷歌的 Gemini。字节跳动的智能体可以读取图形界面,进行推理,并采取自主和一步接一步的行动。

从初创公司到成熟巨头,中国的人工智能公司似乎正在缩小与美国竞争对手的差距,这在很大程度上要归功于它们愿意开源或与其他企业和软件开发商共享底层软件代码。IBM 花岗岩(Granite)模型高级技术产品经理 Abraham Daniels说:“DeepSeek 已经能够在整个社区推广一些相当强大的模型。DeepSeek 真的有可能加速人工智能的民主化。”DeepSeek-R1 在 Hugging Face 上提供,根据 MIT 许可证,允许不受限制地用于商业用途。

去年夏天,中国公司快手(Kuaishou)发布了一款视频生成工具,它与 OpenAI 的索拉(Sora)类似,但公众可以直接使用。Sora 于去年 2 月亮相,但直到 12 月才正式发布,即便如此,也只有订阅了 ChatGPT Pro 的用户才能使用其全部功能。Hugging Face 上的开发者还抢购了中国科技巨头腾讯和阿里巴巴的新开源模式。虽然 Meta 已将其 Llama 模型开源,但 OpenAI 和谷歌在模型开发方面都主要采用闭源方式。

除了开源带来的好处外,DeepSeek 工程师在训练系统时使用的英伟达(NVIDIA)高度专业化芯片也仅为美国竞争对手的一小部分。例如,DeepSeek 工程师在发布 DeepSeek-V3 模型时发表的研究论文称,他们只需要 2000 个 GPU(图形处理单元)或芯片就能训练出他们的模型。

推理模型

IBM 院士(IBM Fellow) Kush Varshney说:“真正令人印象深刻的是 DeepSeek 模型的推理能力。”推理模型本质上是自我验证或检查,代表了一种 “元认知 ”或 “关于思考的思考”。“我们正开始将智慧融入到这些模型中,这是巨大的进步,”Varshney 说。

去年 9月,当 OpenAI 预览其 o1 推理模型时,推理模型成为热门话题。与以往只给出答案而不解释推理过程的人工智能模型不同,它通过将复杂问题分成几个步骤来解决。推理模型可能需要多花几秒或几分钟来回答问题,因为它们会一步一步或以 “思维链 ”的方式来反思自己的分析。

强化学习

DeepSeek-R1 将思维链推理与强化学习相结合,在强化学习中,自主智能体在没有人类用户任何指令的情况下,通过反复试错学会执行任务。强化学习有别于更常用的学习形式,如监督学习和无监督学习,前者使用人工标注的数据进行预测或分类,后者旨在从无标注的数据中发现和学习隐藏的模式。

DeepSeek-R1 质疑了这样一种假设,即通过对正确或错误行为的标记示例进行训练,或者从隐藏模式中提取信息,模型的推理能力就会得到提高。密歇根州立大学博士生张逸骅撰写了数十篇机器学习方面的论文,他说:“它的核心假设很简约,却不那么简单:我们能否只通过奖励信号来教会模型正确回答,从而让它自己摸索出最优的思考方式?”

张逸骅说,对于他和像他一样习惯了传统监督微调的专家而言,“眼见 DeepSeek 这样的大型语言模型仅靠强化学习奖励就能学会‘更好地思考’,着实令人惊艳”,尤其是看到“模型出现真正的‘aha (顿悟)时刻’,它能后退一步,发现错误并自我纠正”。

成本计算

DeepSeek 引发的热议部分源于其低廉的价格。根据该公司发布的技术报告,在圣诞节当天发布的 DeepSeek-V3 的训练成本为 550万美元,而对于希望试用它的开发人员来说,价格要便宜得多。IBM 杰出工程师 Chris Hay说:“他们在模型成本方面所做的工作,以及他们训练模型所花费的时间,确实令人印象深刻。”

然而,IBM 研究院 Granite 技术产品管理总监 Kate Soule表示,低廉的价格标签可能并不是故事的全部。她说,550万美元的成本 “只代表了所需计算量的一小部分”。她说,这还不包括公司即使采用开源模型也要保持专有的成本细节,比如 “强化学习、数据消减和超参数搜索的计算成本”。

无可置疑的是,DeepSeek 通过使用专家混合(MoE)架构实现了更高的成本效益,而这种架构大大降低了训练所需的资源。MoE 架构将人工智能模型划分为不同的子网络(或 “专家”),每个子网络专门处理输入数据的一个子集。模型只激活特定任务所需的特定专家,而不是激活整个神经网络。因此,MoE 架构大大降低了预训练期间的计算成本,并在推理期间实现了更快的性能。在过去一年中,包括法国领先的人工智能公司 Mistral 和 IBM 在内的全球多家公司着力推广了 MoE 架构,并通过将 MoE 与开源相结合实现了更高的效率。(例如,IBM 在 2024年 Think 大会宣布与红帽一起推出 InstructLab,一个推动大模型开源创新的革命性大模型对齐方法。)

就 IBM 的一系列开源 Granite 模型(采用 MoE 架构开发)而言,企业能够以极低的成本实现前沿模型的性能,因为他们可以针对特定应用或用例调整大型预训练模型,从而有效创建更小的适用模型。将强大的功能集成到更小的稠密模型上,意味着这些模型可用于智能手机和其他在边缘运行的移动设备,如汽车计算机或工厂车间的智能传感器

这种采用较大模型并将其蒸馏成资源密集度较低的较小模型的过程也为 DeepSeek 的成功做出了贡献。在发布其标志性的 R1 模型的同时,这家中国初创公司还发布了一系列更小的适合不同用途的模型。有趣的是,他们用实践证明,与一开始就对小型模型进行强化学习相比,将大型模型蒸馏成小型模型的推理效果更好。

全球性的人工智能洗牌?

随着这些新模型在某些基准测试中与老一代竞争对手相抗衡或超越它们时,它们将如何影响全球人工智能格局?El Maghraoui说:“全球人工智能格局不只关乎基准测试的原始性能,更关系到是否能以安全和道德的方式对这些模型进行端到端的整合。” 因此,El Maghraoui 表示,现在判断 DeepSeek-R1 及其他产品是否会 “改变人类互动、技术和企业应用 ”,还为时尚早。

最终,“开发人员的采用率将决定 DeepSeek 模型的受欢迎程度,”Daniels说。他表示期待“看到他们为模型发掘出的各种用例”。

在 IBM 院士 Kush Varshney看来,全球AI竞赛中的地缘政治差异,可能没有人们想象的那么重要,他说:“一旦模型开源,它源自何处在很多方面就不再重要了。”

开始在 IBM watsonx.ai 上使用 DeepSeek:即刻访问 https://ibm.biz/BdGera,了解如何使用 watsonx.ai 以安全的方式部署 DeepSeek-R1 的精馏变体进行推理。

关于 IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1879

    浏览量

    77123
  • AI
    AI
    +关注

    关注

    91

    文章

    41074

    浏览量

    302574
  • DeepSeek
    +关注

    关注

    2

    文章

    838

    浏览量

    3396

原文标题:DeepSeek 推理型 AI 尽显高效训练的小模型之威

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    光缆涨价:通信行业的波澜与应对

      近期,光缆市场掀起了一阵涨价的波澜,这一变化如同投入平静湖面的石子,在通信行业激起了层层涟漪。光缆作为通信网络的基础设施,其价格的波动牵动着众多企业的神经,也对整个行业的发展产生着深远的影响。
    的头像 发表于 04-10 15:50 234次阅读

    如何在ZYNQ本地部署DeepSeek模型

    一个将最小号 DeepSeek 模型部署到 AMD Zynq UltraScale+ MPSoC 处理系统的项目。
    的头像 发表于 12-19 15:43 7814次阅读
    如何在ZYNQ本地部署<b class='flag-5'>DeepSeek</b><b class='flag-5'>模型</b>

    DeepSeek模型如何在云服务器上部署?

    随着大型语言模型(LLM)的应用日益普及,许多开发者和企业希望将像DeepSeek这样的优秀模型部署到自己的云服务器上,以实现私有化、定制化服务并保障数据安全。本文将详细阐述部署DeepSee
    的头像 发表于 10-13 16:52 1138次阅读

    速看!EASY-EAI教你离线部署Deepseek R1大模型

    1.Deepseek简介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型DeepSeek-R1采用
    的头像 发表于 07-25 15:22 1575次阅读
    速看!EASY-EAI教你离线部署<b class='flag-5'>Deepseek</b> R1大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    -V3的版本区别, 深入了解Deepseek的技术细节,快速掌握大模型领域的前沿知识,洞察对行业应用的影响,提升自身在该领域的专业水平和竞争力。 本书流程非常清晰,先认识Deepseek性能,然后讲解原理,底层
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于DeepSeek-R1的技术剖析 第五章 从
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力机制等模块
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    模型圈子,其多项性能超过了当时处于领先地位的ChatGPT 4,也证明了不需要高昂的费用也能训练出优质大模型。这激起了我的好奇心,借着这次机会好好阅读一下DeepSeek的核心技术。 开箱+简介
    发表于 07-17 11:59

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    今年年初,开源大语言模型 (LLM) DeepSeek 在国内外人工智能 (AI) LLM 领域掀起热议。它在模型架构和训练、推理方法上实现创新,在性能和工程效率上带来了显著提升,并在
    的头像 发表于 07-03 14:37 1425次阅读
    Arm Neoverse N2平台实现<b class='flag-5'>DeepSeek</b>-R1满血版部署

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    DeepSeek-V3 的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型,它在后训练
    发表于 06-09 14:38

    智多晶FPGA设计工具HqFpga接入DeepSeek模型

    在 AI 赋能工程设计的时代浪潮中,智多晶率先迈出关键一步——智多晶正式宣布旗下 FPGA 设计工具 HqFpga 接入 DeepSeek模型,并推出 FPGA 设计专属 AI 助手——晶小助!这是 FPGA 领域首次引入大模型
    的头像 发表于 06-06 17:06 1746次阅读

    ElfBoard技术实战|ELF 2开发板本地部署DeepSeek模型的完整指南

    ELF 2开发板本地部署DeepSeek模型的完整指南
    的头像 发表于 05-16 11:13 2771次阅读
    ElfBoard技术实战|ELF 2开发板本地部署<b class='flag-5'>DeepSeek</b>大<b class='flag-5'>模型</b>的完整指南

    使用瑞萨MPU芯片RZ/V2H部署DeepSeek-R1模型

    DeepSeek大语言模型(LLM)可用于理解人类语言的交互方式,思考,并给出合适的回应。
    的头像 发表于 05-15 14:40 1139次阅读
    使用瑞萨MPU芯片RZ/V2H部署<b class='flag-5'>DeepSeek</b>-R1<b class='flag-5'>模型</b>

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型
    的头像 发表于 05-13 17:07 1861次阅读
    瑞萨RZ/V2H平台支持部署离线版<b class='flag-5'>DeepSeek</b> -R1大语言<b class='flag-5'>模型</b>

    DeepSeek 引领边缘 AI 芯片向更高性能、更低功耗、更强泛化能力的方向演进

    DeepSeek 系列模型概览 DeepSeek 系列包括大型语言模型(如 DeepSeek LLM、R1)及多模态
    的头像 发表于 05-09 10:27 2418次阅读