0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek 推理型AI尽显高效训练的小模型之威

全球TMT 来源:全球TMT 作者:全球TMT 2025-02-10 15:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

——在IBM院士Kush Varshney看来,全球AI竞赛中的地缘政治差异,可能没有人们想象的那么重要,他说:"一旦模型开源,它源自何处在很多方面就不再重要了。"

作者:Aili McConnon,IBM

2025年1月27日发表与IBM官网Think频道,点击阅读英文原文

北京2025年2月10日/美通社/ --DeepSeek-R1是中国初创公司DeepSeek 推出的人工智能模型,不久前,在人工智能开源平台Hugging Face上发布数小时,便跃居下载量和活跃度最高模型的榜首;同时因其促使投资者重新考虑英伟达(NVIDIA)等芯片制造商的估值,以及AI巨头为扩大其AI业务规模而进行的巨额投资,从而给金融市场也带来了震荡。


DeepSeek 推理型AI尽显高效训练的小模型之威

为何掀起如此大的波澜?DeepSeek-R1 是一款所谓"推理模型"的数字助理,在某些数学和编码任务的人工智能基准测试中,它的表现与OpenAI 的 o1 不相上下;而据该公司称,训练该系统所使用的芯片数量却要少得多,使用成本低约96%。

IBM AI 硬件部门的一位首席研究科学家兼经理Kaoutar El Maghraoui 说:"DeepSeek 无疑正在重塑人工智能的格局,它以开源的雄心和最先进的创新技术向巨头们发起挑战。"

与此同时,TikTok 母公司、中国科技巨头字节跳动最近发布了自己的推理型代理(智能体)UI-TARS,并声称该智能体在某些基准测试中优于OpenAI 的 GPT-4o、Anthropic 的Claude 和谷歌的 Gemini。字节跳动的智能体可以读取图形界面,进行推理,并采取自主和一步接一步的行动。

从初创公司到成熟巨头,中国的人工智能公司似乎正在缩小与美国竞争对手的差距,这在很大程度上要归功于它们愿意开源或与其他企业和软件开发商共享底层软件代码。IBM花岗岩(Granite)模型高级技术产品经理Abraham Daniels说:"DeepSeek已经能够在整个社区推广一些相当强大的模型。DeepSeek真的有可能加速人工智能的民主化。"DeepSeek-R1在Hugging Face 上提供,根据MIT 许可证,允许不受限制地用于商业用途。

去年夏天,中国公司快手(Kuaishou)发布了一款视频生成工具,它与OpenAI 的索拉(Sora)类似,但公众可以直接使用。Sora于去年2 月亮相,但直到12 月才正式发布,即便如此,也只有订阅了ChatGPT Pro 的用户才能使用其全部功能。Hugging Face 上的开发者还抢购了中国科技巨头腾讯和阿里巴巴的新开源模式。虽然Meta 已将其Llama 模型开源,但OpenAI 和谷歌在模型开发方面都主要采用闭源方式。

除了开源带来的好处外,DeepSeek 工程师在训练系统时使用的英伟达(NVIDIA)高度专业化芯片也仅为美国竞争对手的一小部分。例如,DeepSeek 工程师在发布DeepSeek-V3 模型时发表的研究论文称,他们只需要2000 个GPU(图形处理单元)或芯片就能训练出他们的模型。

推理模型

IBM院士(IBMFellow)Kush Varshney说:"真正令人印象深刻的是DeepSeek模型的推理能力。"推理模型本质上是自我验证或检查,代表了一种"元认知"或 "关于思考的思考"。"我们正开始将智慧融入到这些模型中,这是巨大的进步," Varshney 说。

去年9 月,当OpenAI 预览其o1 推理模型时,推理模型成为热门话题。与以往只给出答案而不解释推理过程的人工智能模型不同,它通过将复杂问题分成几个步骤来解决。推理模型可能需要多花几秒或几分钟来回答问题,因为它们会一步一步或以"思维链"的方式来反思自己的分析。

强化学习

DeepSeek-R1将思维链推理与强化学习相结合,在强化学习中,自主智能体在没有人类用户任何指令的情况下,通过反复试错学会执行任务。强化学习有别于更常用的学习形式,如监督学习和无监督学习,前者使用人工标注的数据进行预测或分类,后者旨在从无标注的数据中发现和学习隐藏的模式。

DeepSeek-R1 质疑了这样一种假设,即通过对正确或错误行为的标记示例进行训练,或者从隐藏模式中提取信息,模型的推理能力就会得到提高。密歇根州立大学博士生张逸骅撰写了数十篇机器学习方面的论文,他说:"它的核心假设很简约,却不那么简单:我们能否只通过奖励信号来教会模型正确回答,从而让它自己摸索出最优的思考方式?"

张逸骅说,对于他和像他一样习惯了传统监督微调的专家而言,"眼见DeepSeek这样的大型语言模型仅靠强化学习奖励就能学会‘更好地思考',着实令人惊艳",尤其是看到"模型出现真正的‘aha(顿悟)时刻',它能后退一步,发现错误并自我纠正"。

成本计算

DeepSeek 引发的热议部分源于其低廉的价格。根据该公司发布的技术报告,在圣诞节当天发布的DeepSeek-V3 的训练成本为550 万美元,而对于希望试用它的开发人员来说,价格要便宜得多。IBM杰出工程师Chris Hay说:"他们在模型成本方面所做的工作,以及他们训练模型所花费的时间,确实令人印象深刻。"

然而,IBM研究院Granite技术产品管理总监Kate Soule表示,低廉的价格标签可能并不是故事的全部。她说,550 万美元的成本"只代表了所需计算量的一小部分"。她说,这还不包括公司即使采用开源模型也要保持专有的成本细节,比如"强化学习、数据消减和超参数搜索的计算成本"。

无可置疑的是,DeepSeek 通过使用专家混合(MoE)架构实现了更高的成本效益,而这种架构大大降低了训练所需的资源。MoE 架构将人工智能模型划分为不同的子网络(或"专家"),每个子网络专门处理输入数据的一个子集。模型只激活特定任务所需的特定专家,而不是激活整个神经网络。因此,MoE 架构大大降低了预训练期间的计算成本,并在推理期间实现了更快的性能。在过去一年中,包括法国领先的人工智能公司Mistral和IBM在内的全球多家公司着力推广了MoE 架构,并通过将MoE 与开源相结合实现了更高的效率。(例如,IBM在2024年Think大会宣布与红帽一起推出InstructLab,一个推动大模型开源创新的革命性大模型对齐方法。)

就 IBM 的一系列开源Granite模型(采用MoE 架构开发)而言,企业能够以极低的成本实现前沿模型的性能,因为他们可以针对特定应用或用例调整大型预训练模型,从而有效创建更小的适用模型。将强大的功能集成到更小的稠密模型上,意味着这些模型可用于智能手机和其他在边缘运行的移动设备,如汽车计算机或工厂车间的智能传感器

这种采用较大模型并将其蒸馏成资源密集度较低的较小模型的过程也为DeepSeek 的成功做出了贡献。在发布其标志性的 R1 模型的同时,这家中国初创公司还发布了一系列更小的适合不同用途的模型。有趣的是,他们用实践证明,与一开始就对小型模型进行强化学习相比,将大型模型蒸馏成小型模型的推理效果更好。

全球性的人工智能洗牌?

随着这些新模型在某些基准测试中与老一代竞争对手相抗衡或超越它们时,它们将如何影响全球人工智能格局?El Maghraoui说:"全球人工智能格局不只关乎基准测试的原始性能,更关系到是否能以安全和道德的方式对这些模型进行端到端的整合。" 因此,El Maghraoui 表示,现在判断DeepSeek-R1 及其他产品是否会"改变人类互动、技术和企业应用",还为时尚早。

最终,"开发人员的采用率将决定DeepSeek 模型的受欢迎程度,"Daniels说。他表示期待"看到他们为模型发掘出的各种用例"。

在IBM院士Kush Varshney看来,全球AI竞赛中的地缘政治差异,可能没有人们想象的那么重要,他说:"一旦模型开源,它源自何处在很多方面就不再重要了。"

即刻开始在IBM watsonx.ai上使用DeepSeek——通过本教程,了解如何使用watsonx.ai以安全的方式部署DeepSeek-R1的精馏变体进行推理。



审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41107

    浏览量

    302587
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52268
  • DeepSeek
    +关注

    关注

    2

    文章

    839

    浏览量

    3398
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模型 ai coding 比较

    框架:llm-coding-bench v1.0 统一代码执行超时:10秒 统一随机种子:42 统一裁判模型DeepSeek-Chat(第三方交叉验证) ? 综合评分公式: scss 体验AI代码
    发表于 02-19 13:43

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    电子发烧友网综合报道,在人工智能迅猛发展的当下,AI推理芯片需求正呈爆发式增长。   AI推理,即支撑如ChatGPT这类AI
    的头像 发表于 02-03 17:15 3258次阅读

    什么是AI模型推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1469次阅读

    一文看懂AI训练推理与训推一体的底层关系

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持很多人听过“大模型”,但没搞懂两件事。我们总说AI有多强,但真正决定AI能否落地的,是它的两个阶段:训练(Traini
    的头像 发表于 09-19 11:58 2869次阅读
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>训练</b>、<b class='flag-5'>推理</b>与训推一体的底层关系

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    速看!EASY-EAI教你离线部署Deepseek R1大模型

    1.Deepseek简介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型
    的头像 发表于 07-25 15:22 1576次阅读
    速看!EASY-EAI教你离线部署<b class='flag-5'>Deepseek</b> R1大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    :路由专家) 这种创新让AI推理过程更接近人类思维,为解决复杂问题提供了新的思路。 共享专家宛如一位知识渊博的通才,它始终参与模型的每一次运算,就像一个稳定的基石,为整个模型提供着通
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    时间减少,数据处理更流畅。这让我联想到工业生产中的流水线,AI 训练在此处借鉴类似思路,通过优化任务分配和流程,突破硬件限制,追求更高效率,体现了技术发展中持续优化、突破瓶颈的智慧。 三、细粒度
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    剖析 DeepSeek-V3 的模型架构、训练框架、推理阶段优化、后训练优化等关键技术。从混合专家模型
    发表于 07-17 11:59

    信而泰×DeepSeekAI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI
    发表于 07-16 15:29

    超低延时重构AI推理体验!白山云发布“大模型API”产品

    优势,打造超低延时、超稳定、简单易用的API接口服务,降低大模型应用成本和开发门槛,助力企业和个人用户快速开启AI创新之旅。专注边缘推理,构建“云边端”算力协同新范
    的头像 发表于 07-02 17:26 1253次阅读
    超低延时重构<b class='flag-5'>AI</b><b class='flag-5'>推理</b>体验!白山云发布“大<b class='flag-5'>模型</b>API”产品

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    MoE 训练中的通信瓶颈,实现了高效稳定的训练DeepSeek-V3 是业界率先使用 FP8 进行混合精度训练的开源
    发表于 06-09 14:38

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型模型升级AI摄像机,进行
    发表于 04-28 11:11

    Deepseek海思SD3403边缘计算AI产品系统

    训练样本和训练 模型,具体商业价值和保密性,采用海思SD3403边缘计算AI服务器+多路安防监控IPC,让差异化AI视频系统, 成本控制极
    发表于 04-28 11:05