0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

何必把DeepSeek推上神坛?

脑极体 来源:脑极体 作者:脑极体 2025-02-10 19:54 次阅读
wKgZPGep6NWASWffAAmo07fSF90130.jpg

过年期间沉迷休息,心怀愧疚地无视了读者催我们写DeepSeek的要求。后来我发现,这催更不仅适用于科技博主,比如在一个跟AI毫无关系的搞笑博主评论区里,我看见有网友说,“你怎么还不讲DeepSeek?他血洗美国股市,干碎了美国人的幻想。那些欧美科技公司全都坐不住了”。

接下来这种“热情”愈演愈烈。什么“科技巨头全报废了”“AGI马上实现”“普通人再不学DeepSeek就晚了”,种种言论层出不穷。甚至还有DeepSeek受到境外大规模网络攻击,各大科技公司顶尖高手联手隐迹江湖的中国红客出手相救的爽文剧情。

wKgZO2ep6NaAApeuAABFKed6NRE207.jpg

舆论场到这里愈发离谱了起来。谈到DeepSeek,我们好像会自动陷入某种弥散性的狂热情绪。其中当然有DeepSeek足够出色的原因,有近几年AI大热的加持,但很难否认的是,其中也有地缘因素的推动。很多人迫切需要一个“歪果仁怕了、服了”的故事,在科技领域尤其如此。

为了迎合这种情绪,媒体与公众人物倾向于推波助澜。比如将对DeepSeek的讨论,推到哲学、国运、历史走向的高度。而这些讨论又会在流量的折射与层层断章取义之下被无尽放大,很快让一款AI模型承受了它本不该承受的地位、责任与期待。这就是所谓的“推上神坛”。

但神坛之上风景并不好。因为以往经验提醒我们,往往下一步就是“伤仲永”“泡沫破裂”等舆论反噬。对于初露锋芒的DeepSeek与研发团队来说,这种走向应该是弊大于利的。

因此我们想要讨论一下,目前阶段可以基于哪些共识来客观讨论DeepSeek。或者说,不妨试着拆掉舆论神坛,还原一个更真实也更朴素的DeepSeek。

wKgZPGep6NaAYrqkAAIsj228rh8111.jpg

不妨先释放一个“爆论”。那就是跟社交媒体发散的观点截然不同,DeepSeek其实并没有完成从0到1的核心技术突破。

DeepSeek大火之后,其研发团队与科技产业相关人士都在讨论中国AI不能只是跟随,必须完成从0到1。这个观点绝对正确,但目前的DeepSeek可能还不能成为这个观点的作证。

所谓核心技术突破,应该是主要技术路径的变化,或者达成效果的巨大升级。而DeepSeek目前最让人经验的技术能力,一个是R1模型带火的思维链推理过程,另一个是其联网检索的RAG效果表现出色。

wKgZO2ep6NaAaZTcAABroKnRXeg674.jpg

但这两条技术路径都不是DeepSeek开创的。思维链的兴起一般认为是OpenAI发布的o1模型。去年9月o1模型公布后,全球主流大模型纷纷跟进了思维链、推理大模型等能力。各家名称不同,但整体技术路线是非常一致的。DeepSeek确实把思维链的过程更完整、详细展示了出来,但其实也很容易看到其中大模型幻觉还很严重。

而在联网检索方面,其他厂商也早有布局,也就是所谓的RAG检索-增强-生成机制。这项技术最开始是为了解决大模型不具备实时信息的问题,并且帮助矫正大模型幻觉。早在2023年,百度发布文心一言时,RAG就已经是其核心能力的组成部分。

但要注意的是,没有从0到1的创新,不等于没有创新。DeepSeek在模型能力的优化上做了大量开拓性工作,比如通过GRPO算法让模型更加高效。或许可以说,DeepSeek集成了业界主流的,被验证过的技术路线。在其基础上完成了模型优化、能力加强与用户体验升级。

我们总是渴望从0到1,总是期待石破天惊。但客观来看,第一步和第一万步,迈出的距离是一样的。

wKgZPGep6NaACac5AAHyAff_JTM092.jpg

那么,DeepSeek真正引发全球关注的价值在哪里?在短短一个春节的发酵之后,可能很多人都忘记了它最早出圈的原因是通过软件和架构创新,用非常低的算力成本完成了DeepSeek-V3模型的训练。

DeepSeek-V3是我们今天用到的R1模型的基础模型。在研发团队发表的论文中,可以看到其仅仅使用了550万美元的算力训练成本就完成了6710亿参数大模型的训练。即使这项统计仅仅局限于基础模型训练的算力成本这一项,没有包含后续应用模型的强化学习、模型推理,以及人才成本、综合成本等项目,但也是毫无疑问颠覆了大模型训练的主流成本模型。

而最终DeepSeek实现的效果,也基本达到了o1为代表的主流大模型水平。虽然在模型效果上很难说有全面的超越,但其确实以软件算法的革新实现了硬件成本的下降。让低成本模型的效果不差于高成本,让开源模型的效果追赶闭源模型。

而DeepSeek“降低AI算力成本”的突破,又恰好发生在全球主流AI玩家囤积高端GPU,以此筑造产业护城河,以及美国对中国禁售高端AI芯片,希望以此打压中国AI的关键节点上。于是也就有了DeepSeek实现AI民主化,甚至助力打破地缘科技垄断的意味,从而产生了一款中国AI大模型让整个美国股市遭遇震荡的戏剧性一幕。

DeepSeek实现的训练效率提升与训练成本下降,在特殊的产业环境与国际环境下造成了连锁反应。但问题是很多平时不关注AI的朋友,可能并不知道AI大模型算力越大效果越好的Scaling Laws,也不知道算力垄断和禁售的背景信息,只知道短视频上说DeepSeek横空出世,歪果仁都慌了、怕了。这种缺乏前因后果的联想,给DeepSeek凭空造出了一座不应属于它的神坛。

推而广之,我们很多人都喜欢那些天才式的、戏剧化的创新。但在现实中,往往只有通过工程化能力,不断调优,降本,提效,技术创新才有应用和普及的可能。

比如我们都知道爱迪生发明了电灯,但容易忽略大规模电网实现了电力成本的极大下降。如果每家都要自己发电,那世界将一片漆黑。

“我们把成本打下来了。”

这句有点荒诞、俗套,略带反讽意味的话,其实才是中国产业化能力的缩影。

我们也不妨大大方方承认,包括DeepSeek在内的中国AI,在未来很长一段时间里最擅长的就是把成本给狠狠打下来。

wKgZO2ep6NeASpfQAAJVZY9KZJ4664.jpg

DeepSeek爆火之后,很多人都说这是技术的巨大胜利。预言AI的崛起会让人文学科和人文工作丧失价值。甚至“DeepSeek来了,学文科还有意义吗?”登上了热搜。

但如果我们多使用DeepSeek,仔细分析它与其他模型的区别,会发现一个相反的观点:DeepSeek恰好证明了文科与人文能力,在AI时代有多么的重要。

我们随机问一些人,对DeepSeek的使用体验是怎样的。他们应该会说跟DeepSeek对话感觉更有人味。

但这种人味,在很大程度上并不是理解、推理等AI技术层面的“人味”,而是模型在对话过程中展露出来了大量的幽默感、网感,以及更加符合年轻群体的对话习惯。还有就是DeepSeek具有相对更精妙的修辞能力,优美的文笔,还有不错的综合人文素养。

wKgZPGep6NeAL7h3AAKEqmPnPlo806.jpg

这些能力,让DeepSeek更贴近年轻用户的对话习惯和审美需求,并且能够给出更有话题度和传播度的回答。但问题是,这些能力其实都与技术的关系不大,而是很大程度上与训练语料的选取等人文能力紧密相关。

比如说,你让DeepSeek写首诗,它能够写出文艺青年热爱的语调与修辞。但其他主流国内大模型,也能写得平仄工整、辞藻华丽,但一眼看去就是酷似打油诗的“老干体”。

再比如,让DeepSeek预测一些未来趋势之类的问题,它的回答会特别类似网络科幻小说。虽然经不起推敲,但就是能让年轻人有种非常厉害,特别燃的感觉。

这些优点的来源不是技术,而是在于研发团队的年轻化、高审美,并且重视模型训练过程中的人文要素。反观很多主流大模型,由于最终听取汇报的领导层普遍是大于45岁,缺乏人文学科背景的中年男士,最终导致大模型对话也是班味十足,打起官腔来一套又一套。与其说年轻人在支持DeepSeek,不如说年轻人在支持自己的话语权和审美权。

顺便一提,DeepSeek的另一个人文优势,是它目前还有些“百无禁忌”。然而监管的铁拳虽迟但到,大家不必对AI的犀利和大胆有任何幻想。

DeepSeek以一种很巧妙的方式,实现了用户对话体验更好,传播效果更优秀。这些在技术层面之外,或许能够引起AI公司对产品体验的反思,以及对人文能力的重视。

如果我们狂吹DeepSeek的技术,导致对其人文体验的忽略,那其实也挺可惜的。

wKgZO2ep6NiAX1tWAAG-h4aLzjk183.jpg

综合以上这些侧面,我们可以拼凑出一个比较完整,且不带神圣光晕效果的DeepSeek:

它是一次综合的突破。这种突破由技术创新,人文素养、开源和低成本策略等要素所构成,并且在特殊的产业周期与国际环境背景下被发酵。

DeepSeek不是石破天惊的技术革命,但它足够成熟,足够有新意。这也在某种程度上解释了,为什么欧美的AI大佬与专家,对其比较一致的观点是“令人印象深刻”。

DeepSeek没有一步登天,我们也不必幻想一步登天。

它就是前进了一大步,而我们也足可为迈出了这一步而自信和骄傲。

我也十分反对中国只有DeepSeek的言论。事实上,中国有清晰的AI产业格局,有坚实的自主化AI软硬件体系,有数十万AI开发者,有非常积极的AI政策导向。这些都是更多DeepSeek的土壤。有这些因素在,我十分笃定地认为会有更多DeepSeek出现在这里。直到AI工业革命的开启,直到AGI的曙光。

何不把DeepSeek带下神坛?理性从容地看待它,用好它,用好中国AI事业的一切造物,才是AI在中国真正成熟的表现。

王阳明说,山高万仞,只登一步。DeepSeek这一步有它的意义,迈出这一步后,也不妨停下来听听山风,浅斟低唱一番。但也要清醒地知道,我们还在山间。

休息好了,高兴够了,也只有一件事要做。那就是迈出下一步。

wKgZO2ep6NiAOeAPAAHwPOoTG_w023.jpg
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    32686

    浏览量

    272093
  • Agi
    Agi
    +关注

    关注

    0

    文章

    91

    浏览量

    10337
  • 大模型
    +关注

    关注

    2

    文章

    2824

    浏览量

    3467
  • DeepSeek
    +关注

    关注

    1

    文章

    656

    浏览量

    495
收藏 人收藏

    评论

    相关推荐

    【幸狐Omni3576边缘计算套件试用体验】DeepSeek 部署及测试

    【幸狐 Omni3576 边缘计算套件测评】DeepSeek 部署及测试 本文介绍了幸狐 Omni3576 边缘计算套件实现 DeepSeek 部署及测试的相关流程,包括模型介绍、部署方案
    发表于 03-21 19:31

    DevEco Studio 联合小艺接入 DeepSeek,步骤更简单开发鸿蒙更专业

    随着小艺接入了 DeepSeek,智能体的问答变得更加丝滑流畅,让人不禁想到鸿蒙原生应用开发如果接入这个智能体会产生什么样的效果?确实,当我们负责开发原生鸿蒙应用的 DevEco Studio
    发表于 03-13 15:11

    何必舍近求远 计算工厂帮你一键部署DeepSeek云主机

    DeepSeek作为人工智能领域的新星,正以其惊人的性能和广泛的应用场景迅速走红。其火爆的现状得益于多项关键技术的突破,如强化学习框架的采用、高效的显存占用优化以及极低的训练成本。这些技术优势使得
    的头像 发表于 03-10 14:58 80次阅读
    <b class='flag-5'>何必</b>舍近求远 计算工厂帮你一键部署<b class='flag-5'>DeepSeek</b>云主机

    HarmonyOS NEXT开发实战:DevEco Studio中DeepSeek的使用

    随着HarmonyOS Next的持续发布,鸿蒙系统对AI能力的支持显著增强。本文将深入探讨如何在鸿蒙应用中集成AI模型,结合接入DeepSeek,一起来探索开发鸿蒙原生应用的更多可能吧! 第一步
    发表于 03-07 14:56

    聆思CSK6大模型语音开发板接入DeepSeek资料汇总(包含深度求索/火山引擎/硅基流动华为昇腾满血版)

    本帖最后由 jf_40317719 于 2025-3-6 21:20 编辑 近期也有不少开发者想把自己的智能硬件接入DeepSeek大模型,本篇就以聆思CSK6大模型开发板接入DeepSeek
    发表于 03-06 17:02

    北京大学两部 DeepSeek 秘籍新出炉!(附全集下载)

    直接“ AI 当人看”:* 我要(做)XX,要给 XX 用,希望达到 XX 效果,但担心 XX 问题 此外,我们还可以学会 “反向 PUA” DeepSeek ,让它通过自己的思考逻辑,输出更好
    发表于 02-27 17:57

    RK3588开发板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。DeepSeek-R1作为该系列最新迭代版本,实现了长文本处理效能跃迁、多模态
    发表于 02-27 16:45

    鸿蒙原生应用开发也可以使用DeepSeek

    近期DeepSeek火爆全球,那一样很火的开发鸿蒙原生应用的DevEco Studio如果它接入,会发生什么“化学反应”呢?下面我们将详细分享如何在DevEco Studio中利用CodeGPT
    发表于 02-20 18:06

    DeepSeek助力!深圳首批“AI公务员”上岗

    DeepSeek
    jf_15747056
    发布于 :2025年02月18日 17:37:43

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    在 AI 技术日新月异的当下,新的模型与突破不断涌现。近期,DeepSeek(深度求索)模型以其卓越性能和亲民成本,迅速在全球开发者圈子里引发热议。作为一款强大的语言模型,DeepSeek 不仅
    发表于 02-14 17:42

    ATK-DLRK3588开发板deepseek-r1-1.5b/7b部署指南

    本帖最后由 jf_85110202 于 2025-2-14 16:41 编辑 ATK-DLRK3588开发板deepseek-r1-1.5b/7b部署指南 最近deepseek爆火,当
    发表于 02-14 16:33

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的两个不同定位的大模型,其核心差异主要体现在目标场景、能力侧重和技术优化方向上。以下是二者的实质性
    发表于 02-14 02:08

    【实测】用全志A733平板搭建一个端侧Deepseek算力平台

    ​ 随着DeepSeek 的蒸馏技术的横空出世,端侧 SoC 芯片上运行大模型成为可能。那么端侧芯片跑大模型的效果如何呢?本文将在全志 A733 芯片平台上部署一个 DeepSeek-R1:1.5B
    发表于 02-13 10:19

    deepseek国产芯片加速 DeepSeek的国产AI芯片天团

    遥想两年前,ChatGPT给了世界一记AI冲击,而DeepSeek无疑是第二记冲击。我们不仅对DeepSeek强劲的性能所震撼,也让远在大洋彼岸的OpenAI、谷歌、META等一众玩家感受到莫大压力
    的头像 发表于 02-10 15:07 1731次阅读
    <b class='flag-5'>deepseek</b>国产芯片加速 <b class='flag-5'>DeepSeek</b>的国产AI芯片天团

    在龙芯3a6000上部署DeepSeek 和 Gemma2大模型

    serve 2.运行deepseek-r1大模型 到以下网站选择不同参数的大模型 https://ollama.com/library/deepseek-r1 新开一个终端执行如下命令 $ ollama
    发表于 02-07 19:35