0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

何必把DeepSeek推上神坛?

脑极体 来源:脑极体 作者:脑极体 2025-02-10 19:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGep6NWASWffAAmo07fSF90130.jpg

过年期间沉迷休息,心怀愧疚地无视了读者催我们写DeepSeek的要求。后来我发现,这催更不仅适用于科技博主,比如在一个跟AI毫无关系的搞笑博主评论区里,我看见有网友说,“你怎么还不讲DeepSeek?他血洗美国股市,干碎了美国人的幻想。那些欧美科技公司全都坐不住了”。

接下来这种“热情”愈演愈烈。什么“科技巨头全报废了”“AGI马上实现”“普通人再不学DeepSeek就晚了”,种种言论层出不穷。甚至还有DeepSeek受到境外大规模网络攻击,各大科技公司顶尖高手联手隐迹江湖的中国红客出手相救的爽文剧情。

wKgZO2ep6NaAApeuAABFKed6NRE207.jpg

舆论场到这里愈发离谱了起来。谈到DeepSeek,我们好像会自动陷入某种弥散性的狂热情绪。其中当然有DeepSeek足够出色的原因,有近几年AI大热的加持,但很难否认的是,其中也有地缘因素的推动。很多人迫切需要一个“歪果仁怕了、服了”的故事,在科技领域尤其如此。

为了迎合这种情绪,媒体与公众人物倾向于推波助澜。比如将对DeepSeek的讨论,推到哲学、国运、历史走向的高度。而这些讨论又会在流量的折射与层层断章取义之下被无尽放大,很快让一款AI模型承受了它本不该承受的地位、责任与期待。这就是所谓的“推上神坛”。

但神坛之上风景并不好。因为以往经验提醒我们,往往下一步就是“伤仲永”“泡沫破裂”等舆论反噬。对于初露锋芒的DeepSeek与研发团队来说,这种走向应该是弊大于利的。

因此我们想要讨论一下,目前阶段可以基于哪些共识来客观讨论DeepSeek。或者说,不妨试着拆掉舆论神坛,还原一个更真实也更朴素的DeepSeek。

wKgZPGep6NaAYrqkAAIsj228rh8111.jpg

不妨先释放一个“爆论”。那就是跟社交媒体发散的观点截然不同,DeepSeek其实并没有完成从0到1的核心技术突破。

DeepSeek大火之后,其研发团队与科技产业相关人士都在讨论中国AI不能只是跟随,必须完成从0到1。这个观点绝对正确,但目前的DeepSeek可能还不能成为这个观点的作证。

所谓核心技术突破,应该是主要技术路径的变化,或者达成效果的巨大升级。而DeepSeek目前最让人经验的技术能力,一个是R1模型带火的思维链推理过程,另一个是其联网检索的RAG效果表现出色。

wKgZO2ep6NaAaZTcAABroKnRXeg674.jpg

但这两条技术路径都不是DeepSeek开创的。思维链的兴起一般认为是OpenAI发布的o1模型。去年9月o1模型公布后,全球主流大模型纷纷跟进了思维链、推理大模型等能力。各家名称不同,但整体技术路线是非常一致的。DeepSeek确实把思维链的过程更完整、详细展示了出来,但其实也很容易看到其中大模型幻觉还很严重。

而在联网检索方面,其他厂商也早有布局,也就是所谓的RAG检索-增强-生成机制。这项技术最开始是为了解决大模型不具备实时信息的问题,并且帮助矫正大模型幻觉。早在2023年,百度发布文心一言时,RAG就已经是其核心能力的组成部分。

但要注意的是,没有从0到1的创新,不等于没有创新。DeepSeek在模型能力的优化上做了大量开拓性工作,比如通过GRPO算法让模型更加高效。或许可以说,DeepSeek集成了业界主流的,被验证过的技术路线。在其基础上完成了模型优化、能力加强与用户体验升级。

我们总是渴望从0到1,总是期待石破天惊。但客观来看,第一步和第一万步,迈出的距离是一样的。

wKgZPGep6NaACac5AAHyAff_JTM092.jpg

那么,DeepSeek真正引发全球关注的价值在哪里?在短短一个春节的发酵之后,可能很多人都忘记了它最早出圈的原因是通过软件和架构创新,用非常低的算力成本完成了DeepSeek-V3模型的训练。

DeepSeek-V3是我们今天用到的R1模型的基础模型。在研发团队发表的论文中,可以看到其仅仅使用了550万美元的算力训练成本就完成了6710亿参数大模型的训练。即使这项统计仅仅局限于基础模型训练的算力成本这一项,没有包含后续应用模型的强化学习、模型推理,以及人才成本、综合成本等项目,但也是毫无疑问颠覆了大模型训练的主流成本模型。

而最终DeepSeek实现的效果,也基本达到了o1为代表的主流大模型水平。虽然在模型效果上很难说有全面的超越,但其确实以软件算法的革新实现了硬件成本的下降。让低成本模型的效果不差于高成本,让开源模型的效果追赶闭源模型。

而DeepSeek“降低AI算力成本”的突破,又恰好发生在全球主流AI玩家囤积高端GPU,以此筑造产业护城河,以及美国对中国禁售高端AI芯片,希望以此打压中国AI的关键节点上。于是也就有了DeepSeek实现AI民主化,甚至助力打破地缘科技垄断的意味,从而产生了一款中国AI大模型让整个美国股市遭遇震荡的戏剧性一幕。

DeepSeek实现的训练效率提升与训练成本下降,在特殊的产业环境与国际环境下造成了连锁反应。但问题是很多平时不关注AI的朋友,可能并不知道AI大模型算力越大效果越好的Scaling Laws,也不知道算力垄断和禁售的背景信息,只知道短视频上说DeepSeek横空出世,歪果仁都慌了、怕了。这种缺乏前因后果的联想,给DeepSeek凭空造出了一座不应属于它的神坛。

推而广之,我们很多人都喜欢那些天才式的、戏剧化的创新。但在现实中,往往只有通过工程化能力,不断调优,降本,提效,技术创新才有应用和普及的可能。

比如我们都知道爱迪生发明了电灯,但容易忽略大规模电网实现了电力成本的极大下降。如果每家都要自己发电,那世界将一片漆黑。

“我们把成本打下来了。”

这句有点荒诞、俗套,略带反讽意味的话,其实才是中国产业化能力的缩影。

我们也不妨大大方方承认,包括DeepSeek在内的中国AI,在未来很长一段时间里最擅长的就是把成本给狠狠打下来。

wKgZO2ep6NeASpfQAAJVZY9KZJ4664.jpg

DeepSeek爆火之后,很多人都说这是技术的巨大胜利。预言AI的崛起会让人文学科和人文工作丧失价值。甚至“DeepSeek来了,学文科还有意义吗?”登上了热搜。

但如果我们多使用DeepSeek,仔细分析它与其他模型的区别,会发现一个相反的观点:DeepSeek恰好证明了文科与人文能力,在AI时代有多么的重要。

我们随机问一些人,对DeepSeek的使用体验是怎样的。他们应该会说跟DeepSeek对话感觉更有人味。

但这种人味,在很大程度上并不是理解、推理等AI技术层面的“人味”,而是模型在对话过程中展露出来了大量的幽默感、网感,以及更加符合年轻群体的对话习惯。还有就是DeepSeek具有相对更精妙的修辞能力,优美的文笔,还有不错的综合人文素养。

wKgZPGep6NeAL7h3AAKEqmPnPlo806.jpg

这些能力,让DeepSeek更贴近年轻用户的对话习惯和审美需求,并且能够给出更有话题度和传播度的回答。但问题是,这些能力其实都与技术的关系不大,而是很大程度上与训练语料的选取等人文能力紧密相关。

比如说,你让DeepSeek写首诗,它能够写出文艺青年热爱的语调与修辞。但其他主流国内大模型,也能写得平仄工整、辞藻华丽,但一眼看去就是酷似打油诗的“老干体”。

再比如,让DeepSeek预测一些未来趋势之类的问题,它的回答会特别类似网络科幻小说。虽然经不起推敲,但就是能让年轻人有种非常厉害,特别燃的感觉。

这些优点的来源不是技术,而是在于研发团队的年轻化、高审美,并且重视模型训练过程中的人文要素。反观很多主流大模型,由于最终听取汇报的领导层普遍是大于45岁,缺乏人文学科背景的中年男士,最终导致大模型对话也是班味十足,打起官腔来一套又一套。与其说年轻人在支持DeepSeek,不如说年轻人在支持自己的话语权和审美权。

顺便一提,DeepSeek的另一个人文优势,是它目前还有些“百无禁忌”。然而监管的铁拳虽迟但到,大家不必对AI的犀利和大胆有任何幻想。

DeepSeek以一种很巧妙的方式,实现了用户对话体验更好,传播效果更优秀。这些在技术层面之外,或许能够引起AI公司对产品体验的反思,以及对人文能力的重视。

如果我们狂吹DeepSeek的技术,导致对其人文体验的忽略,那其实也挺可惜的。

wKgZO2ep6NiAX1tWAAG-h4aLzjk183.jpg

综合以上这些侧面,我们可以拼凑出一个比较完整,且不带神圣光晕效果的DeepSeek:

它是一次综合的突破。这种突破由技术创新,人文素养、开源和低成本策略等要素所构成,并且在特殊的产业周期与国际环境背景下被发酵。

DeepSeek不是石破天惊的技术革命,但它足够成熟,足够有新意。这也在某种程度上解释了,为什么欧美的AI大佬与专家,对其比较一致的观点是“令人印象深刻”。

DeepSeek没有一步登天,我们也不必幻想一步登天。

它就是前进了一大步,而我们也足可为迈出了这一步而自信和骄傲。

我也十分反对中国只有DeepSeek的言论。事实上,中国有清晰的AI产业格局,有坚实的自主化AI软硬件体系,有数十万AI开发者,有非常积极的AI政策导向。这些都是更多DeepSeek的土壤。有这些因素在,我十分笃定地认为会有更多DeepSeek出现在这里。直到AI工业革命的开启,直到AGI的曙光。

何不把DeepSeek带下神坛?理性从容地看待它,用好它,用好中国AI事业的一切造物,才是AI在中国真正成熟的表现。

王阳明说,山高万仞,只登一步。DeepSeek这一步有它的意义,迈出这一步后,也不妨停下来听听山风,浅斟低唱一番。但也要清醒地知道,我们还在山间。

休息好了,高兴够了,也只有一件事要做。那就是迈出下一步。

wKgZO2ep6NiAOeAPAAHwPOoTG_w023.jpg
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41103

    浏览量

    302585
  • Agi
    Agi
    +关注

    关注

    0

    文章

    104

    浏览量

    10856
  • 大模型
    +关注

    关注

    2

    文章

    3771

    浏览量

    5270
  • DeepSeek
    +关注

    关注

    2

    文章

    839

    浏览量

    3398
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DeepSeek V3.1发布!拥抱国产算力芯片

    电子发烧友网报道(文/李弯弯)2025年8月21日,DeepSeek正式官宣发布DeepSeek-V3.1大模型。新版本不仅在技术架构上实现重大升级,更通过参数精度优化与国产芯片深度适配。从混合推理
    的头像 发表于 08-23 07:55 1.8w次阅读
    <b class='flag-5'>DeepSeek</b> V3.1发布!拥抱国产算力芯片

    如何在ZYNQ本地部署DeepSeek模型

    一个将最小号 DeepSeek 模型部署到 AMD Zynq UltraScale+ MPSoC 处理系统的项目。
    的头像 发表于 12-19 15:43 7820次阅读
    如何在ZYNQ本地部署<b class='flag-5'>DeepSeek</b>模型

    正面对决GPT-5和Germini-3,DeepSeek-V3.2震撼发布

    12月1日,中国 AI创新企业 DeepSeek 再度加速技术迭代,今日宣布推出 DeepSeek-V3.2 与 V3.2-Speciale 两款模型。公司在官网上指出,DeepSeek
    的头像 发表于 12-02 14:10 9797次阅读
    正面对决GPT-5和Germini-3,<b class='flag-5'>DeepSeek</b>-V3.2震撼发布

    DeepSeek模型如何在云服务器上部署?

    随着大型语言模型(LLM)的应用日益普及,许多开发者和企业希望将像DeepSeek这样的优秀模型部署到自己的云服务器上,以实现私有化、定制化服务并保障数据安全。本文将详细阐述部署DeepSeek模型
    的头像 发表于 10-13 16:52 1143次阅读

    速看!EASY-EAI教你离线部署Deepseek R1大模型

    1.Deepseek简介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型。DeepSeek-R1采用强化学习进行后训练,旨在提升推理能力,尤其擅
    的头像 发表于 07-25 15:22 1576次阅读
    速看!EASY-EAI教你离线部署<b class='flag-5'>Deepseek</b> R1大模型

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    感谢电子发烧友提供学习Deepseek核心技术这本书的机会。 读完《Deepseek核心技术揭秘》,我深受触动,对人工智能领域有了全新的认识。了解Deepseek-R1 、Deepseek
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    感谢平台提供的书籍,实物如下 这本书主讲从年前开始火热的DeepSeek 。书籍看起来轻薄,但言简意赅,通俗易懂,总览全局,比较精炼。 第一章 介绍DeepSeek的一系列技术突破与创新。 第二章
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力机制等模块
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    前言 非常感谢发烧友论坛提供的《DeepSeek 核心技术揭秘》书籍试读活动!Deepseek-V3从去年年底出来之后,我就在密切关注着。今年春节前,Deepseek-R1的出现彻底点燃了中国的语言
    发表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(NLP)、深度
    发表于 07-16 15:29

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    2025年年初,DeepSeek 成为全球人工智能(AI)领域的焦点,其DeepSeek-V3 和DeepSeek-R1 版本在行业内引发了结构性震动。 DeepSeek-V3 是一个
    发表于 06-09 14:38

    DeepSeeK学习资料

    104页DeepSeeK学习资料(清华)
    发表于 06-08 09:57 3次下载

    DeepSeek开源新版R1 媲美OpenAI o3

    DeepSeek“悄悄”地又放了一个大招,DeepSeek开源了R1最新0528版本。尽管DeepSeek目前还没有对该版本进行任何说明,但是根据著名代码测试平台Live CodeBench数据
    的头像 发表于 05-29 11:23 1490次阅读

    DeepSeek:从入门到精通

    电子发烧友网站提供《DeepSeek:从入门到精通.pdf》资料免费下载
    发表于 05-28 14:12 6次下载

    DeepSeek 引领边缘 AI 芯片向更高性能、更低功耗、更强泛化能力的方向演进

    DeepSeek 系列模型概览 DeepSeek 系列包括大型语言模型(如 DeepSeek LLM、R1)及多模态模型(DeepSeek-VL)和编程模型(
    的头像 发表于 05-09 10:27 2419次阅读