0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谈谈DeepSeek-v3提到的基础设施演进

OSC开源社区 来源:OSC开源社区 2025-01-02 10:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

看DeepSeek-v3的感受是, 算法和Infra的非常紧密结合. 其实很多大模型团队的算法和Infra是非常割裂的, 完全同时懂算法和Infra的人并不多, DeepSeek这个团队就是其中之一, DeepSeek团队中应该有不少OI竞赛获奖选手, 其实对于我们这些搞过OI的人, 对于计算上的优化策略基本上都是手到擒来,很多时候把处理器的体系结构也研究的很深, 所以同时做算法和Infra是非常自然的一件事情, 而如今很多算法岗的新人大多数人的代码能力是非常有限的....

当然渣B稍微再得瑟一下, 比DeepSeek他们还更懂更底层的芯片以及它们的互联, Maybe再多懂一点数学... 昨天还跟一朋友讲了一个冷玩笑, FP8训练这些Quantization不就是Quant变渣("za"tion)么,^o^.

1. 算力不再应当只是约束,而是一个可以联合优化的变量

其实很多年前, 阿里妈妈团队就在推荐系统引入深度学习时做过大量的算法和算力Infra协同的工作, 非常认同周国睿老师的一句话:“算力不再应当只是约束,而是一个可以联合优化的变量”

9d8c0c86-c659-11ef-9310-92fbcf53809c.png

今年年初还把这一系列的算法和算力的协同发展整理了一下, 可以参考

《谈谈AI落地容易的业务-搜广推》

其实再来说说量化交易这一块, 它和搜广推很类似的也是需要在一个时间约束下做到算力和算法的平衡, 对于很多高频交易策略其实就更难了, 涉及到一系列硬件上和算法算力的协同了, 有些时候还可以牺牲稳定性为代价, 举个例子有些高频交易的团队还在用家用CPU超频的方式来获得更快的运算速度, 另一个例子在很多网卡上连一个寄存器都要省....

对于DeepSeek/幻方有了这样的主营业务做大模型时,整个团队的火力自然是满满的...当然渣B这样的参与了国内几乎所有交易所的交易网络设计有合规问题和自身的职业操守就没有去趟高频这块...

另一方面渣B对现在的大模型Transformer架构还是有更多的不认同, 它一定不是通往AGI的终态, 因为这样的依赖极大算力的ScalingLaw的算法本质上应该是一个错误, 所以渣B更多的时间是在底层优化算力和顶层算法背后的数学原理上花了更多的精力.

在底层算力方面, 主要是GPU微架构的分析和Tensor运算相关的工作以及AI加速器高速互联等

《GPU架构演化史》

《Tensor运算》

《AI加速器互联》

在数学方面(嗯,学习J神“数学方面”), 渣B一直有一个暴论:这一次人工智能革命的数学基础是:范畴论/代数拓扑/代数几何这些二十世纪的数学第一登上商用计算的舞台。, 因此一直也在做一些专题的研究

《大模型的数学基础》

最近看到一些论文, 例如TOPOS的视角来看待多模态大模型, 还有一些Grothendieck图神经网络一类的东西, 似乎看到一些光了,但是这些东西是这个世界上为数不多英雄主义的存在, 一张纸一支笔的浪漫.

当然很多人怀疑这些代数上的东西以及GNN本身的一些稀疏计算的效率问题似乎跟AGI毫无关系. 但事实上它们可能是人脑里最精彩的存在. 昨天也到MTP时有一个观点:

MTP让我想到了Zen5的2-Ahead Branch Predictor 非常有趣的工作, 其实对于o3这样的模型, 本质上是token as an intruction.

原来GPT是一个顺序执行结果predic next token 类似于 pc++, 然后在栈上(historical tokens as stack)操作. 顺序预测下一个token

o1/o3 Large Reasoning Model 无论是MoE或者是强化学习一类的PRM, 实质上是在Token Predict上做了Divergence, 例如跳转/循环/回溯 等, PRM可以看作是一个CPU分支预测器. 从体系架构上渐渐的可以让大模型做到类似于图灵完备的处理能力.

基于这个观点, 那么当前的GPU的TensorCore/Cuda Core实际上就构成了一个执行引擎, 外面还需要一系列控制, 分支预测, 译码器, LSU来配合, 对于基础设施带来的演进还是有很多有趣的话题可以去探索的

另外一个暴论:当前的Transformer模型本身作为一种生成Token的数据路径, 而Grothendieck图神经网络一类的东西和相关的代数结构本身作为模型的控制路径, 这是跑通LRM的一条路

2. 硬件和体系架构的演进

DeepSeek-v3的实现也非常优雅, 例如考虑H800被阉割的影响, 训练没有采用TP并行. 然后针对MoE的AlltoAll做了极致的优化, 例如PXN和IBGDA等, 还有warp specialization以及dualpipe等.

相反我们看看Meta那群人, AlltoAll去年的OCP还在叫唤着Call for Action, 然后Llama3的MoE听李沐讲了一个八卦他们训练失败了...也难怪要多花10倍的钱...

回到DS团队提到的一些未来硬件的需求, 例如当前H800的132个SM中被分配了20个SM用于通信, 需要通信协处理器,以及为了减少应用程序编程的复杂性,希望这种硬件能够从计算单元的角度统一ScaleOut和ScaleUp网络。通过这种统一接口, 计算单元可以通过提交基于简单原语的通信请求.

其实这些东西渣B几年前就全部讲清楚并做了一系列POC. 在2018年的时候, 看到Transformer出来以及模型开始越来越大通信成为瓶颈时, 渣B当时在Cisco就在做AI Infra相关的预研, 第一个把深度学习模型引入到Cisco路由器中做一系列Performance Assurance和Security Assurance相关的业务.

然后2020年的时候和第四范式的一些研讨后, 然后设计和实现了NetDAM. 到如今你会发现Tesla TTPoE也是在做同样的事情.

《NetDAM专题》

9dab63d8-c659-11ef-9310-92fbcf53809c.png

时至今日, 你会发现DeepSeek对未来硬件的演进, 都在这一套框架内完全实现.

9dc7f390-c659-11ef-9310-92fbcf53809c.png

首先, 它对GPU侧是一个标准的内存接口, 通过在NetDAM上的一片内存, 基于内存语义把ScaleOut(Inter-Host)和ScaleUP(Intra-host)的通信完全融合了. 然后DS提到的Read/Write/multicast/reduce这些也是NetDAM一开始就做的功能, 例如RoCE需要多次访问GPU内存并引入CPU控制流

9ddfa01c-c659-11ef-9310-92fbcf53809c.png

而NetDAM直接进行了卸载:

9df7c084-c659-11ef-9310-92fbcf53809c.png

而对于DS后面提到的一系列量化和Scale相关的近内存计算, 本质上在NetDAM上是最好的附着点. 例如很多人说Mellanox延迟低, NetDAM直接bypass PCIe延迟轻松秒杀

9e090b3c-c659-11ef-9310-92fbcf53809c.png

但是这个世界并不是完美的, 因为人总归是有屁股的. 例如思科当时的重心全部放在了Silicon One上, Intel守着自己的UPI在CXL上扣扣搜搜的, 而同样Nvidia在B200这一代虽然把IB和NVSwitch融合在一起做交换芯片, 但最终在未来还是分开了...

而如今呢?当一切的事情越来越清晰的时候, 或许这些厂商们会明白这个问题了...

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54631

    浏览量

    470909
  • 算法
    +关注

    关注

    23

    文章

    4816

    浏览量

    98796
  • 大模型
    +关注

    关注

    2

    文章

    3863

    浏览量

    5295
  • DeepSeek
    +关注

    关注

    2

    文章

    861

    浏览量

    3469

原文标题:谈谈DeepSeek-v3提到的基础设施演进

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为正式发布AI DC数据基础设施全栈方案

    5月21日,以“数据觉醒,存力跃迁”为主题的2026华为创新数据基础设施论坛在巴黎举行。华为公司副总裁、数据存储产品线总裁袁远发表主题演讲,正式发布AI DC数据基础设施全栈方案,加速行业智能化跃升。
    的头像 发表于 05-22 11:52 479次阅读

    Arm推进代理式AI时代基础设施演进

    随着人工智能 (AI) 系统从单纯运行模型逐步演进为编排自主的代理式工作流,基础设施的需求正在发生根本性变革。工作负载不再局限于孤立的推理任务,而是由模型、工具和服务之间的成千上万次协同交互构成
    的头像 发表于 05-19 17:16 1260次阅读

    NVIDIA与Ineffable Intelligence合作打造强化学习基础设施

    我们正在共同构建能够解锁全新水平智能的强化学习基础设施
    的头像 发表于 05-18 10:30 437次阅读

    直播预告|玄铁 x Canonical:从本地推理到 AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    扩展。一套指令集,正让全场景 AI 基础设施的同构贯通成为可能。 2026年5月20日(周三)19 点,由 RISC-V 工委会国际合作工作部 、达摩院玄铁与 Canonical 联合主办的玄铁【智算
    发表于 05-15 12:15

    模力方舟上线DeepSeek-V4系列大模型

    围绕这一方向,DeepSeek 在今天上推出了DeepSeek-V4,现已在模力方舟正式上线。
    的头像 发表于 04-30 10:35 472次阅读
    模力方舟上线<b class='flag-5'>DeepSeek-V</b>4系列大模型

    软通华方超节点服务器产品全面适配DeepSeek V4模型

    4月24日,随着DeepSeek V4大模型的正式开源与发布,国产算力生态迎来关键拼图。软通动力旗下软通华方迅速响应,依托“鲲鹏+昇腾”双引擎架构,基于核心产品A800T A3/超强A800I A
    的头像 发表于 04-28 16:34 440次阅读

    云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目

    日前,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目。根据项目规划,公司将基于自研国产AI推理加速卡,参与建设AI推理算力集群,并推动DeepSeek等国产大模型在相关应用场景中的适配与部署,为政务和产业数字化应用提供算力基础
    的头像 发表于 03-14 09:04 858次阅读

    华为推动电信云加速向AI基础设施演进

    随着AI技术持续突破,人工智能正成为全球产业升级的核心驱动力。从通用大模型到行业智能应用,AI已成为新一轮科技变革和产业升级的核心驱动力。业界正加快推进体系化探索,围绕AI与基础设施融合,积极定义
    的头像 发表于 02-27 09:43 481次阅读

    轨道计算基础设施:太空光伏为太空AI算力供电的电源架构演进

    轨道计算基础设施:太空光伏为太空AI算力供电的电源架构演进与SiC MOSFET的应用价值深度研究报告 BASiC Semiconductor基本半导体一级代理商倾佳电子(Changer Tech
    的头像 发表于 01-27 18:16 1488次阅读
    轨道计算<b class='flag-5'>基础设施</b>:太空光伏为太空AI算力供电的电源架构<b class='flag-5'>演进</b>

    正面对决GPT-5和Germini-3DeepSeek-V3.2震撼发布

    12月1日,中国 AI创新企业 DeepSeek 再度加速技术迭代,今日宣布推出 DeepSeek-V3.2 与 V3.2-Speciale 两款模型。公司在官网上指出,DeepSeek-V
    的头像 发表于 12-02 14:10 9949次阅读
    正面对决GPT-5和Germini-<b class='flag-5'>3</b>,<b class='flag-5'>DeepSeek-V</b>3.2震撼发布

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    感谢电子发烧友提供学习Deepseek核心技术这本书的机会。 读完《Deepseek核心技术揭秘》,我深受触动,对人工智能领域有了全新的认识。了解Deepseek-R1 、Deepseek-V
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于DeepSeek-R1的技术剖析 第五章 从宏观角度分析
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    问题,又像横在发展路上的巨石,提醒我技术创新并非坦途,新架构在带来优势的同时,也会伴随新挑战。 五、小结 读完第三章,DeepSeek - V3 的技术剖析让我从架构、效率优化、精度平衡到模块创新
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    前言 非常感谢发烧友论坛提供的《DeepSeek 核心技术揭秘》书籍试读活动!Deepseek-V3从去年年底出来之后,我就在密切关注着。今年春节前,Deepseek-R1的出现彻底点燃了中国的语言
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    2025年年初,DeepSeek 成为全球人工智能(AI)领域的焦点,其DeepSeek-V3DeepSeek-R1 版本在行业内引发了结构性震动。 DeepSeek-V3 是一个
    发表于 06-09 14:38