0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ASIC爆火!大厂AI训练推理抛弃GPU;博通的护城河有多深?

Hobby观察 来源:电子发烧友 作者:梁浩斌 2024-12-18 01:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/梁浩斌)在上周末,博通应该可以说是投资圈和科技圈最火爆的话题,大家纷纷惊呼“英伟达的对手终于出现了!”“ASIC要超越GPU”云云。

这一切都要源于上周五博通公布的炸裂财报,AI业务营收同比暴增220%,当天公司股价大涨24.43%,市值突破万亿美元,成为第九家市值突破万亿美元的美股上市公司,全球第三家市值超万亿美元的半导体公司。

当然,更重要的是对未来的预期,博通在数据中心高速互连领域有非常大的市场份额,这代表着AI基础设施的规模增长,博通的部分增长也确实来自以太网网络部件。但除了高速互连之外,博通还正在与一些大型云服务供应商合作,帮助他们开发定制AI芯片,这部分业务的增长迅速,将会令博通成为英伟达的最大挑战者。

博通的AI芯片布局

博通的传统优势是在高速互连方面,比如数据中心的以太网传输中用到的高速光模块产品组合,还有在高速互连中使用到的高速SerDes内核IP等。而目前博通在AI芯片领域,主要也是提供ASIC解决方案,提供设计、广泛IP组合、先进封装等方案,集成了内存、高速SerDes、PCIe接口等IP,以及Arm/Power PC等CPU内核。

ASIC即专用集成电路,顾名思义,与英伟达提供的通用GPU不同,ASIC是专门针对某种场景或应用设计,目前不少云计算巨头都在使用定制的ASIC作为数据中心的核心芯片。作为一种专用芯片,在设计之初就是为了满足特定的任务和算法需求,因此在针对算法开发的情况下,计算效率和能效比都能够相比通用GPU大幅提高。

比如谷歌去年推出的TPU v5e专为提升中大型模型的训练、推理等任务设计,相比上一代的TPU v4训练性能提高2倍,推理性能提高2.5倍,但成本只有上一代的一半不到,大幅提升了计算效率以及成本效益。

对于云计算巨头而言,为了降低对英伟达的依赖,同时也为了降低成本,选择定制ASIC都会是一个比较确定的方向。除了谷歌之外,亚马逊、华为、阿里、百度等云计算巨头都已经有自研数据中心ASIC产品,并已经投入使用。

而博通目前依靠在高速互连方面的关键技术,在对互连速率要求极高的AI计算领域就极具优势。早在2020年,博通推出了公司首款采用台积电N5工艺的数据中心ASIC,集成了PCIe Gen5协议、112 Gbps SerDes、运行频率为3.6 Gbps、集成HBM2e,利用TSMC CoWoS Interposer封装技术实现3.6 Tbps Die2Die PHY IP,几乎将先进的高速互连技术堆满。

最近博通还推出了3.5D XDSiP封装平台,可以将超过6000平方毫米的3D堆叠硅晶片和12个HBM模块集成到一个系统级封装中,同时大幅提升片内互连的性能。

与传统采用硅通孔TVS的F2B(面到背)的技术相比,3.5D XDSiP采用HCB(混合铜键合)以F2F(面对面)的方式将逻辑芯片堆叠,堆叠芯片之间的信号密度提高了7倍;3.5D XDSiP通过利用3D HCB代替平面芯片到芯片物理接口,芯片到芯片接口的功耗降低了90%,还能最大限度地减少3D堆栈中计算、内存和I/O组件之间的延迟。

据称博通的3.5D XDSiP目前已经被主要的AI领域客户使用,已经有6款产品正在开发中,博通预计最早在2026年2月实现出货。其中富士通下一代2nm制程的Arm处理器FUJITSU-MONAKA已经确认使用博通3.5D XDSiP技术,这款处理器面向数据中心、边缘计算等应用,据此前富士通的介绍,MONAKA每颗CPU包含一个中央的I/O die和四个3D垂直堆叠die,并集成SRAM,预计2027年出货。

今年9月,博通还展示了一种带有光学模块的AI计算ASIC,实现片间光互连。博通在制造中使用了FOWLP封装技术,将CPO模块与AI ASIC封装在一起,大幅降低了系统延迟,还实现了可插拔的激光器设计,便于数据中心维护。

目前来看,在AI计算中极为重要的互连技术上,博通拥有很强大的技术积累,这也为其ASIC定制服务建立了稳固的壁垒。从客户群来看,博通在财报中透露,目前正在与三家非常大型的云计算客户开发AI芯片,并预计到2027年,每个客户都将在网络集群中部署100万个AI芯片,届时市场对定制AI ASIC的需求容量将高达600亿-900亿美元。

ASIC跑AI,大厂的专属玩物

最近大厂开发ASIC的消息频出,在博通公布财报的前一天,就传出苹果与博通合作,开发面向AI推理的ASIC芯片,将采用台积电N3P工艺,计划在2026年投入生产。而亚马逊也在月初公布了AI芯片Trn2UltraServer和Amazon EC2Trn2的应用实例,展示出ASIC的应用性价比远超GPU。

但可能大家也发现,目前定制开发高算力ASIC的厂商,无一例外是云计算大厂,本身公司业务就有极大规模的算力需求。这是由于ASIC的定制费用较高,需要有足够庞大的规模才能分摊前期定制开发费用。

ASIC定制费用,主要是开发过程中的一次性工程费用,也被业内称为NRE(Non-Recurring Engineering)。顾名思义,NRE费用只需要支出一次,后续规模生产中不需要再增加这部分费用。

NRE费用中,包含芯片设计的成本,比如研发人员薪酬、EDA工具授权费等,这与芯片使用的制程工艺、芯片本身的复杂程度相关;然后是版图设计成本,其实这里的概念跟芯片设计的成本类似,主要是涉及芯片的物理布局设计,需要特定的研发人员和软件支持;再是IP授权费用,一般是一些通用的IP,比如CPU IP、内存控制器、接口IP等。

以定制一款采用5nm制程的ASIC为例,NRE费用可以高达1亿至2亿美元。然而一旦能够大规模出货,NRE费用就可以很大程度上被摊薄。

博通也提到,未来每个客户将在网络集群中部署100万片AI芯片,即使其中只有30万片是定制的ASIC,那么分摊到每一片芯片上的NRE费用就大约只要300-600美元,相比GPU的成本有明显的优势。而据业内人士分析,中等复杂程度的ASIC盈亏平衡点在10万片左右。

小结:

尽管目前英伟达GPU在AI训练、推理的应用中还是处于一家独大的地位,但ASIC的成本效益,让各大大模型厂商不得不开始考虑转向ASIC。加上谷歌推出的Gemini2.0已经开始带头使用自家的TPU来进行训练和推理,以往ASIC不适用于AI训练的刻板印象也逐步被打破。

如果ASIC的成本效益未来能被进一步开发至极致,那么至少像百度、阿里、谷歌、腾讯、华为这样的集大模型开发和云计算服务于一体的互联网巨头,会先摆脱在AI大模型上对GPU的依赖。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 博通
    +关注

    关注

    35

    文章

    4341

    浏览量

    108869
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    开源不是削弱竞争力,而是新护城河的开始

    。 越来越多的企业在开源的浪潮中找到了机会,也有人提出疑问: 既然代码都开源了,护城河还从哪里来?开源软件还有壁垒可言吗? 事实上,开源并不是没有护城河,它只是 把护城河从“技术代码”转移到了“综合能力” 。 一、开源不是免费的
    的头像 发表于 11-06 14:26 130次阅读

    AI芯片市场鏖战,GPUASIC谁将占据主动?

    本文转自:TechSugar随着人工智能技术在大模型训练、边缘计算、自动驾驶等领域的深度渗透,核心算力硬件的竞争进入白热化阶段。图形处理单元(GPU)与专用集成电路(ASIC)作为两大主流技术路线
    的头像 发表于 10-30 12:06 477次阅读
    <b class='flag-5'>AI</b>芯片市场鏖战,<b class='flag-5'>GPU</b>与<b class='flag-5'>ASIC</b>谁将占据主动?

    AI推理需求爆发!高通首秀重磅产品,国产GPU的自主牌怎么打?

    10月29日,在安会的2025智能算力应用及产业发展论坛上,超聚变数字技术有限公司深圳解决方案总监丁元钊表示,原来我们预计2026年是AI推理爆发元年,2025年DeepSeek-R1,V3模型
    的头像 发表于 10-30 00:46 1.3w次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆发!高通首秀重磅产品,国产<b class='flag-5'>GPU</b>的自主牌怎么打?

    一文看懂AI训练推理与训推一体的底层关系

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持很多人听过“大模型”,但没搞懂两件事。我们总说AI有多强,但真正决定AI能否落地的,是它的两个阶段:训练(Training)和
    的头像 发表于 09-19 11:58 1627次阅读
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>训练</b>、<b class='flag-5'>推理</b>与训推一体的底层关系

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于AI芯片这个
    发表于 09-12 16:07

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现了网络全流量深度解析能力与AI智能推理
    发表于 07-16 15:29

    摩尔线程GPU原生FP8计算助力AI训练

    并行训练推理,显著提升了训练效率与稳定性。摩尔线程是国内率先原生支持FP8计算精度的国产GPU企业,此次开源不仅为AI
    的头像 发表于 03-17 17:05 1224次阅读
    摩尔线程<b class='flag-5'>GPU</b>原生FP8计算助力<b class='flag-5'>AI</b><b class='flag-5'>训练</b>

    一夜的DeepSeek一体机,如何改写AI游戏规则?

    一夜的DeepSeek一体机,如何改写AI游戏规则? 过去一个多月,科技圈有个“新晋顶流”C位出道,名字叫DeepSeek一体机。 它到什么程度? 朋友圈不断刷屏,有人调侃:“没
    的头像 发表于 03-11 15:52 1013次阅读
    一夜<b class='flag-5'>爆</b><b class='flag-5'>火</b>的DeepSeek一体机,如何改写<b class='flag-5'>AI</b>游戏规则?

    无法调用GPU插件推理的远程张量API怎么解决?

    运行了使用 GPU 插件的远程张量 API 的推理。但是,它未能共享 OpenCL* 内存,但结果不正确。
    发表于 03-06 06:13

    壁仞科技支持DeepSeek-V3满血版训练推理

    DeepSeek-V3满血版在国产GPU平台的高效全栈式训练推理,实现国产大模型与国产GPU的深度融合优化,开启国产算力新篇章。
    的头像 发表于 03-04 14:01 1929次阅读

    AI推理ASIC,开发成败在此一举!

    的应用性价比远超GPU,加上通财报AI业务同比大增220%,掀起了AI推理端的ASIC热潮。
    的头像 发表于 03-03 00:13 4111次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>带<b class='flag-5'>火</b>的<b class='flag-5'>ASIC</b>,开发成败在此一举!

    燧原科技助力美图AI换装全球

    2025蛇年元宵后,美图公司旗下美颜相机凭借“AI换装”功能,获得了国内外用户的极大青睐,App下载量和使用量迅速激增的同时,也面临了海量推理算力即时支持的挑战。
    的头像 发表于 02-25 16:47 1525次阅读

    让大模型训练更高效,奇异摩尔用互联创新方案定义下一代AI计算

      电子发烧友网报道(文/吴子鹏)近一段时间以来,DeepSeek现象级引发产业对大规模数据中心建设的思考和争议。在训练端,DeepSeek以开源模型通过算法优化(如稀疏计算、动态架构)降低
    的头像 发表于 02-18 09:19 1921次阅读
    让大模型<b class='flag-5'>训练</b>更高效,奇异摩尔用互联创新方案定义下一代<b class='flag-5'>AI</b>计算

    ASICGPU的原理和优势

      本文介绍了ASICGPU两种能够用于AI计算的半导体芯片各自的原理和优势。 ASICGPU是什么
    的头像 发表于 01-06 13:58 3101次阅读
    <b class='flag-5'>ASIC</b>和<b class='flag-5'>GPU</b>的原理和优势

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU
    的头像 发表于 12-19 17:54 1347次阅读