0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Marvell公司正着手进行大规模定制芯片

我快闭嘴 来源: 半导体行业观察 作者: 半导体行业观察 2020-09-30 15:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如果您想摆脱Intel Xeon SP处理器在数据中心的控制,可以采用多种方法。您可以领先英特尔进入其核心市场,就像AMD在Epyc系列处理器上所做的那样,充分利用其设计和代工伙伴。另一种方法是完全改变游戏的性质。这就是Marvell想要做的事情。

Marvell是一家成立于二十五年半前的芯片企业,目前该公司拥有5,000多名员工,在截至2月的2020财年中,公司收入达到27亿美元。Marvell采取的是略有不同的方法,他们不是为每个客户打造可能需要的SKU,并尝试从中获得收益。而是凭借数十年的制造存储控制器,网络处理器和其他网络芯片的经验,加上公司于2017年11月收购了Cavium,并涉足Arm服务器处理器(ThunderX),交换ASIC(XPliant和Prestera)和其他设备。

近年来购买了一大堆资产的Marvell,现在正着手进行大规模定制芯片。

从本质上讲,它的所有知识产权(在过去的二十年中已积累了10,000多项专利)及其在设计芯片,封装并通过非英特尔代工厂(台积电,GlobalFoundries和三星)获得的所有技能,能帮助他们打造出很好的成品。

在多个代工厂之间进行合作非常重要,因为在推进先进工艺方面,不仅仅是英特尔遇到了麻烦。GlobalFoundries在7纳米也失败了——这大约相当于使英特尔非常痛苦的10纳米工艺,而前者在两年多以前就放弃了7nm。三星凭借其在内存和闪存业务以及用于消费类设备的Arm芯片上的耕耘,是的公司在先进的工艺技术方面毫不逊色。

三星是先进工艺市场位数不多的竞争者,同时还是IBM Power10和z16服务器芯片的代工合作伙伴。蓝色巨头希望凭借其技能从边缘迁移回核心数据中心。

Marvell不能凭自己的能力成为一家晶圆代工厂,因为考虑到如今建造晶圆厂的成本(远超过100亿美元),还有他们也不具备如此庞大的产能。但它可以将自己定位为三个独立晶圆厂的专家。而且,在Marvell以6.5亿美元的价格收购Avera Semiconductor,一家源自于IBM Microelectronics和GlobalFoundries的芯片设计团队。

现在的Marvell拥有的芯片产品组合可以授权给客户,并且他们还有能力帮助其他将自己的芯片从白板转移到系统中的。

成立于1995年Marvell位于Intel圣塔克拉拉(Santa Clara)的沿途,在相对较短的时间内取得了长足的发展,成为数据中心和边缘市场的参与者。在网络泡沫最严重的时期,Marvell上市并筹集了9000万美元,其股票在2000年秋季过高,以至于可以交易其中的27亿美元收购Galileo Technology,并进入以太网交换机嵌入式控制器市场。

从那时起,Marvell在其某些芯片设计中就包含了CPU,并在2003年收购了Asica,后者基于Arm架构创建自己的芯片,并获得Arm Holdings的架构许可,这意味着它可以调整核心设计,只要不破坏与Arm指令集的兼容性。Marvell设计了整个2000年代的几代Arm芯片,用于各种嵌入式和消费类设备,甚至在2006年7月以6亿美元的价格收购了Intel的XScale Arm芯片业务。

1990年代后期。这两条生产线是Armada Arm芯片生产线的基础,Armada生产线偶尔会用于各种设备,包括服务器。在2018年7月,它在2011年9月以37亿美元收购的NetLogic多核MIPS芯片。有趣的是,ThunderX2与NetLogic基础的共同点比与Octeon基础的共同点更多,但它们的根源也相似。

所有的这些都证明Marvell在创建适用于数据中心和边缘的芯片方面拥有广泛而深刻的经验。Marvell ASIC业务部门的首席技术官Igor Arsovski也告诉The Next Platform,该公司的设计团队(其中包括来自原始Marvell的人员以及来自Cavium,GlobalFoundries和IBM的人员)仅在企业和网络领域就流片超过2,000款芯片。(自1994年以来一直销售定制ASIC的IBM Microelectronics是这种经验的重要组成部分。)这是一个非常深厚的基础,这也是AI芯片初创公司Groq在其新推出的Tensor流处理器( TSP100)上与Marvell合作的原因。

Arsovski为我们提供了一个水平,可以确切地说明世界上AI芯片制造商所面临的挑战。看一看:

简而言之,这些图表说明了为什么对于像计算机学习训练这样的计算和内存带宽密集型的应用程序都必须使用加速器。

“客制化芯片的这种趋势正在增长,推动其发展的是模型的复杂性,” Arsovski解释说。“在过去的18个月中,AI模型的复杂度实际上增加了50倍,如果您查看实现50倍晶体管缩放所需的时间,那么您所花的时间约为120个月或10年。这接近7倍的差距。如果您看一下Dennard标度和摩尔定律的辉煌年代,我们每18个月就会翻一番,但现在我们放慢了更多。”

事实证明,当谈到SRAM片上存储器时,这种减慢尤其严重,它被用作高速缓存,有时还用作设备中的主存储器(例如在许多AI加速器中)。设计来自IBM的SRAM。如果您停留在高级制程节点上,则大约需要五年时间才能使每平方毫米的SRAM数量增加一倍。几乎所有不基于GPU设计的AI加速器旁边都有巨大的SRAM块以及矩阵和矢量数学单元,或者它们现在或将来都可能具有某种高带宽内存。基于虚拟计算引擎本质上的叠加层的FPGA AI加速器设计使用与计算紧邻的逻辑实现的Block RAM(BRAM),其方式几乎相同。鉴于上述Arsovski所说的以及摩尔定律的总体放缓,每个人都将寻找某种GDDR或HBM或HMC存储器来封装其未来的AI计算设备,因为没有办法实现SRAM规模不论节点如何,其运行速度与任何设备上的计算速度相同。

实际上,我们认为计算有很大机会保留在多芯片模块的更高良率部分上,并且将使用最先进的节点来蚀刻SRAM存储器,但前提是两者之间的连接可以实现非常低的延迟和非常高的带宽。正如Arsovski所提醒我们的那样,从任何die到memory,带宽会下降大约两个数量级。话虽如此,Marvell已与美光科技合作,将其Hybrid Memory Cube存储器与TSV集成在一起,以3D堆叠式封装进行计算。当SRAM密度开始耗尽时,这是AI加速器设计的一条可能途径。

根据Arsovski的说法,Groq选择Marvell作为其TSP加速器的设计合作伙伴是有原因的,而SRAM是这一原因的重要组成部分。Groq希望使用成熟的14纳米或16纳米工艺来提高产量并降低其首个芯片的风险,并且IBM拥有在GlobalFoundries设计14纳米工艺的Power9服务器CPU的经验,因此非常适合,因为它在整个芯片上具有220 MB的SRAM:

TSP 100芯片的面积超过700平方毫米,如您所见,它以中心的巨大SRAM块为主导。有一个“东岸”和“西岸”,每个都有44个独立的存储区,该SRAM上的组合带宽惊人,高达27.5 TB /秒。Nvidia“ Ampere” A100 GPU加速器上的HBM2带宽为1.55 TB /秒,并且该内存与GPU内核之间存在延迟,正如Arsovski指出的那样,比片上SRAM延迟大几个数量级。

Arsovski表示,得益于Avera的收购,Marvell可以为Groq带来的SRAM比其他使用14纳米或同等16纳米技术的设计师所能提供的SRAM密度高10%到15%(每平方毫米11兆位)。而且,Groq TSP 100中的SRAM是两个以1.2 GHz运行的端口,因此它的带宽是单端口SRAM实现的两倍,因此带宽比其他设计要大得多。

Marvell和Groq之间的伙伴关系不仅与SRAM有关。Marvell还拥有高速SerDes以及Groq可以利用的交钥匙式的PCI-Express和芯片到芯片互连(chip-to-chip:C2)子系统,最重要的是,Marvell拥有专业知识,可以提供良率高、效率高的芯片。这是Groq本身并没有的经验。

当然,硬件将更像软件,这一直是梦想。但这不一定意味着是因为可编程逻辑。我们相信,随着时间的推移,计算引擎将在socket level 变得更加昂贵,因为它们将不得不包含小芯片架构,并且由于摩尔定律的放慢,它们有时会部署reticle-busting方法。而且由于计算引擎将针对工作负载进行非常专门的调整,因此有必要在较小的运行中对其进行蚀刻,并在它们从铸造厂出来时进行封装,这也增加了成本。

但我们也相信,暗硅将很少,并且它们将以高利用率运行,因此,器件的实际价格/性能仍将遵循大致近似于摩尔定律的曲线。使用所有可用的工具和技术对计算引擎进行快速迭代将使进度不断发展。那些无法快速迭代并找到并保持客户移动的人将被甩在后面。

这就是Marvell的赌注,实际上也是Intel和TSMC,GlobalFoundries和Samsung的赌注。

混合搭配代工厂

人们有时会忘记并非世界上的每个设备都必须使用最先进的节点。公平地讲,许多最酷的设备都用最小的晶体管,但这并不是当今世界中价格/性能最重要且共同设计的硬件和软件允许每个晶体管做有用的事情的先决条件。

为了更好地处理Marvell为芯片设计人员准备的大规模定制业务,该业务将其全部知识产权以及硬件工程师的全部资产供他们使用,我们与Marvell ASIC业务的总经理Kevin O‘Buckley进行了交谈。和Arsovski一样,他是一位IBM老员工,在蓝色巨人将其芯片业务出售给前AMD芯片代工厂之后,他在GlobalFoundries任职。O’Buckley在IBM Microelectronics中名列前茅,在网络泡沫时代和萧条时期致力于铜缆和SOI流程,然后在90年代领导开发用于游戏机和超级计算机的Cell混合CPU-GPU处理器。随后,O‘Buckley也负责了22nm和14nm工艺,甚至7nm工艺的开发。

如果有一个人能理解芯片设计师对代工厂的依赖,而又想打破这种依赖以降低将芯片推向市场的风险,那这个人就是O’Buckley。这就是为什么Marvell组成了一个团队,他们了解GlobalFoundries的22纳米,14纳米和12纳米工艺,TSMC 7纳米和5纳米工艺。看到三星7纳米和5纳米工艺方面的一些专业知识也涌现,我们并不感到惊讶。

除非英特尔将其代工厂商放在一起,否则我们不会在这里进行太多合作,如果有的话,看到英特尔尝试收购Marvell将会很有趣。(但这又是一个疯狂的想法……)

正如我们在上面指出的那样,Marvell积累了大量的产品线和技术。

Marvell所不拥有的产品线是FPGA。这可以通过收购Achronix或Lattice Semiconductor来实现,以充实自己的产品组合。但他们更有可能的做法似乎是与这两家公司和Xilinx合作,将FPGA功能纳入其堆栈。

O‘Buckley表示,Marvell实际上正在与客户讨论包含FPGA元件的定制芯片,像我们一样,他相信未来将更加重视FPGA,因为必须通过多种方式对软件和硬件进行严格调整ASIC并不总是答案。

现在,Marvell不仅收购了Avera,而且还收购了Aquantia,以充实其汽车网络实力,这是它可以为客户提供的定制范围,从Marvell完全设计的标准产品(例如Octeon或ThunderX芯片,到使用Marvell IP的半定制芯片。

这种定制不适用于当今的所有人,Marvell知道这一点。“从收入的角度来看,可能有20%或更多的市场需要某种定制的芯片” O’Buckley告诉我们,当提出一个预想的数字时。“半导体行业购买的大多数产品将继续购买标准产品。这实际上是规模和金钱的问题。即使是最低限度的定制,您也要在这些产品上投资数百万美元。”

举个例子,IBM有100多名工程师致力于为游戏机定制Cell处理器。这并不便宜,但是微软,索尼和任天堂从IBM那里获得了他们需要的东西,就像今天从AMD获得一样。也许将来他们将依赖于Marvell。

有趣的是,Marvell正在服用一些自己的“半定制药”。在其“ Triton” ThunderX3处理器上,Marvell不会进行完整的SKU堆栈和大规模发布。而是,鉴于尚未有更广泛的Arm处理器企业用户市场出现,而且相对而言(数量,而不是支出)超级扩展程序,云生成器和HPC客户相对较少,他们希望进行独特的自定义,因此Marvell会处理ThunderX3作为半定制芯片,可以直接通过合作销售。

但是不要误解,Marvell绝对相信,未来将有更广阔的Arm服务器芯片市场,只是今天还没有。

也许,服务器计算的未来将比今天的英特尔至强SP服务器芯片业务更像游戏主机芯片定制业务。那是我们的赌注。在那个世界上,英伟达购买Arm Holdings毫无疑问是很有意义的。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20381

    浏览量

    255640
  • 芯片
    +关注

    关注

    463

    文章

    54647

    浏览量

    471048
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9613

    浏览量

    394407
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5324

    浏览量

    136219
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    软银再出手?曾考虑收购Marvell,将其与Arm合并

    Marvell 和软银目前并未就交易进行积极谈判,但双方的兴趣可能会重新燃起。按企业估值推算,这笔交易一旦成真将成为半导体业界有史以来最大的并购。   Marvell芯片领域的佼佼
    的头像 发表于 11-10 07:00 1.2w次阅读

    OpenAI启动IPO前夕最大规模重组

    近日,OpenAI毫无预兆地宣布了公司历史上在IPO前夕最大规模、最剧烈的一次组织架构重组。ChatGPT、Codex以及面向开发者的API三大核心产品线被全部打碎,原地合并为一个统一的产品组织
    的头像 发表于 05-18 11:12 1519次阅读

    亚马逊正在公司内部大规模部署其自研AI产品"MeshClaw"

    近日,亚马逊(Amazon.com)正在公司内部大规模部署其自研AI产品"MeshClaw",允许员工创建能够接入办公软件、代替用户执行任务的AI智能体。然而,这项本应
    的头像 发表于 05-15 10:25 1939次阅读

    中科曙光scaleX万卡超集群重塑超大规模算力基础设施

    在“人工智能+”行动深入推进的当下,算力基础设施已成为国家战略竞争力的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX万卡超集群打造的智能管理体系,正以“能管住-管得稳-用得好”的进阶逻辑,重塑超大规模算力基础设施的运行范式,让万级节点协同从行业痛点变为
    的头像 发表于 01-30 15:43 1095次阅读

    全球首个最大规模跨本体视触觉多模态数据集白虎-VTouch发布

    具身智能走向真实世界规模化应用,离不开可复现、可扩展、可协同演进的数据基础设施。围绕真实物理交互能力构建这一核心工程目标,1月26日,国家地方共建人形机器人创新中心联合上海纬钛科技有限公司正式发布
    的头像 发表于 01-29 14:41 1008次阅读

    天合储能完成Elementa 2 Pro储能系统大规模燃烧实验

    近日,天合储能完成针对其储能系统Elementa 2 Pro的大规模燃烧实验。本次实验在极端火灾工况下,对储能系统的舱体结构、防火隔离能力以及关键系统在高温、火焰等复杂耦合条件下的可靠性进行了系统性验证。
    的头像 发表于 01-21 15:31 734次阅读

    浙江大学杨建义团队:集成光电计算芯片,引领大规模计算硬件 “范式跃迁”

    出集成光电计算芯片,通过光子替代电子实现数据的高速并行处理,不仅将计算能效提升 3 个数量级,更突破了大规模计算硬件的架构限制,为全球算力基础设施升级提供了 “中国方案”,开启了计算硬件从 “电子时代” 向 “光电子融合时
    的头像 发表于 09-25 16:56 1800次阅读
    浙江大学杨建义团队:集成光电计算<b class='flag-5'>芯片</b>,引领<b class='flag-5'>大规模</b>计算硬件 “范式跃迁”

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 1510次阅读
    TensorRT-LLM的<b class='flag-5'>大规模</b>专家并行架构设计

    大规模物联网供电:考虑因素与微能量采集技术解决方案

    5G 技术推广促使工业 4.0 等大规模物联网应用爆发式增长,但为数十亿无线节点提供可扩展可靠电源挑战巨大,不解决将阻碍其普及。仅靠增加电池不可行,需采用能量采集(EH)技术。确定大规模物联网节点
    的头像 发表于 09-22 16:05 810次阅读

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源模型的设计原则也采用了类似的大规模细粒度 MoE 架构。但大规模 M
    的头像 发表于 09-06 15:21 1558次阅读
    <b class='flag-5'>大规模</b>专家并行模型在TensorRT-LLM的设计

    使用Ansible实现大规模集群自动化部署

    当你面对1000+服务器需要部署时,你还在一台台手工操作吗?本文将揭秘如何用Ansible实现大规模集群的自动化部署,让运维效率提升10倍!
    的头像 发表于 08-27 14:41 1113次阅读

    复杂装备研发设计中利用数据实现大规模个性化定制

    在复杂装备研发设计中,利用数据实现大规模个性化定制已成为提升企业竞争力、满足多样化市场需求的关键路径。其核心在于通过数据驱动的个性化需求识别、模块化设计、柔性生产、智能决策及闭环反馈,实现高标准满足
    的头像 发表于 08-06 17:17 933次阅读

    Silicon Labs(芯科科技)与Wirepas合作芯片组出货量破千万,助力大规模工业物联网

    (SoC),该方案采用了芯科科技的FG23 Sub-GHz SoC,为全球规模最大、要求最严苛的工业网状网络提供支持,包括智能电表、应急照明、工业监控和楼宇自动化等领域。 两家公司拥有悠久的合作历史,共同打造了稳健、超高韧性和大规模
    的头像 发表于 07-14 19:00 3488次阅读
    Silicon Labs(芯科科技)与Wirepas合作<b class='flag-5'>芯片</b>组出货量破千万,助力<b class='flag-5'>大规模</b>工业物联网

    算力存储:首款2nm定制SRAM来了!

    解决方案部总经理 Will Chu 表示:定制化是人工智能基础设施的未来。超大规模企业目前用于开发尖端定制 XPUs 的方法论和技术将逐渐渗透到更多客户、更
    的头像 发表于 06-21 00:57 7731次阅读

    大规模芯片验证:基于AMD VP1902的S8-100原型验证系统实测性能翻倍

    引言随着AI、HPC及超大规模芯片设计需求呈指数级增长原型验证平台已成为芯片设计流程中验证复杂架构、缩短迭代周期的核心工具。然而,传统原型验证系统受限于单芯片容量(通常
    的头像 发表于 06-06 13:13 1755次阅读
    超<b class='flag-5'>大规模</b><b class='flag-5'>芯片</b>验证:基于AMD VP1902的S8-100原型验证系统实测性能翻倍