电子发烧友网报道(文/周凯扬)不久前,Meta宣布将花费150亿美元,购置60多万块GPU,而这还没算上系统成本。就当大家以为Meta打算All In GPU之际,Meta放出了下一代MTIA AI芯片,MTIA v2。
基于5nm打造,性能三倍以上
相较上一代MTIA v1,新的MTIA v2的工艺从台积电的7nm换成了台积电5nm,芯片主频也从800MHz提升至1.35GHz。得益于芯片工艺的改进,即便晶体管数量大幅增加,其芯片面积仅增加了12%。

MTIA v2的性能提升主要体现在算力上,根据Meta给出的数据其GEMM算力达到354TFLOPS/s(INT8),SIMD算力达到11.06TFLOPS/s(INT8),相较上一代均提升了3倍以上。在接口上,MTIA v2也从8xPCIe 4.0升级至8x PCIe 5.0,带宽翻倍。
算力的提升除了归功于工艺的升级外,很可能也不乏内核的升级。结合晶心科技和Meta合作开发数据中心AI处理器的新闻来看,MTIA v1很有可能采用了晶心科技打造的首个商用RISC-V矢量处理器内核NX27V,而MTIA v2则很可能用到了最新的AX45MPV内核,其三倍以上的性能提升幅度也符合MTIA的算力提升幅度,不过这也只是猜想而已。值得一提的是,与同样在近期发布的英特尔Gaudi 3不一样,MTIA v2在内存配置上依旧没有选择HBM,片上内存只有256MB,片外内存选择了LPDDR5。虽然其片上内存拥有2.7TB/s的带宽,但也注定了MTIA v2很难用于高效率的大模型应用。在硬件堆料下,MTIA v2的功耗也已经来到了90W,相比MTIA v1的25有着比较大幅度的增加。不过对比H100的能耗比,MTIA v2依然有着比较大的优势。但这也就意味着上一代的服务器方案可能已经不再适用于新的方案,Meta因此为新加速器打造了全新的机柜系统。该系统单个机架由三个底盘构成,每个底盘塞进了12块板卡,每个板卡集成了2个加速器,也就意味着单个机架共有72个MTIA v2加速器,单机柜至少需要6000W的电源供应。如果想要实现多机架拓展的话,也可以选择加入RDMA NIC。Meta表示实现这样的成绩,除了依靠硬件本身的性能提升之外,也离不开他们在优化内核、编译器、运行时上的努力。随着后续开发生态进一步成熟,对模型针对性优化的时间会进一步减少,而且未来还有不少空间可以继续优化芯片的效率。软件栈引入新的编译器
随着新硬件的发布,Meta也加大了他们在软件栈上的开发力度。作为PyTorch的开发者,MTIA的软件栈从设计之初就做到了PyTorch 2.0的完全集成,也支持TorchDynamo和TorchInductor等新特性。但与此同时,为了简化应用开发者的工作,为MTIA v1开发的代码,也能向下兼容新的MTIA v2硬件。而且Meta表示,因为已经将全部的软件栈集成在新的MTIA芯片内,在发布之际,他们已经在自己的服务器上用MTIA v2跑了一段时间了。正因为有这种兼容的软件栈方案,Meta可在九个月内就能让商用模型运行在16个地区的服务器上。为了为全新的MTIA硬件生成更高性能的代码,Meta还打造了一套新的Triton-MTIA编译器。Triton是由OpenAI开发的一套开源语言和编译器,用于编写高效的ML计算内核。Triton极大地提高了开发者编写GPU代码的速度,但Meta发现Triton也很适合用于MTIA这样非GPU的硬件架构。写在最后
从MTIA v2的性能来看,该加速器应该不会替代其购置的大量GPU用在LLM模型上,而是追求算力、内存带宽和内存容量的平衡,用于排名和推荐的大模型上。这样一来大容量的SRAM还是用在GPU上,而Meta最大收入来源的广告业务,可以靠MTIA之类的加速器减少成本。Meta除了投资定制AI芯片和下一代GPU这样的计算芯片外,Meta也强调他们会继续投资内存带宽、网络、容量相关的下一代硬件系统。不仅如此,Meta也在探索增加MTIA的应用范围,包括未来可能支持GenAI的负载。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
Meta
+关注
关注
0文章
326浏览量
12518 -
AI芯片
+关注
关注
17文章
2184浏览量
36888
发布评论请先 登录
相关推荐
热点推荐
RZ/G 系列第二代产品:性能强劲的多功能芯片解决方案
RZ/G 系列第二代产品:性能强劲的多功能芯片解决方案 在当今科技飞速发展的时代,电子设备对于高性能、多功能芯片的需求愈发迫切。Renesa
第二代AMD VERSAL AI EDGE系列全面赋能汽车ADAS系统
选择 AMD 自适应 SoC 和 FPGA 第二代 AMD Versal AI Edge 系列自适应 SoC 带来一种高性能单芯片解决方案,为自动驾驶赋能助力。该系列器件配备用于 IS
比亚迪自研BMS AFE芯片护航第二代刀片电池
近日,比亚迪“闪充中国 改变世界”发布会刷屏全网,“5分钟充至70%、9分钟充至97%”的全球量产最快闪充速度,彻底终结充电焦虑,让“充电像加油一样快”从口号变成现实。而在1500kW闪充桩、第二代
加快进程!Meta计划2027年底前推出四代自研AI芯片
电子发烧友网报道(文/李弯弯)近日,Meta对外宣布,计划在2027年底前推出四代自研人工智能芯片,旨在满足自身快速增长的
信号干扰、轨迹漂移成过去式?第二代UWB技术在复杂工况下的硬核突围
四相科技第二代UWB通过物理层协议和信号频段的优化,实现了测距、功耗与安全性的全面升级,致力于为复杂工业环境提供更精准稳定、更具“确定性”价值的解决方案。随着技术生态的持续完善与应用场景的不断拓展,第二代UWB的性能与成本优势将
比亚迪正式发布第二代刀片电池及闪充技术
发布会现场,王传福还宣布:所有搭载第二代刀片电池的闪充车车主,均享有重磅“闪充权益”,自交车之日起,在全国闪充站可享受1年的免费闪充权益,让闪充体验更畅快。并且,在闪充免费期结束后,也会同行业保持一致,不会额外收费。
AMD VEK385评估套件助力快速启动第二代Versal AI Edge系列设计
AMD VEK385 评估套件为评估第二代 AMD Versal AI Edge 系列 XC2VE3858 器件提供了一条快速、功能丰富且可扩展的途径。借助异构计算、高性能 I/O、全面的内存带宽、即用型工作负载以及稳健的启动工
新品 | CoolSiC™ MOSFET 650V第二代产品,新增75mΩ型号
新品CoolSiCMOSFET650V第二代产品,新增75mΩ型号CoolSiCMOSFET650V第二代器件基于性能卓越的第一代沟槽SiCMOSFET技术打造,通过
类比半导体全新第二代高边开关芯片HD80152和SPI高边HD708204量产
致力于提供高品质汽车驱动芯片和高品质信号链芯片供应商上海类比半导体技术有限公司(下称“类比半导体”或“类比”)宣布全新第二代高边开关芯片HD80152和SPI高边HD708204量产。
新品 | CoolSiC™ MOSFET 400V与440V第二代器件
新品CoolSiCMOSFET400V与440V第二代器件CoolSiCMOSFET400V与440V第二代器件兼具高鲁棒性、超低开关损耗与低通态电阻等优势,同时有助于优化系统成本。该系列400V
TeledyneLeCroy发布第二代DisplayPort 2.1 PHY合规测试与调试解决方案
TeledyneLeCoy(Teledyne子公司)宣布第二代QualiPHY 2自动化合规测试框架现已支持DisplayPort 2.1物理层(PHY)合规性测试。
新品 | 采用.XT扩散焊和第二代1200V SiC MOSFET的Easy C系列
新品采用.XT扩散焊和第二代1200VSiCMOSFET的EasyC系列EasyPACK2C1200V8mΩ三电平模块、EasyPACK2C1200V8mΩ四单元模块以及
类比半导体推出全新第二代高边开关芯片HD80012
致力于提供高品质汽车驱动芯片和高品质工业模拟芯片供应商上海类比半导体技术有限公司(下称“类比半导体”或“类比”)宣布推出全新第二代高边开关芯片HD80012,单通道低内阻1.2mΩ产品
AMD第二代Versal AI Edge和Versal Prime系列加速量产 为嵌入式系统实现单芯片智能
我们推出了 AMD 第二代 Versal AI Edge 系列和第二代 Versal Prime 系列,这两款产品是对 Versal 产品组合的扩展,可为嵌入式系统实现单芯片智能。
恩智浦推出第二代OrangeBox车规级开发平台
第二代OrangeBox开发平台集成AI功能、后量子加密技术及内置软件定义网络的能力,应对快速演变的信息安全威胁。
Meta第二代自研AI芯片出世,性能提升三倍以上
评论