电子发烧友网报道(文/周凯扬)不久前,Meta宣布将花费150亿美元,购置60多万块GPU,而这还没算上系统成本。就当大家以为Meta打算All In GPU之际,Meta放出了下一代MTIA AI芯片,MTIA v2。
基于5nm打造,性能三倍以上
相较上一代MTIA v1,新的MTIA v2的工艺从台积电的7nm换成了台积电5nm,芯片主频也从800MHz提升至1.35GHz。得益于芯片工艺的改进,即便晶体管数量大幅增加,其芯片面积仅增加了12%。MTIA v2芯片 / Meta
MTIA v2的性能提升主要体现在算力上,根据Meta给出的数据其GEMM算力达到354TFLOPS/s(INT8),SIMD算力达到11.06TFLOPS/s(INT8),相较上一代均提升了3倍以上。在接口上,MTIA v2也从8xPCIe 4.0升级至8x PCIe 5.0,带宽翻倍。
算力的提升除了归功于工艺的升级外,很可能也不乏内核的升级。结合晶心科技和Meta合作开发数据中心AI处理器的新闻来看,MTIA v1很有可能采用了晶心科技打造的首个商用RISC-V矢量处理器内核NX27V,而MTIA v2则很可能用到了最新的AX45MPV内核,其三倍以上的性能提升幅度也符合MTIA的算力提升幅度,不过这也只是猜想而已。值得一提的是,与同样在近期发布的英特尔Gaudi 3不一样,MTIA v2在内存配置上依旧没有选择HBM,片上内存只有256MB,片外内存选择了LPDDR5。虽然其片上内存拥有2.7TB/s的带宽,但也注定了MTIA v2很难用于高效率的大模型应用。在硬件堆料下,MTIA v2的功耗也已经来到了90W,相比MTIA v1的25有着比较大幅度的增加。不过对比H100的能耗比,MTIA v2依然有着比较大的优势。但这也就意味着上一代的服务器方案可能已经不再适用于新的方案,Meta因此为新加速器打造了全新的机柜系统。该系统单个机架由三个底盘构成,每个底盘塞进了12块板卡,每个板卡集成了2个加速器,也就意味着单个机架共有72个MTIA v2加速器,单机柜至少需要6000W的电源供应。如果想要实现多机架拓展的话,也可以选择加入RDMA NIC。Meta表示实现这样的成绩,除了依靠硬件本身的性能提升之外,也离不开他们在优化内核、编译器、运行时上的努力。随着后续开发生态进一步成熟,对模型针对性优化的时间会进一步减少,而且未来还有不少空间可以继续优化芯片的效率。软件栈引入新的编译器
随着新硬件的发布,Meta也加大了他们在软件栈上的开发力度。作为PyTorch的开发者,MTIA的软件栈从设计之初就做到了PyTorch 2.0的完全集成,也支持TorchDynamo和TorchInductor等新特性。但与此同时,为了简化应用开发者的工作,为MTIA v1开发的代码,也能向下兼容新的MTIA v2硬件。而且Meta表示,因为已经将全部的软件栈集成在新的MTIA芯片内,在发布之际,他们已经在自己的服务器上用MTIA v2跑了一段时间了。正因为有这种兼容的软件栈方案,Meta可在九个月内就能让商用模型运行在16个地区的服务器上。为了为全新的MTIA硬件生成更高性能的代码,Meta还打造了一套新的Triton-MTIA编译器。Triton是由OpenAI开发的一套开源语言和编译器,用于编写高效的ML计算内核。Triton极大地提高了开发者编写GPU代码的速度,但Meta发现Triton也很适合用于MTIA这样非GPU的硬件架构。写在最后
从MTIA v2的性能来看,该加速器应该不会替代其购置的大量GPU用在LLM模型上,而是追求算力、内存带宽和内存容量的平衡,用于排名和推荐的大模型上。这样一来大容量的SRAM还是用在GPU上,而Meta最大收入来源的广告业务,可以靠MTIA之类的加速器减少成本。Meta除了投资定制AI芯片和下一代GPU这样的计算芯片外,Meta也强调他们会继续投资内存带宽、网络、容量相关的下一代硬件系统。不仅如此,Meta也在探索增加MTIA的应用范围,包括未来可能支持GenAI的负载。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
Meta
+关注
关注
0文章
164浏览量
11180 -
AI芯片
+关注
关注
17文章
1657浏览量
34407
发布评论请先 登录
相关推荐
AMD发布第二代Versal自适应SoC,AI嵌入式领域再提速
AMD表示,第二代Versal系列自适应SoC搭载全新的AI引擎,相较上一代Versal AI Edge系列,每瓦TOPS功率可实现最多3倍的性能提
AMD推出第二代Versal器件,为AI驱动型嵌入式系统提供端到端加速
Versal AI Edge 系列和第二代 Versal Prime 系列自适应 SoC,其将预处理、AI 推理与后处理集成于单器件中,能够为 AI 驱动型嵌入式系统提供端到端加速。
AMD 以全新第二代 Versal 系列器件扩展领先自适应 SoC 产品组合,为 AI 驱动型嵌入式系统提供端到端加速
第二代 Versal 系列产品组合中首批器件借助下一代 AI 引擎将每瓦 TOPS 提升至高 3 倍,同时将基于 CPU 的标量算力较之第一代提升至高 10 倍 — 斯巴鲁位列首批
发表于 04-09 16:50
•706次阅读
瑞芯微第二代8nm高性能AIOT平台 RK3576 详细介绍
RK3576处理器
RK3576瑞芯微第二代8nm高性能AIOT平台,它集成了独立的6TOPS(Tera Operations Per Second,每秒万亿次操作)NPU(神经网络处理单元),用于
发表于 03-12 13:45
中科驭数自研第二代DPU芯片K2获得行业认可
近日,中科驭数自研第二代DPU芯片K2在众多云生态创新应用技术产品中脱颖而出,成功入选由中国云产业联盟暨中关村云计算产业联盟发布的“2023年中国云生态创新应用技术产品”。这一殊荣既是对中科驭数第二代DPU
高通第二代骁龙XR2+平台支持4.3K单眼分辨率
高通技术公司近日宣布推出全新第二代骁龙®XR2+平台,这一创新平台旨在为MR和VR设备带来更出色的性能和体验。第二代骁龙XR2+平台具备强大的硬件配置,支持高达4.3K的单眼分辨率和12路及以
高通发布第二代骁龙XR2+平台,开辟MR和VR新体验
近日,高通技术公司再次引领行业前沿,推出了全新的第二代骁龙XR2+平台。这一平台的性能显著提升,其中GPU频率提升了15%,CPU频率提升了
白皮书 | 第二代ClearClock™三次泛音晶体振荡器
白皮书
第二代ClearClock™三次泛音晶体振荡器
在这份全新的白皮书中,我们讨论了最新一代超低抖动三次泛音晶体振荡器的特点、优势、性能
发表于 09-13 09:51
iPad Air 6将搭载采用了第二代5纳米技术的M2芯片,CPU性能提升18%
,iPad Air 6将会搭载苹果M2芯片,这将是苹果史上性能最强悍的iPad Air系列产品。 M2芯片使用第二代 5 纳米技术,M2芯片
中科融合发布第二代3D成像平台
处理速度大幅提升,成像速度是第一代的1.6 倍,内存开销较上一代平台降低了75%,计算平台I/O吞吐访问性能达到Jetson NX平台的1.4倍。基于以上关键性能提升,
发表于 08-25 11:42
•243次阅读
炬芯科技第二代智能手表芯片助力实现更非凡的智能可穿戴体验
2023年7月,炬芯科技宣布全新第二代智能手表芯片正式发布。自2021年底炬芯科技推出第一代的智能手表芯片开始便快速获得了市场广泛认可和品牌客户的普遍好评。随着技术的不断创新和突破,为了更加
炬芯科技发布全新第二代智能手表芯片,引领腕上新趋势!
2023年7月,炬芯科技宣布全新第二代智能手表芯片正式发布。自2021年底炬芯科技推出第一代的智能手表芯片开始便快速获得了市场广泛认可和品牌客户的普遍好评。随着技术的不断创新和突破,为了更加
发表于 07-24 17:16
•866次阅读
今日看点丨高通第二代骁龙4芯片发布,传由台积电转单三星代工;华为明年将发布端到端 5.5G 商用产品
转向三星4纳米工艺代工。报道指出,第二代骁龙4是该系列首款以4纳米制程工艺打造的处理器,高通产品管理总监Matthew Lopatka表示,第二代芯片采用了Kryo CPU,可延长电池续航,提
发表于 06-29 10:54
•1161次阅读
国产第二代“香山”RISC-V 开源处理器计划 6 月流片:基于中芯国际 14nm 工艺,性能超 Arm A76
是南湖,第三代架构是昆明湖。香山开源社区称,第一代“雁栖湖”架构已经成功流片,实测达到预期性能,第二代“南湖”架构正在持续迭代优化中。去年 8 月 24 日,中科院计算所、北京开源
发表于 06-05 11:51
性能超ARM A76!国产第二代“香山”RISC-V开源处理器最快6月流片
据开芯院首席科学家包云岗介绍,第二代“香山”于2022年6月启动工程优化,同年9月研制完毕,计划2023年6月流片,性能超过2018年ARM发布的Cortex-A76,主频2GHz@14nm
发表于 05-28 08:41
评论