0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

7nm制程,比GPU效率高,Meta发布第一代AI推理加速器

AI智胜未来 来源:机器之心 2023-05-26 15:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,Meta 透露了其在人工智能方面取得的最新进展。

人们提起 Meta 时,通常会想到其应用程序,包括 Facebook、Instagram、WhatsApp 或即将推出的元宇宙。但许多人不知道的是这家公司设计和构建了非常复杂的数据中心来运营这些服务。

与 AWS、GCP 或 Azure 等云服务提供商不同,Meta 不需要披露有关其硅芯选择、基础设施或数据中心设计的细节,除了其 OCP 设计用来给买家留下深刻印象。Meta 的用户希望获得更好、更一致的体验,而不关心它是如何实现的。

在 Meta,AI 工作负载无处不在,它们构成了广泛用例的基础,包括内容理解、信息流、生成式 AI 和广告排名。这些工作负载在 PyTorch 上运行,具有一流的 Python 集成、即时模式(eager-mode)开发和 API 简洁性。特别是深度学习推荐模型(DLRMs),对于改善 Meta 的服务和应用体验非常重要。但随着这些模型的大小和复杂性的增加,底层的硬件系统需要在保持高效的同时提供指数级增长的内存和计算能力。

Meta 发现,对于目前规模的 AI 运算和特定的工作负载,GPU 的效率不高,并不是最佳选择。因此,该公司提出了推理加速器 MTIA,帮助更快地训练 AI 系统。

MTIA V1

4ca17d8c-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1(推理)芯片(die)

2020 年,Meta 为其内部工作负载设计了第一代 MTIA ASIC 推理加速器。该推理加速器是其全栈解决方案的一部分,整个解决方案包括芯片、PyTorch 和推荐模型。

MTIA 加速器采用 TSMC 7nm 工艺制造,运行频率为 800 MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2 TFLOPS。它的热设计功耗 (TDP) 为 25 W。

MTIA 加速器由处理元件 (PE)、片上和片外存储器资源以及互连组成。该加速器配备了运行系统固件的专用控制子系统。固件管理可用的计算和内存资源,通过专用主机接口与主机通信,协调加速器上的 job 执行。

内存子系统使用 LPDDR5 作为片外 DRAM 资源,可扩展至 128 GB。该芯片还有 128 MB 的片上 SRAM,由所有 PE 共享,为频繁访问的数据和指令提供更高的带宽和更低的延迟。

MTIA 加速器网格包含以 8x8 配置组织的 64 个 PE,这些 PE 相互连接,并通过网状网络连接到内存块。整个网格可以作为一个整体来运行一个 job,也可以分成多个可以运行独立 job 的子网格。

每个 PE 配备两个处理器内核(其中一个配备矢量扩展)和一些固定功能单元,这些单元经过优化以执行关键操作,例如矩阵乘法、累加、数据移动和非线性函数计算。处理器内核基于 RISC-V 开放指令集架构 (ISA),并经过大量定制以执行必要的计算和控制任务。

每个 PE 还具有 128 KB 的本地 SRAM 内存,用于快速存储和操作数据。该架构最大限度地提高了并行性和数据重用性,这是高效运行工作负载的基础。

该芯片同时提供线程和数据级并行性(TLP 和 DLP),利用指令级并行性 (ILP),并通过允许同时处理大量内存请求来实现大量的内存级并行性 (MLP)。

4d2fdce4-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1 系统设计

MTIA 加速器安装在小型双 M.2 板上,可以更轻松地集成到服务器中。这些板使用 PCIe Gen4 x8 链接连接到服务器上的主机 CPU,功耗低至 35 W。

4d5ef182-fb2c-11ed-90ce-dac502259ad0.png

带有 MTIA 的样品测试板

托管这些加速器的服务器使用来自开放计算项目的 Yosemite V3 服务器规范。每台服务器包含 12 个加速器,这些加速器连接到主机 CPU,并使用 PCIe 交换机层级相互连接。因此,不同加速器之间的通信不需要涉及主机 CPU。此拓扑允许将工作负载分布在多个加速器上并并行运行。加速器的数量和服务器配置参数经过精心选择,以最适合执行当前和未来的工作负载。

MTIA 软件栈

MTIA 软件(SW)栈旨在提供给开发者更好的开发效率和高性能体验。它与 PyTorch 完全集成,给用户提供了一种熟悉的开发体验。使用基于 MTIA 的 PyTorch 与使用 CPU 或 GPU 的 PyTorch 一样简单。并且,得益于蓬勃发展的 PyTorch 开发者生态系统和工具,现在 MTIA SW 栈可以使用 PyTorch FX IR 执行模型级转换和优化,并使用 LLVM IR 进行低级优化,同时还支持 MTIA 加速器自定义架构和 ISA。

下图为 MTIA 软件栈框架图:

4e236b98-fb2c-11ed-90ce-dac502259ad0.png

作为 SW 栈的一部分,Meta 还为性能关键型 ML 内核开发了一个手动调整和高度优化的内核库,例如完全连接和嵌入包运算符。在 SW 栈的更高层级可以选择在编译和代码生成过程中实例化和使用这些高度优化的内核。

此外,MTIA SW 栈随着与 PyTorch 2.0 的集成而不断发展,PyTorch 2.0 更快、更 Python 化,但一如既往地动态。这将启用新功能,例如 TorchDynamo 和 TorchInductor。Meta 还在扩展 Triton DSL 以支持 MTIA 加速器,并使用 MLIR 进行内部表示和高级优化。

MTIA 性能

Meta 比较了 MTIA 与其他加速器的性能,结果如下:

4e597684-fb2c-11ed-90ce-dac502259ad0.png

Meta 使用五种不同的 DLRMs(复杂度从低到高)来评估 MTIA

此外,Meta 还将 MTIA 与 NNPI 以及 GPU 进行了比较,结果如下:

4e63c922-fb2c-11ed-90ce-dac502259ad0.png

评估发现,与 NNPI 和 GPU 相比,MTIA 能够更高效地处理低复杂度(LC1 和 LC2)和中等复杂度(MC1 和 MC2)的模型。此外,Meta 尚未针对高复杂度(HC)模型进行 MTIA 的优化。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    841

    浏览量

    40240
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136068
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14921

原文标题:7nm制程,比GPU效率高,Meta发布第一代AI推理加速器

文章出处:【微信号:AI智胜未来,微信公众号:AI智胜未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    绕开先进制程卡脖子:2026先进封装成中国AI芯片自主突围关键

    7nm/3nm受限,先进封装如何用成熟制程芯粒实现性能跃升?深度剖析国产先进封装如何保障AI产业链安全,重塑全球半导体价值重心。
    的头像 发表于 03-30 15:04 404次阅读

    使用NORDIC AI的好处

    ; 自定义 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite 模型可实现最高约 15× 推理
    发表于 01-31 23:16

    曦望发布一代推理GPU芯片,单位Token推理成本降低90%

    电子发烧友网报道 1月27日,国产GPU厂商曦望(Sunrise)重磅发布一代推理GPU芯片——启望S3。这是曦望在近
    的头像 发表于 01-28 17:38 9537次阅读

    今日看点:消息称 AMD、通考虑导入 SOCAMM 内存;曦望发布一代推理GPU芯片启望S3

    曦望发布一代推理GPU芯片启望S3 近日,浙江杭州GPU创企曦望(Sunrise)发布
    发表于 01-28 11:09 1331次阅读

    d-Matrix与Andes晶心科技合作打造下一代AI推理加速器

    数据中心生成式 AI 推理计算的先驱 d-Matrix,以及高效率、低功耗 RISC-V 处理核心的领先供应商、RISC-V 国际协会的创始首席会员 Andes 晶心科技 (Ande
    的头像 发表于 12-17 10:47 1155次阅读

    边缘计算中的AI加速器类型与应用

    人工智能正在推动对更快速、更智能、更高效计算的需求。然而,随着每秒产生海量数据,将所有数据发送至云端处理已变得不切实际。这正是边缘计算中AI加速器变得不可或缺的原因。这种专用硬件能够直接在边缘设备上
    的头像 发表于 11-06 13:42 1000次阅读
    边缘计算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>类型与应用

    国产AI芯片真能扛住“算力内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“算力是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下算力直接拉到256 TFLOPS,比上一代提升了40%,但功耗
    发表于 10-27 13:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型的后继者 二、用创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是种开源、模块化的指令集架构(ISA)。优势如下: ①模
    发表于 09-12 17:30

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

        降低HBM依赖,华为发布AI推理创新技术UCM   日前,华为正式发布AI推理创新技术U
    发表于 08-13 09:45 5715次阅读

    PCIe协议分析仪能测试哪些设备?

    /ASIC加速器 测试场景:分析专用AI推理加速器与主系统的PCIe通信,优化数据传输和指令下发效率。 应用价值:提高
    发表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    直击Computex 2025:英特尔重磅发布一代GPU,图形和AI性能跃升3.4倍

    电子发烧友原创  章鹰 5月19日,在Computex 2025上,英特尔发布了最新全新图形处理GPU)和AI加速器产品系列。包括全新英
    的头像 发表于 05-21 00:57 7746次阅读
    直击Computex 2025:英特尔重磅<b class='flag-5'>发布</b>新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b>,图形和<b class='flag-5'>AI</b>性能跃升3.4倍

    直击Computex2025:英特尔重磅发布一代GPU,图形和AI性能跃升3.4倍

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系
    的头像 发表于 05-20 12:27 5658次阅读
    直击Computex2025:英特尔重磅<b class='flag-5'>发布</b>新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b>,图形和<b class='flag-5'>AI</b>性能跃升3.4倍

    英特尔发布全新GPUAI和工作站迎来新选择

    英特尔推出面向准专业用户和AI开发者的英特尔锐炫Pro GPU系列,发布英特尔® Gaudi 3 AI加速器机架级和PCIe部署方案   2
    发表于 05-20 11:03 1912次阅读

    第一代半导体被淘汰了吗

    在半导体产业的百年发展历程中,“第一代半导体是否被淘汰”的争议从未停歇。从早期的锗晶体管到如今的硅基芯片,以硅为代表的第一代半导体材料,始终以不可替代的产业基石角色,支撑着全球95%以上的电子设备
    的头像 发表于 05-14 17:38 1263次阅读
    <b class='flag-5'>第一代</b>半导体被淘汰了吗