0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型复杂性日益增加,AI优化的硬件随之出现

FPGA之家 来源:英特尔FPGA 作者:英特尔FPGA 2021-06-16 17:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能AI)模型的规模和复杂度以每年大约 10 倍的速度不断增加,AI 解决方案提供商面临着巨大的压力,他们必须缩短产品上市时间,提高性能,快速适应不断变化的形势。模型复杂性日益增加,AI 优化的硬件随之出现。

例如,近年来,图形处理单元(GPU)集成了 AI 优化的算法单元,以提高 AI 计算吞吐量。然而,随着 AI 算法和工作负载的演变与发展,它们会展现出一些属性,让我们难以充分利用可用的 AI 计算吞吐量,除非硬件提供广泛的灵活性来适应这种算法变化。近期的论文表明,许多 AI 工作负载都难以实现 GPU 供应商报告的全部计算能力。即使对于高度并行的计算,如一般矩阵乘法(GEMM),GPU 也只能在一定规模的矩阵下实现高利用率。因此,尽管 GPU 在理论上提供较高的 AI 计算吞吐量(通常称为“峰值吞吐量”),但在运行 AI 应用时,实际性能可能低得多。

FPGA 可提供一种不同的 AI 优化的硬件方法。与 GPU 不同,FPGA 提供独特的精细化空间可重构性。这意味着我们可以配置 FPGA 资源,以极为准确的顺序执行精确的数学函数,从而实施所需的操作。每个函数的输出都可以直接路由到需要它的函数的输入之中。这种方法支持更加灵活地适应特定的 AI 算法和应用特性,从而提高可用 FPGA 计算能力的利用率。此外,虽然 FPGA 需要硬件专业知识才能编程(通过硬件描述语言),但专门设计的软核处理单元(也就是重叠结构),允许 FPGA 以类似处理器的方式编程。FPGA 编程完全通过软件工具链来完成,简化了任何特定于 FPGA 的硬件复杂性。

FPGA与GPU架构的背景

2020 年,英特尔 宣布推出首款 AI 优化的 FPGA — 英特尔 Stratix 10 NX FPGA 器件。英特尔 Stratix 10 NX FPGA 包括 AI 张量块,支持 FPGA 实现高达 143 INT8 和 286 INT4 峰值 AI 计算 TOPS 或 143 块浮点 16(BFP16)和 286 块浮点 12(BFP12)TFLOPS。最近的论文表明,块浮点精度可为许多 AI 工作负载提供更高的精度和更低的消耗。NVIDIA GPU 同样也提供张量核。但从架构的角度来看,GPU 张量核和 FPGA AI 张量块有很大的不同,如下图所示。

GPU 和 FPGA 都有张量核心。FPGA 有可以在数据流内外编织的软逻辑

(左)GPU 数据从张量核心处理的内存系统中读取,写回内存系统。(右)FPGA 数据可以从内存中读取,但数据流可以并行安排到一个或多个张量核心。任意数量的张量核心都能以最小的传输开销使用输出。数据可以被写回内存或路由到其他任何地方

英特尔研究人员开发了一种名为神经处理单元(NPU)的 AI 软处理器。这种 AI 软处理器适用于低延迟、低批量推理。它将所有模型权重保持在一个或多个连接的 FPGA 上以降低延迟,从而确保模型持久性。

NPU 重叠架构和用于编程 NPU 软核处理器的前端工具链高级概述

FPGA与GPU性能比较

本次研究的重点是计算性能。下图比较了英特尔 Stratix 10 NX FPGA 上的 NPU 与 NVIDIA T4 和 V100 GPU 运行各种深度学习工作负载的性能,包括多层感知器(MLP)、一般矩阵向量乘法(GEMV)、递归神经网络(RNN)、长期短期记忆(LSTM)和门控循环单元(GRU)。GEMV 和 MLP 由矩阵大小来指定,RNN、LSTM 和 GRU 则通过大小和时间步长来指定。例如,LSTM-1024-16 工作负载表示包含 1024x1024 矩阵和 16 个时间步长的 LSTM。

NVIDIA V100 和 NVIDIA T4 与英特尔 Stratix 10 NX FPGA 上的 NPU 在不同批处理规模下的性能。虚线显示 NPU 在批次大小可被 6 整除情况下的性能

从这些结果可以充分地看出,英特尔 Stratix 10 NX FPGA 不仅可以在低批次实时推理时实现比 GPU 高一个数量级的性能,还可以有效地进行高批次实时推理。

由于架构上的差异和灵活编程模型,英特尔 Stratix 10 NX FPGA 还可实现更出色的端到端性能。不会产生与 GPU 相同的开销。

短序列和长序列时 RNN 工作负载的系统级执行时间(越低越好)

结论

英特尔 Stratix 10 NX FPGA 采用高度灵活的架构,所实现的平均性能比 NVIDIA T4 GPU 和 NVIDIA V100 GPU 分别高 24 倍和 12 倍。

由于其较高的计算密度,英特尔 Stratix 10 NX FPGA 可为以实际可达到性能为重要指标的高性能、延迟敏感型 AI 系统提供至关重要的功能。

原文标题:实际性能超过GPU,英特尔®Stratix®10 NX FPGA如何助您在AI加速领域赢得先机?

文章出处:【微信公众号:FPGA之家】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1655

    文章

    22283

    浏览量

    630285
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179303
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296601

原文标题:实际性能超过GPU,英特尔®Stratix®10 NX FPGA如何助您在AI加速领域赢得先机?

文章出处:【微信号:zhuyandz,微信公众号:FPGA之家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何利用NPU与模型压缩技术优化边缘AI

    随着人工智能模型从设计阶段走向实际部署,工程师面临着双重挑战:在计算能力和内存受限的嵌入式设备上实现实时性能。神经处理单元(NPU)作为强大的硬件解决方案,擅长处理 AI 模型密集的计
    的头像 发表于 11-07 15:26 1036次阅读
    如何利用NPU与<b class='flag-5'>模型</b>压缩技术<b class='flag-5'>优化</b>边缘<b class='flag-5'>AI</b>

    医疗PCB供应链复杂性与风险管控

    印刷电路板(PCB)最初作为一种用于承载和连接电子元件的简单解决方案,并不需要复杂的点对点布线。如今,PCB已成为我们日常生活的重要组成部分,并且随着技术进步,以前的简单性逐步让位于复杂性。现在我们
    的头像 发表于 10-14 14:17 246次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    优化计算资源并有效地适应任务的复杂性。 显著特征: MoE 模型的一个显著特征是在管理大型数据集方面的灵活性较高,它能够在计算效率小幅降低的情况下,将模型容量扩大上千倍。稀疏门控混合专
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    流体芯片 ⑤AI计算平台 ⑥基于AI的自主决策系统 ⑦基于AI的自主学习系统 2、面临的挑战 ①需要造就一个跨学科、全面覆盖的知识库和科学基础模型
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其
    发表于 09-06 19:12

    模型在半导体行业的应用可行分析

    有没有这样的半导体专用大模型,能缩短芯片设计时间,提高成功率,还能帮助新工程师更快上手。或者软硬件可以在设计和制造环节确实有实际应用。会不会存在AI缺陷检测。 能否应用在工艺优化和预测
    发表于 06-24 15:10

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    模型全链路分析功能,针对AI应用开发的三大痛点逐个击破。 当前AI应用开发者在使用开发工具时会面临一个很头疼的问题,种类多、功能不聚合、过于碎片化,导致开发过程非常复杂。Neuron
    发表于 04-13 19:52

    Marvell展示2纳米芯片3D堆叠技术,应对设计复杂性挑战!

    随着现代科技的迅猛发展,芯片设计面临着前所未有的挑战。特别是在集成电路(IC)领域,随着设计复杂性增加,传统的光罩尺寸已经成为制约芯片性能和功能扩展的瓶颈。为了解决这一问题,3D堆叠技术应运而生
    的头像 发表于 03-07 11:11 892次阅读
    Marvell展示2纳米芯片3D堆叠技术,应对设计<b class='flag-5'>复杂性</b>挑战!

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    极点。 2. 电路代码生成 Synopsys VerilogGPT (需企业授权) 专为硬件描述语言(HDL)优化模型,生成可综合的Verilog/VHDL代码,避免R1可能出现的语
    发表于 02-14 02:08

    中兴通讯AiCube:破解AI模型部署难题

    AI领域,DeepSeek等国产模型凭借算法优化,成功将训练与推理的综合成本降低了40%以上,这一突破使得中小型企业也能轻松参与AI创新。然而,随着
    的头像 发表于 02-13 09:11 875次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+第一章初体验

    《基于大模型的RAG应用开发与优化》试读报告 ——第一章:了解大模型与RAG 近年来,随着人工智能技术的快速发展,大模型与生成式AI技术逐
    发表于 02-07 10:42

    【「大模型启示录」阅读体验】对大模型更深入的认知

    的平衡,解释得清清楚楚,让我这个非专业人士也能明白大模型在实际应用中面临的挑战和限制,也对这些模型复杂性和挑战有了更深的理解。 而且,书中还提到了OpenAI的成功案例和CUDA技术壁垒的形成,这些
    发表于 12-20 15:46

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    ,PReLU仍然能够在正输入区域促进稀疏激活,这对模型的学习是有利的。 缺点 增加模型复杂度:由于引入了额外的可学习参数 α,这增加
    发表于 12-19 14:33

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI
    的头像 发表于 12-19 11:29 1215次阅读