0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能需求促进FPGA市场 这一革新解决了应用瓶颈

坚白 来源:电子发烧友网 作者:陆楠 2019-05-23 14:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

过去几年,FPGA的CAGR大约一直保持在8-10%左右,随着该类器件在AI应用中的扩张,未来5年其CAGR增长将高达38.4%!根据市场调研公司Semico Research的预测,人工智能应用中FPGA的市场规模将在未来4年内增长3倍,达到52亿美元。为了保持竞争力,目前全球有25%的企业实施了人工智能/机器学习(AI/ML),而两年内,这一比例将增长到72%,以更好地获得核心职能方面的商业洞察力。
企业AI/ML部署需求增长趋势
图:企业AI/ML部署需求增长趋势
伴随这一趋势,AI的算法在不断演进,对数值精度的选择要求也更加多元,高效算力、高效丰富的存储缓存能力以及高效大带宽的数据运送能力,是AI/ML硬件解决方案所面临的主要挑战。系统开发者会利用FPGA架构去优化功耗、性能和灵活性,并突破处理单元在效率上的瓶颈,包括计算引擎、内存层次结构和数据移动。
算法和精度要求不同给处理带来挑战
图:算法和精度要求不同给处理带来挑战
就AI的应用而言,不同场景应用对FPGA的需求不同。通常云计算中的应用主要是需要FPGA在AI/ML和高带宽数据加速上的能力,而在端侧则需要在高灵活性的同时还要具有ASIC的性能。虽然,FPGA已经大量应用于泛AI领域,但它是否很好的满足这两个方面的需求,还是一个值得探讨的话题。

重构FPGA架构

纵观FPGA产品的演进历史(包括器件的产生),每一次大的迭代都是一种设计方法论的革新,从这个角度看,Achronix公司最近发布的Speedster7t针对上述两个应用场景上进行的优化都可以看做方法论上的革新。在开发Speedster7t的过程中,Achronix的工程团队完全重新构想了整个FPGA架构,以平衡片上处理、互连和外部输入输出接口,实现数据密集型应用吞吐量的最大化,这些应用场景可见于那些基于边缘和基于服务器的AI/ML应用、网络处理和存储。
“Speedster7t是我们历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀。”Achronix公司董事长兼首席执行官Robert Blake介绍,“该器件采用TSMC的7nm FinFET工艺制造,专为ML和高带宽网络应用进行了优化。”
具体而言,相较于目前的FPGA,Speedster7t革新之处在于设计了针对ML的处理器(MLP),以及一个可横跨和垂直跨越FPGA逻辑阵列的高带宽的二维片上网络(NOC),二者结合既保留了FPGA的灵活性,又实现了ASIC的性能。

不占用FPGA布线的MLP单元

这个片内的MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。该MLP可以通过运算和缓存级链实现更复杂的算法,而不需要使用FPGA布线资源
“目前FPGA会使用DSP来进行ML的处理,但其对数值精度的支持并不高效,并且需要消耗额外逻辑和存储资源,其性能也受限于FPGA布线。”Blake说,“DSP常用于无线数字滤波的处理,而Speedster7t中的MLP则在计算架构、缓存(内嵌)、可配置算法以及对整点和浮点的支持上提供了更好的AI/ML的计算性能和能效比。”
在FPGA中采用MLP比DSP更适用于AI/ML处理
图:在FPGA中采用MLP(右)比DSP(左)更适用于AI/ML处理

二维片上网络——NOC

NOC是在FPGA路由结构上的另一个重要革新。这一设计主要针对FPGA的片上处理引擎之间所需的高带宽通信。Speedster7t片上资源包括8个GDDR6控制器、72个业界SerDes(1到112 Gbps)、带有前向纠错(FEC)的硬件400G以太网MAC(4x100G或8x50G的配置),以及硬件PCI Express Gen5控制器(每个控制器有8个或16个通道)。
这些高速I/O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t通过NOC把它们连接到所有FPGA的高速数据和存储器接口。NOC和FPGA功能之间通过网络接入点NAP连接,每个水平行和垂直列的交叉点都有NAP(主NAP和从NAP)。NoC中的每行/列都可同时为每个方向提供512Gbps的数据流量,其链路双向运行,最大的设备带宽可以达到20Tbps。
“最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。”Blake说,“这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。”
图:NOC是在FPGA路由结构上的另一个重要革新
的确,NOC这一方法解决了GDDR6、400G以太网MAC这些片上资源海量数据传输的问题。Speedster7t是目前市面唯一支持GDDR6存储器的FPGA,可以支持4 Tbps的GDDR6累加带宽,可以很小的成本提供与基于HBM的FPGA等效存储带宽。相较于HBM,GDDR6只需要一半的成本就可以满足高存储层次和带宽的需求,并且,HBM是固化的块,GDDR6则更灵活,用户可以选择不同容量和带宽。
NOC也解决了传统FPGA的运行速度无法满足任何400G以太网总线宽度要求的问题,400G以太网的总线大小达1024bit,所需的最高频率达到724 MHz,这在传统FPGA中无法实现,NOC由于消除了传统设计中与FPGA布线相关的延迟,所以可以最高支持750 MHz的频率,这满足了MLP和嵌入式存储器模、400G以太网MAC及高速SerDes之间的数据传输。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1665

    文章

    22587

    浏览量

    641247
  • NoC
    NoC
    +关注

    关注

    0

    文章

    43

    浏览量

    12233
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入式人工智能课程(华清远见)

    嵌入式 AI 编译器优化:华清远见课程,解锁极致端侧性能 随着人工智能从云端全面向边缘侧和终端侧下沉,“万物智联”的时代已经悄然到来。然而,在这股浪潮背后,隐藏着个巨大的技术鸿沟:在算力受限
    发表于 04-16 18:47

    SMT工艺革新:高精度贴装与微型化组装的未来趋势

    。 SMT 工艺的革新不仅体现在硬件设备上,更体现在智能化和数据化的管理系统中。四川英特丽SMT 生产线配备 MES(制造执行系统)和 AI 质量检测系统,通过实时监控每片 PCB
    发表于 03-06 14:55

    浅谈人工智能(2)

    接前文《浅谈人工智能(1)》。 (5)什么是弱人工智能、强人工智能以及超人工智能? 弱人工智能(Weak AI),也称限制领域
    的头像 发表于 02-22 08:24 459次阅读
    浅谈<b class='flag-5'>人工智能</b>(2)

    人工智能应用开发-中级(大模型)》认证证书含金量如何?怎么考?

    在国家《新一代人工智能发展规划》及“人工智能+”行动的双重推动下,人工智能与大模型技术已成为驱动产业智能化升级的核心力量。目前,大模型应用开发相关岗位
    的头像 发表于 01-28 15:11 1221次阅读
    《<b class='flag-5'>人工智能</b>应用开发-中级(大模型)》认证证书含金量如何?怎么考?

    微软与新思科技分享智能人工智能技术的行业影响

    (Agentic AI)技术的行业影响,以及未来跨界合作的前景。此次圆桌讨论不仅展现双方的战略协同,以及他们在开发市场领先解决方案方面的共同努力,也勾勒出人工智能是如何驱动工程、电信、制药等行业变革的新蓝图。
    的头像 发表于 11-30 09:48 614次阅读

    革新科研智造,引领材料未来——高通量智能科研制备工作站

    技术、智能硬件、测试仪器及自动化实验平台,致力于为能源科学与材料科学提供领先的解决方案。 携手共创,以人工智能引领研发新纪元 善思创兴始终致力于与行业伙伴紧密合作,通过推广高通量智能实验平台及AI模型
    发表于 09-27 14:17

    傲琪人工合成石墨片: 破解智能手机散热困境的创新解决方案

    用户提供更持久的产品使用周期。 傲琪人工合成石墨片代表智能手机散热技术的次重要进化。它不仅仅是
    发表于 09-13 14:06

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    应用。 为什么选择 Neuton 作为开发人员,在产品中使用边缘人工智能的两个最大障碍是: ML 模型对于您所选微控制器的内存来说太大。 创建自定义 ML 模型本质上是个手动过程,需要高度的数据科学知识
    发表于 08-31 20:54

    赋能人工智能未来:ADI宣布支持800 VDC数据中心架构

    北京2025年8月28日 /美通社/ -- 人工智能(AI)的迅速发展开启高密度计算需求的新时代,而传统电源架构逐渐难以适应这一需求发展。
    的头像 发表于 08-28 21:18 1346次阅读
    赋能<b class='flag-5'>人工智能</b>未来:ADI宣布支持800 VDC数据中心架构

    人工智能+”,走老路难赚到新钱

    昨天的“人工智能+”刷屏,这算是官方第次对“人工智能+”这个名称定性吧?今年年初到现在,涌现出了大批基于
    的头像 发表于 08-27 13:21 964次阅读
    “<b class='flag-5'>人工智能</b>+”,走老路难赚到新钱

    挖到宝人工智能综合实验箱,高校新工科的宝藏神器

    ,技术自主可控 在如今这个科技竞争激烈的时代,国产化硬件的重要性不言而喻。比邻星人工智能综合实验箱就做到了这一点,采用国产化硬件,积极推进全行业产业链上下游环节的国产化进程,把国产自主可控的软硬件平台
    发表于 08-07 14:30

    挖到宝!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    ,技术自主可控 在如今这个科技竞争激烈的时代,国产化硬件的重要性不言而喻。比邻星人工智能综合实验箱就做到了这一点,采用国产化硬件,积极推进全行业产业链上下游环节的国产化进程,把国产自主可控的软硬件平台
    发表于 08-07 14:23

    中汽中心出席车用人工智能标准化促进中心成立会议

    近日,我国汽车领域首个以车用人工智能标准化为研究目标的技术组织——车用人工智能标准化促进中心成立会议在天津召开,中汽中心副总经理龚进峰出席会议并致辞。来自整车企业、零部件企业、高校、科研机构等70多家单位的180余位代表参会。
    的头像 发表于 07-21 16:48 1071次阅读

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    英飞凌科技加大AI人工智能与机器人领域的市场投入

    近日,英飞凌科技全球高级副总裁潘大伟在次行业会议上透露,公司对人工智能(AI)和机器人市场的发展前景充满信心,并计划在这两个领域加大投入。这一战略决策反映
    的头像 发表于 06-24 09:57 1178次阅读
    英飞凌科技加大AI<b class='flag-5'>人工智能</b>与机器人领域的<b class='flag-5'>市场</b>投入