电子发烧友网报道(文/李弯弯)AI、5G等新兴产业的蓬勃发展催生了海量数据计算需求,同时AI算法模型持续迭代,复杂化日益凸显,数字经济时代下市场需要强大、普惠的算力引擎。而从供给端来看,先进制程的迭代周期变长,使得芯片能效比的提升并不显著。
针对AI应用特点实现硬件架构创新是必然趋势,墨芯人工智能CEO王维在某论坛上谈到,依托对AI的理解用软硬一体解决算力瓶颈问题是行业公认的发展方向。他认为,稀疏化能够有效应对算力瓶颈,实现原理是,不存储和不处理零值,从而得到更小且更快的模型。
软硬一体化稀疏路径符合AI计算核心诉求
软硬一体化稀疏路径符合AI计算高吞吐、低功耗、低延时的核心需求。AI稀疏产业化的成功要素包括:1、跨算法、软件、硬件领域的协同开发;2、拥有持续多层次优化稀疏运算的底层算法能力;3、架构需保证可编程性、高度可拓展属性及快速迭代能力。
稀疏化路径已具备批量化工程应用能力。英伟达在2020年推出的A100产品中,就率先引入稀疏Tensor Core实现4:2结构化稀疏,稀疏是神经网络轻量化的重要手段,英伟达稀疏化产品有效引领市场应用趋势。稀疏化架构可与现有AI软件生态深度适配,例如英伟达直接使用Tensor Core进行稀疏矩阵乘累加操作,无需进行底层编程。
墨芯人工智能CEO王维演讲(电子发烧友拍摄)
基于双稀疏特点,自研核心AI架构
墨芯是全球最早研发稀疏化算法及架构的企业,并在2018年开始稀疏化的全球专利布局,该公司也是最早商用稀疏化产品实现销售的,第一款FPGA产品在2019年Q4开始产生销售。
王维表示,现有芯片架构设计在稀疏化支持中面临较大局限,比如CPU架构,可支持跳点运算,但因其算力限制,仅能够支持边缘端应用,无法支持更大的模型,再比如GPU架构,只能进行并行计算,所有元素(包括0元素)均参与运算,无法实现高倍数加速。
基于双稀疏特点,墨芯自研核心AI架构。其双稀疏架构设计理念:平衡的权重和激活张量剪枝技术,可将精度损失降至最低的前提下保持对硬件的友好度;墨芯独有的剪枝和压缩技术可以再许多网络和应用中实现最多高到32倍的稀疏。
墨芯首款稀疏化云端AI芯片Antoum-1已经回片,实测性能ResNet 50超33000SPS;墨芯板卡S4(单颗Antoum-1)仅30W功耗,实测性能实现英伟达主流产品T4近16倍能效比;墨芯板卡S4对比英伟达主流产品Latency可以做到1/4-1/5。
墨芯人工智能CEO王维演讲(电子发烧友拍摄)
稀疏化计算产品商业落地,将赋能AI产业变革。一、助力云服务商降低单位算力拥有成本,2021年,Nvidia在中国营收超过38亿美金,其中阿里,腾讯等头部互联网公司采购金额基本超过1亿美金。随着AI持续发展,数据量的指数上升导致AI芯片的需求会持续上升,云服务商采购额将逐年增加,因此他们对降低成本的诉求非常强劲,基于Antoum-1的推理卡S4相较于英伟达对标推理卡T4,ResNest50及BERT每FPS/SPS成本降低约85%。
二、助力云服务商缩减能耗成本,电费支出是数据中心最大的营业成本,平均数据中心近60%的营业成本是电力成本,降低能耗是数据中心和云服务商的最大痛点,2021年全国数据中心的耗电量占社会总用电的近3%,且增长率已连续8年超过12%,基于Antoum-1的推理卡S4相较于Nvidia主力推理卡T4,ResNest50及BERT每FPS/SPS能耗成本降低约90%。
小结
目前基于稀疏化的AI架构主要面向云端训练场景,不过理论上来说,稀疏化训练由于能大幅降低对内存、带宽与计算的需求,十分适合训练,未来墨芯在满足推理市场的需求后,将切入训练市场,建立稀疏训练生态,产品在软件层面对训练做更多的开发,支持训练专用的算子,同时硬件上也会为训练定义架构。
针对AI应用特点实现硬件架构创新是必然趋势,墨芯人工智能CEO王维在某论坛上谈到,依托对AI的理解用软硬一体解决算力瓶颈问题是行业公认的发展方向。他认为,稀疏化能够有效应对算力瓶颈,实现原理是,不存储和不处理零值,从而得到更小且更快的模型。
软硬一体化稀疏路径符合AI计算核心诉求
软硬一体化稀疏路径符合AI计算高吞吐、低功耗、低延时的核心需求。AI稀疏产业化的成功要素包括:1、跨算法、软件、硬件领域的协同开发;2、拥有持续多层次优化稀疏运算的底层算法能力;3、架构需保证可编程性、高度可拓展属性及快速迭代能力。
稀疏化路径已具备批量化工程应用能力。英伟达在2020年推出的A100产品中,就率先引入稀疏Tensor Core实现4:2结构化稀疏,稀疏是神经网络轻量化的重要手段,英伟达稀疏化产品有效引领市场应用趋势。稀疏化架构可与现有AI软件生态深度适配,例如英伟达直接使用Tensor Core进行稀疏矩阵乘累加操作,无需进行底层编程。
墨芯人工智能CEO王维演讲(电子发烧友拍摄)
基于双稀疏特点,自研核心AI架构
墨芯是全球最早研发稀疏化算法及架构的企业,并在2018年开始稀疏化的全球专利布局,该公司也是最早商用稀疏化产品实现销售的,第一款FPGA产品在2019年Q4开始产生销售。
王维表示,现有芯片架构设计在稀疏化支持中面临较大局限,比如CPU架构,可支持跳点运算,但因其算力限制,仅能够支持边缘端应用,无法支持更大的模型,再比如GPU架构,只能进行并行计算,所有元素(包括0元素)均参与运算,无法实现高倍数加速。
基于双稀疏特点,墨芯自研核心AI架构。其双稀疏架构设计理念:平衡的权重和激活张量剪枝技术,可将精度损失降至最低的前提下保持对硬件的友好度;墨芯独有的剪枝和压缩技术可以再许多网络和应用中实现最多高到32倍的稀疏。
墨芯首款稀疏化云端AI芯片Antoum-1已经回片,实测性能ResNet 50超33000SPS;墨芯板卡S4(单颗Antoum-1)仅30W功耗,实测性能实现英伟达主流产品T4近16倍能效比;墨芯板卡S4对比英伟达主流产品Latency可以做到1/4-1/5。
墨芯人工智能CEO王维演讲(电子发烧友拍摄)
稀疏化计算产品商业落地,将赋能AI产业变革。一、助力云服务商降低单位算力拥有成本,2021年,Nvidia在中国营收超过38亿美金,其中阿里,腾讯等头部互联网公司采购金额基本超过1亿美金。随着AI持续发展,数据量的指数上升导致AI芯片的需求会持续上升,云服务商采购额将逐年增加,因此他们对降低成本的诉求非常强劲,基于Antoum-1的推理卡S4相较于英伟达对标推理卡T4,ResNest50及BERT每FPS/SPS成本降低约85%。
二、助力云服务商缩减能耗成本,电费支出是数据中心最大的营业成本,平均数据中心近60%的营业成本是电力成本,降低能耗是数据中心和云服务商的最大痛点,2021年全国数据中心的耗电量占社会总用电的近3%,且增长率已连续8年超过12%,基于Antoum-1的推理卡S4相较于Nvidia主力推理卡T4,ResNest50及BERT每FPS/SPS能耗成本降低约90%。
小结
目前基于稀疏化的AI架构主要面向云端训练场景,不过理论上来说,稀疏化训练由于能大幅降低对内存、带宽与计算的需求,十分适合训练,未来墨芯在满足推理市场的需求后,将切入训练市场,建立稀疏训练生态,产品在软件层面对训练做更多的开发,支持训练专用的算子,同时硬件上也会为训练定义架构。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
算力
+关注
关注
1文章
659浏览量
14350
发布评论请先 登录
相关推荐
工业触摸显示屏在提升生产效率、降低成本等方面具有显著优势
工业触摸显示屏在提升生产效率、降低成本等方面发挥着显著的作用。具体来说,其主要优势体现在以下几个方面。
ZR机械手:提高生产效率,降低成本的有效途径-速程精密
目标的有效途径。ZR机械手厂家将为您深入解析ZR机械手如何助力企业提高生产效率、降低成本。 1、ZR机械手作为一种自动化设备,能够大幅提高生产效率。在传统的生产线中,人工操作占据了大部分的生产时间。而ZR机械手通过程序控制,可以
光伏户用如何做到低成本获客?
结合鹧鸪云光伏系统,探讨光伏户用如何做到低成本获客。
一、了解市场需求,精准定位
光伏企业在获客时,首先要深入了解市场需求。通过市场调研,确定目标客户群体,如农村居民、环保意识强的城市居民等。同时,精准
发表于 02-27 10:33
请问用算力强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量?
来自一位用户的咨询,麻烦帮忙解答,越详细越好,有图有真相,可以适当提供一些英飞凌解决方案和产品推荐。
用算力强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量?
未来电动汽车会使用SOC来代替大量MCU?
发表于 02-02 07:16
低成本毫米波雷达系统设计与研发
毫米波雷达系统在汽车、工业感知和安全领域等多个领域有着广泛的应用。然而,传统毫米波雷达系统的高昂成本限制了其普及。本文介绍了一种低成本毫米波雷达系统的设计与研发,旨在降低成本的同时保持系统性能。
英码科技精彩亮相火爆的IOTE 2023,多面赋能AIoT产业发展!
。
在英码科技展位上,现场的伙伴们集中了解到了基于多家国产主流平台算力产品的特点和对应的落地案例,同时深入了解英码科技在赋能项目落地过程中自主研发的0代码移植工具链,其“快速部署、简单易用、低成本”的特点
发表于 09-25 10:03
5G:云网络的产业基础集成架构
5G提供数据传输、设备连接和处理各种行业的能力,通过公共或私人网络。对于垂直行业的用户来说,公网的优势在于在其较高的频谱效率,从而导致更高的效率在基于5g的服务实现,降低成本。
目前,云-网融合
发表于 08-04 07:06
激光打标机在电子行业大放异彩,提高生产效率降低成本
激光打标机在电子行业中的应用已经非常广泛,它能够提高生产效率,降低成本,同时还具有防伪性和环保性。激光打标机采用非接触的加工方式,可以在各种材料表面进行标记,而且标记的信息可持久不掉色,美观且无需
由硫和环戊二烯制成的红外热成像透镜可以极大降低成本
据麦姆斯咨询报道,近期,澳大利亚福林德斯大学(Flinders University)的研究人员发现了一种新型低成本材料,可以制成红外热成像透镜,并可以被用于新的先进制造应用领域。
Splashtop:在确保客户满意的同时降低成本
在寻找降低运营成本的方法时。Munster BusinessEquipment销售经理达拉赫-米德注意到,由于客户对打印和扫描问题的现场访问激增,导致运营成本增加。
评论