稀疏化应对算力瓶颈，助力云服务商大幅降低成本-电子发烧友网

电子发烧友网报道（文/李弯弯）AI、5G等新兴产业的蓬勃发展催生了海量数据计算需求，同时AI算法模型持续迭代，复杂化日益凸显，数字经济时代下市场需要强大、普惠的算力引擎。而从供给端来看，先进制程的迭代周期变长，使得芯片能效比的提升并不显著。

针对AI应用特点实现硬件架构创新是必然趋势，墨芯人工智能CEO王维在某论坛上谈到，依托对AI的理解用软硬一体解决算力瓶颈问题是行业公认的发展方向。他认为，稀疏化能够有效应对算力瓶颈，实现原理是，不存储和不处理零值，从而得到更小且更快的模型。

软硬一体化稀疏路径符合AI计算核心诉求

软硬一体化稀疏路径符合AI计算高吞吐、低功耗、低延时的核心需求。AI稀疏产业化的成功要素包括：1、跨算法、软件、硬件领域的协同开发；2、拥有持续多层次优化稀疏运算的底层算法能力；3、架构需保证可编程性、高度可拓展属性及快速迭代能力。

稀疏化路径已具备批量化工程应用能力。英伟达在2020年推出的A100产品中，就率先引入稀疏Tensor Core实现4：2结构化稀疏，稀疏是神经网络轻量化的重要手段，英伟达稀疏化产品有效引领市场应用趋势。稀疏化架构可与现有AI软件生态深度适配，例如英伟达直接使用Tensor Core进行稀疏矩阵乘累加操作，无需进行底层编程。

墨芯人工智能CEO王维演讲（电子发烧友拍摄）

基于双稀疏特点，自研核心AI架构

墨芯是全球最早研发稀疏化算法及架构的企业，并在2018年开始稀疏化的全球专利布局，该公司也是最早商用稀疏化产品实现销售的，第一款FPGA产品在2019年Q4开始产生销售。

王维表示，现有芯片架构设计在稀疏化支持中面临较大局限，比如CPU架构，可支持跳点运算，但因其算力限制，仅能够支持边缘端应用，无法支持更大的模型，再比如GPU架构，只能进行并行计算，所有元素（包括0元素）均参与运算，无法实现高倍数加速。

基于双稀疏特点，墨芯自研核心AI架构。其双稀疏架构设计理念：平衡的权重和激活张量剪枝技术，可将精度损失降至最低的前提下保持对硬件的友好度；墨芯独有的剪枝和压缩技术可以再许多网络和应用中实现最多高到32倍的稀疏。

墨芯首款稀疏化云端AI芯片Antoum-1已经回片，实测性能ResNet 50超33000SPS；墨芯板卡S4（单颗Antoum-1）仅30W功耗，实测性能实现英伟达主流产品T4近16倍能效比；墨芯板卡S4对比英伟达主流产品Latency可以做到1/4-1/5。

墨芯人工智能CEO王维演讲（电子发烧友拍摄）

稀疏化计算产品商业落地，将赋能AI产业变革。一、助力云服务商降低单位算力拥有成本，2021年，Nvidia在中国营收超过38亿美金，其中阿里，腾讯等头部互联网公司采购金额基本超过1亿美金。随着AI持续发展，数据量的指数上升导致AI芯片的需求会持续上升，云服务商采购额将逐年增加，因此他们对降低成本的诉求非常强劲，基于Antoum-1的推理卡S4相较于英伟达对标推理卡T4，ResNest50及BERT每FPS/SPS成本降低约85%。

二、助力云服务商缩减能耗成本，电费支出是数据中心最大的营业成本，平均数据中心近60%的营业成本是电力成本，降低能耗是数据中心和云服务商的最大痛点，2021年全国数据中心的耗电量占社会总用电的近3%，且增长率已连续8年超过12%，基于Antoum-1的推理卡S4相较于Nvidia主力推理卡T4，ResNest50及BERT每FPS/SPS能耗成本降低约90%。

小结

目前基于稀疏化的AI架构主要面向云端训练场景，不过理论上来说，稀疏化训练由于能大幅降低对内存、带宽与计算的需求，十分适合训练，未来墨芯在满足推理市场的需求后，将切入训练市场，建立稀疏训练生态，产品在软件层面对训练做更多的开发，支持训练专用的算子，同时硬件上也会为训练定义架构。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算力

算力

+关注

关注
2

文章
1772

浏览量
16857

搜索历史

稀疏化应对算力瓶颈，助力云服务商大幅降低成本

评论