电子发烧友网报道(文/李弯弯)近些年AI模型的应用场景飞速扩展,包括自动驾驶、智慧城市、教育、医疗、金融等等,行业的多样性和应用场景的分散,使得AI模型爆炸式增长。
在日前某论坛上,商汤科技联合创始人兼大装置首席科学家林大华谈到,商汤科技每年要生产几万个AI模型,然而模型丰富,算子的长尾效应也很明显,10% 经典算子虽然占据90% AI芯片算力,而90%长尾算子却占据大量计算时间。
多元化的应用催生了多样的算法框架,算法支持应用,而算法框架是将算法用于解决实际问题,助力AI芯片算力价值体现,充当AI芯片与应用的桥梁。
比如说算法就是诸如LR、GBDT、DNN、DeepFM这样的实际解决某个数学问题的公式实现。算法框架可以让算法执行更高效,比如最早玩深度学习的人都用Theano,基于Theano去开发算法很困难,后来有了PyTorch和TensorFlow,让基于深度学习的算法开发更方便。
目前算法框架已经非常丰富,包括PyTorch、TensorFlow,还有商汤科技开源的Sense Parrots,华为开源的昇思MindSpore,百度飞桨PaddlePaddle等等。
算法工程师其实是基于算法框架开发AI算法的,也就是说深度学习框架衔接起了硬件芯片算力和上面AI算法应用,然而AI训练框架逐渐丰富,但未形成统一的芯片接口,这使得AI训练芯片对框架逐一适配的成本高昂,这也阻碍了AI芯片在市场应用上的快速迭代。
为此,商汤科技希望基于已经开源开放的算法体系,构建统一的接口,把大家协同在一起,在软件层面,在算法的结构分解出一些标准算子,表明哪些算子在哪些应用场景中最为重要,这样可以让大家能够把有限的适配资源,投放到更有用的地方。
商汤给出的软件解决方案包括了算法分级体系和标准算子接口体系。据林大华介绍,算法分级体系首先是从影响力、性能、部署特性三个维度,即算法模型在学术界和工业界的影响力,算法模型的精度和速度,以及算法模型的部署友好性,将AI算法进行分级,这样可以给出方向性的应用参考。
接着是卷积输入配置频率统计,每个算法模型在实际训练中存在不同的卷积输入参数配置,不同参数配置的卷积算子使用频率存在较大的差异。
再得出高优Spec优化清单,从算法模型优先级评估+模型卷积输入配置频率,得到模型重要性和卷积输入配置频率加权评分,再得到高优Spec优化清单,芯片厂商可参考优化的清单进行针对性优化。
总之,基于算法分级体系的算子优化方法可以助力挖掘高优Spec,确认常用卷积输入配置优化优先级,提高芯片厂商适配能效。
长尾算子在实际应用中占比非常高,但却不在标准算法库里面,因此需要建立标准算子接口来提升芯片和框架的适配。
标准算子接口体系,包括统一算子接口及函数签名和一致性测试套件。主要特点是,不依赖具体的框架和芯片,逻辑简单、易阅读、易扩展,与标准接口定义保持一致,具有可移植性和强适用性,提供一致性的错误处理机制,支持主流开发框架和应用模型。
传统芯片和框架适配流程,存在这样的问题:1、厂商合作前沟通成本高;2、适配工作量难度高,风险难以控制;3、适配案例和经验难以复用到其它芯片和框架适配场景中。而接入标准算子接口体系的芯片和框架适配流程,有几个优点:1、厂商合作前没有额外沟通成本;2、工作量小、难度低,风险可控;3、一次接入即可完成对主流芯片、框架适配场景的支持。
整体而言,近些年AI产业在芯片算力、算法、框架,以及应用方面都有很大的进步,然而如果AI产业要长期健康的发展,还需要上下游机构、厂商一起,携手合作构建出一个繁荣的生态,这中间的算法框架在连接起底层芯片和上层业务方面,承担着重要责任。
在日前某论坛上,商汤科技联合创始人兼大装置首席科学家林大华谈到,商汤科技每年要生产几万个AI模型,然而模型丰富,算子的长尾效应也很明显,10% 经典算子虽然占据90% AI芯片算力,而90%长尾算子却占据大量计算时间。
多元化的应用催生了多样的算法框架,算法支持应用,而算法框架是将算法用于解决实际问题,助力AI芯片算力价值体现,充当AI芯片与应用的桥梁。
比如说算法就是诸如LR、GBDT、DNN、DeepFM这样的实际解决某个数学问题的公式实现。算法框架可以让算法执行更高效,比如最早玩深度学习的人都用Theano,基于Theano去开发算法很困难,后来有了PyTorch和TensorFlow,让基于深度学习的算法开发更方便。
目前算法框架已经非常丰富,包括PyTorch、TensorFlow,还有商汤科技开源的Sense Parrots,华为开源的昇思MindSpore,百度飞桨PaddlePaddle等等。
算法工程师其实是基于算法框架开发AI算法的,也就是说深度学习框架衔接起了硬件芯片算力和上面AI算法应用,然而AI训练框架逐渐丰富,但未形成统一的芯片接口,这使得AI训练芯片对框架逐一适配的成本高昂,这也阻碍了AI芯片在市场应用上的快速迭代。
为此,商汤科技希望基于已经开源开放的算法体系,构建统一的接口,把大家协同在一起,在软件层面,在算法的结构分解出一些标准算子,表明哪些算子在哪些应用场景中最为重要,这样可以让大家能够把有限的适配资源,投放到更有用的地方。
商汤给出的软件解决方案包括了算法分级体系和标准算子接口体系。据林大华介绍,算法分级体系首先是从影响力、性能、部署特性三个维度,即算法模型在学术界和工业界的影响力,算法模型的精度和速度,以及算法模型的部署友好性,将AI算法进行分级,这样可以给出方向性的应用参考。
接着是卷积输入配置频率统计,每个算法模型在实际训练中存在不同的卷积输入参数配置,不同参数配置的卷积算子使用频率存在较大的差异。
再得出高优Spec优化清单,从算法模型优先级评估+模型卷积输入配置频率,得到模型重要性和卷积输入配置频率加权评分,再得到高优Spec优化清单,芯片厂商可参考优化的清单进行针对性优化。
总之,基于算法分级体系的算子优化方法可以助力挖掘高优Spec,确认常用卷积输入配置优化优先级,提高芯片厂商适配能效。
长尾算子在实际应用中占比非常高,但却不在标准算法库里面,因此需要建立标准算子接口来提升芯片和框架的适配。
标准算子接口体系,包括统一算子接口及函数签名和一致性测试套件。主要特点是,不依赖具体的框架和芯片,逻辑简单、易阅读、易扩展,与标准接口定义保持一致,具有可移植性和强适用性,提供一致性的错误处理机制,支持主流开发框架和应用模型。
传统芯片和框架适配流程,存在这样的问题:1、厂商合作前沟通成本高;2、适配工作量难度高,风险难以控制;3、适配案例和经验难以复用到其它芯片和框架适配场景中。而接入标准算子接口体系的芯片和框架适配流程,有几个优点:1、厂商合作前没有额外沟通成本;2、工作量小、难度低,风险可控;3、一次接入即可完成对主流芯片、框架适配场景的支持。
整体而言,近些年AI产业在芯片算力、算法、框架,以及应用方面都有很大的进步,然而如果AI产业要长期健康的发展,还需要上下游机构、厂商一起,携手合作构建出一个繁荣的生态,这中间的算法框架在连接起底层芯片和上层业务方面,承担着重要责任。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
AI芯片
+关注
关注
17文章
1648浏览量
34379 -
AI算法
+关注
关注
0文章
214浏览量
12098
发布评论请先 登录
相关推荐
炬芯科技赵新中:无线音频SoC的AI算法未来和应用
的平台。 炬芯科技算法研发中心高级总监赵新中受邀出席,于电声元器件及芯片专题论坛发表以《无线音频SoC的AI算法未来和应用》为主题的演讲,分享了炬芯科技的音频
李彦宏:无尖端AI芯片,但国产芯片保障用户体验
李彦宏具体解释道,百度AI技术体系划分为四个层次——芯片层、框架层、模型层以及应用层,虽然芯片层受限,但公司具备极大的创新潜力的其他层级依然运行正常。
戴尔将终止博通商业框架协议
戴尔科技公司正式宣布,已向博通发出书面通知,决定终止之前与VMware达成的商业框架协议。这一决定对双方的合作模式和业务活动产生了深远的影响。
OpenHarmony AI框架开发指导
一、概述
1、功能简介
AI业务子系统是OpenHarmony提供原生的分布式AI能力的子系统。AI业务子系统提供了统一的AI引擎框架,实
发表于 09-19 18:54
AI算法有哪些?
AI算法有哪些? 随着人工智能技术的不断发展和应用,越来越多的AI算法被发明和应用于各个领域。本文将介绍一些常见难度较低但易于理解的AI
深度学习算法库框架学习
深度学习算法库框架学习 深度学习是一种非常强大的机器学习方法,它可以用于许多不同的应用程序,例如计算机视觉、语言处理和自然语言处理。然而,实现深度学习技术需要使用一些算法库框架。在本文
基于RV1109/RV1126方案IPC,始终致力于为算法厂商提供可二次开发的智能摄像头硬件设备
、智慧AI商业解决方案公司自有算法接入,提供硬件定制以及软件二次开发Demo帮助客户自有算法场景落地。目前,量产的IPC产品已在国内外的家居监控及大型购物商场中投入使用。(20年的传统
发表于 06-28 16:51
评论