地平线在深圳召开了主题为“释放·芯效能”的新产品发布会,正式推出了全新一代的AIoT边缘AI芯片平台——地平线旭日3。
Auto+AIoT双飞轮战略
“自2015年成立至今,地平线已经在AI领域探索了5年,‘赋能万物’这是地平线成立的初心。”地平线创始人兼CEO余凯阐释地平线开放赋能战略,“未来世界会有很多智能机器,服务于每个人的生活,让每个人的生活更安全,更美好。赋能万物究竟如何战略落地?今天我们有了更加清晰的答案——这就是地平线的‘双飞轮战略’:Auto+AIoT。”
而地平线的“Auto+AIoT”战略落地到产品,则是针对汽车领域的征程系列和针对AIoT领域的旭日系列。目前地平线征程系列已经成功在汽车市场打开了局面,其中征程2已经成功进入了前装市场,仅长安一款车型,半年时间就已经出货了几十万片。
“地平线是中国唯一实现前装量产的车规级AI芯片。”余凯非常自豪的说到。余凯还透露,明年汽车前装市场将会有20多款基于地平线征程芯片的车型上市。
相对于的征程系列芯片的成功,旭日系列芯片的成果则显得不是那么的耀眼,当然这也与AIoT市场本身的碎片化有关,需要持续的投入和市场培育。
旭日3系列发布:AI算力最高5TOPS,拥有极致效能
地平线此次发布的旭日3系列AIoT芯片,采用台积电16nm HPC+工艺,拥有旭日3M和旭日3E两个型号,分别应对客户对于不同AI算力的需求。
其中,旭日3M基于四核Arm Cortex-A53高能效处理器,主频1.2GHz,集成了两个地平线新一代BPU核心,在2.5W的典型功耗下,能够达到等效5TOPS的标准算力,同时提供了丰富的接口,内存带宽可达3200Mbps,编解码能力和ISP效果也很优秀,可支持1200万像素摄像头,满足客户不同产品类型的开发需要。
而旭日3E则相当于旭日3M的简配版,CPU核心改为了双核的Arm Cortex-A53,主频保持1.2GHz不变,同样也是集成了两个地平线第二代BPU核心,不过算力降至了3TOPS,内存带宽可达2666Mbps,支持500万像素摄像头。
得益于第二代更强大的BPU核心,以及对于DRR大带宽的支持和编译器对于算法的高效优化,旭日3系列的算力利用率高达95%,达到了业界领先地位。
地平线联合创始人兼技术副总裁黄畅表示:“一个加速器在SoC系统里面,往往面临处理器效率不高的问题。而处理效率不高有很多原因,有架构本身原因,也有DDR瓶颈的问题。我们地平线的编译器团队,通过将先进算法高效部署在处理器里面进行加速和计算,实现了高达95%的算力利用率。”
“如果用常规的方法去编译,一个高效模型处理一帧高清图片可能需要消耗140MB的带宽,计算延迟达到40多毫秒,这个时候利用率只有57%,57%在整个行业里面在AI处理器利用率已经是相对不错的成绩了。但是我们通过对编译器的优化,使得同样高效算法,同样一个芯片,我们将整个计算进行细致拆解重组,充分发挥片上存储的能力,充分发挥上面每一个计算的单位,处理一张大图,同样的算法带宽只需要34MB,极大的压缩了对于带宽的需求,利用率高达95%。”黄畅进一步举例解释到。
此外,旭日3系列还拥有强大的视频流处理器能力。旭日3系列能够接入4到8路摄像头,摄像头分辨率可支持最高1200万像素,硬件支持多摄像头之间的精确同步,也可支持对于摄像头进行校正,内置的高性能ISP,可以进行高效能的图像处理,得到清晰、高质量画质,再加上高性能低带宽的特性,旭日3系列能够支持智能NVR、DVR在车载里面的环视,以及各种常见的视觉应用。
黄畅表示:“旭日3的AI性能极其出色,特别是在最新的边缘侧深度网络下有非常好的优化效果,使得客户可以充分利用芯片算力。在SoC处理器的基础能力之上,旭日3系列匹配强大的CPU、Codec、ISP能力,并且提供两种规格,以满足不同的市场需要,在行业内具有很强的竞争力。”
随着用户对于信息安全的越来越重视,芯片厂商也在不断加强芯片安全保护机制。地平线旭日3系列在硬件层面上将BOOT写到芯片里面,可以确保非法软件无法运行在旭日3系列上。而且在BOOT阶段,是直接被加载到BPU运行空间,内存隔离机制为BPU创造了绝对安全的运行空间,这是一个完全隔离的独立环境,使得黑客即使入侵到应用侧,也无法接触到BPU所使用模型参数和数据。此外,地平线还提供了一个非常完善的授权管理服务,通过远端进行ONLINE的授权和离线授权,支持授权版本自定义,授权码的发放,方面客户应用。
丰富的开发工具链,让旭日3系列极简易用
有了好的AI芯片,也需要有相应的开发工具,帮助开发者和客户更快、更省、更高效的的完成场景应用落地。对此,地平线很早就推出了“天工开物”AI开发平台,包括大量的高精度模型库(业界流行的模型、自研模型、最佳实践模型),可以使得算法研发成本节省70%,训练成本节省90%;还拥有支持训练和预测的AI芯片全栈工具链,算法研发成本可减少50%;AI应用开发中间件,可使得工程研发成本降低50%。
具体来说,基于天工开物平台,地平线提供大量高精度的模型,开发者拿到这个模型,可以直接拿去用,或者加入一点点数据在细致调一个,可以得到非常好的模型,并可以高效部署在芯片上,从而免除算法和芯片适配的问题,使得整个训练成本和研发成本会大大的节省。
地平线提供的易用且精度损失低的转换工具和高性能高精度的量化训练工具,支持浮点转定点的模式,可以把模型转化所损失的精度再转化出来,这个对于极度追求精度的客户是非常重要的。
地平线还提出参考算法的新理念。以往,开发者要么选择自己从头开研发算法,要么是采用第三方的商用算法,而这个商用算法多数是“黑盒子”,只能拿来用,难以持续去提高。而地平线提供的参考算法则是基于开源数据集或地平线自有数据集训练得到的高精度算法,是免费提供给客户的。
黄畅表示:“客户拿到参考算法后,可以结合在相应场景当中搜集到的数据,加入到预训练上的算法,简单迭代之后就可以产生一个有差异化,属于客户自己的算法。这个就是使用这一套流程去开发整个算法,研发成本能够极大降低的最大原因。因为我们提供性能非常好的预训练的参考算法,这样参考算法在工具链里面提升之后,我们客户可以为产品构建自己的算法,从而建立自己的算法,使得整个产品上市时间能够缩短一半,我们持续在芯片上,不仅仅在芯片设计本身,不仅仅在我们芯片工具链本身,在这上面承载了各种各样标准化的模型,我们会持续去打造。”
此外,地平线还提供了加速嵌入式研发的开源应用中间件(AI Express),集合了很多人体结构化(比如人形、骨骼、手势、关键点)、场景化和常用的AI应用参考代码,开发者可以轻松完成应用的开发,并且运行效率也可以保证非常高。
“地平线基于芯片、算法和工具链组成的底层计算平台,将行业领先的算法能力和芯片产品开放给客户、合作伙伴、开发者,并提供全面开放的赋能支持,降低AI开发难度和落地门槛,加速AI在各行各业的应用。”黄畅说到。
未来3年出货将超千万
根据此前的信息显示,地平线旭日1和旭日2已经累计出货将近百万。而随着功能更加强大的旭日3的推出,以及AIoT市场的持续爆发,地平线也对于未来有着较高的预期。
余凯表示,“今年发布会来了一百多家客户,大多都有采用我们的旭日芯片,目前有一家客户现在3年订单已有几百万,我觉得未来三年突破千万级是合理预估。但是这个只是预估,现在还并不是现实。”
此外,在此次发布上,地平线还透露2021年将会跳过旭日4,直接推出旭日5。而根据Roadmap显示,旭日5将会采用Arm 2/4 x A55 CPU内核,集成双核的第三代BPU内核,支持H.264/H.265 4K/8K。
“面向AI落地需求,地平线未来会持续增强自研AI芯片的算力密度,提供矩阵式的芯片规格,同时扩展通用性算法需求,满足不同客户采用多样化网络模型的需求。”黄畅表示,2021年地平线将发布更强劲的旭日5系列芯片,向行业释放更加灵活而极致的AI效能。
力推AI真实性能评价标准:MAPS
目前在AI芯片领域,评价AI芯片性能的关键指标是TOPS,即每秒10亿次计算的峰值算力能力,但是各家AI芯片厂商公布的这个算力指标都是基于半导体硅片的理论峰值性能,而这个是依赖于半导体工艺制程的,并不是将算法部署到芯片上之后的实际算力的体现。此外,也有业内知名的基准测试组织MLPerf,但是其采用的模型少且更新速度滞后于算法演进的速度,无法及时反映算法效率的提升以及各种精度下芯片能够达到的计算速度,因而无法描述芯片AI性能的全貌。
对此,地平线首创提出了全新的AI真实效能评价标准——MAPS(Mean Accuracy-guaranteed Processing Speed,在精度有保障范围内的平均处理速度),在应用场景中最常见的精度保障范围内,考察每颗芯片的平均处理速度。可以说,MAPS更加关注的是任务的最终效果与性能,包容任务执行时可采用的所有网络选择,能够帮助客户找到最为适宜的整体AI落地方案。
具体来说,MAPS代表着最真实的AI效能指标,它等于旧摩尔定律下的理论峰值计算效能×实际的有效利用率×新摩尔定律(AI算法效率),并且是在精度有保障范围内的平均表现。
以谷歌TPU为例,可以看到下图中,纵轴是标准的图像分类任务ImageNet TOP·1的准确率,体现的是算法的精度,可以在上面去运行各种各样不同的算法模型去完成图像分类,横轴是每秒钟处理的帧率,体现的是处理速度。如果把每一个算法模型运行在TOU上,就可以得到对应的速度和精度,而将这些算法得到的结果都作为一个坐标点标记到图上,然后根据实际应用需求选择一个最有价值精度区间,比如75%到85.5%的精度范围,根据那些坐标点去寻找一个最大的多边形,再把多边形的面积计算出来去除以精度范围,从而得到一个平均的处理速度,从而最终得到MAPS的指标。
值得一提的是,此次地平线推出的旭日3系列芯片,正是以MAPS作为关键指标来进行设计和优化的,从下图当中我们可以看到,旭日3在图像分类任务上可以有效适配Google提出的EfficientNet系列网络,其AI真实性能表现,远超其他同类的4TOPS算力的AI芯片,即便是相比11.4TOPS算力的AI芯片,在追求更高的处理速度的曲线内也是遥遥领先,最高可达416FPS。
“MAPS是我们推出的一个关于AI真实算力更合理的评估方式,是在精度有保障范围内的平均处理速度,是应用需求精度范围内看平均处理速度能有多快,这个是更加接近真实应用场景的AI性能评估方式。我们希望MAPS能够指导业界去研究框架和算法,研究所有方方面面能够影响到真实AI性能的技术,提出一个共同的目标,让大家形成一个合力,都朝着真正关注AI算法到底能够做到多准确,能够多快,围着同样一个MAPS目标去前进,这是我们提出评估方面最重要的初衷。”黄畅说到。
在会后专访环节,地平线CEO余凯向芯智讯表示:“对于用户来说,关注客观真实AI算力才是更具价值的,而不是简单的追逐TOPS指标。MAPS是我们提出的一个公开的、透明的、开放的指标,我们也希望能够有更多的厂商参与进来。不过,我们最好让开发者第三方去跑,然后给出分数,而不是厂家自己。对于开发者来说,MAPS这个标准是最终对他们的应用场景最相关、最直接的评价指标,因为TOPS太间接了,我们朝着公开、透明的方式,我们不求一步到位绝对的精确,但是我们一定要把这个行业往前推进。”
此外,为了推动MAPS标准,余凯还透露,地平线最近正在与某业内知名的AIoT终端大厂的研发机构合作,双方将一起来共同推进这件事情。
当然,地平线本身作为一家AI芯片厂商,来希望将自己提出的这个MAPS标准推而广之,成为行业标准,可能也会引发一些争议。不过,余凯强调:“地平线做这件事情一定要以公心来推动整个行业发展,最后不同的意见肯定会有,但是我觉得我们先迈出这一步,让大家把意见提出来,对整个行业是进步。如果没有一个厂家往前迈一步,都停留在虚无缥缈的TOPS上,那永远进步不了,不管怎么样先做起来,启发大家产生有建设性的争论,都是好事,比虚假的一团和气的好。而且中国现在正好在整个AI芯片这一块领先全球的,我们自己要有原创心,不要懈怠,让自己观点抛出来,让大家来争论,整个行业才更具活力,如果死气沉沉,怎样往前发展?表面一团和气还不如来一个关于行业发展方向的一个争议讨论。”
开放赋能,打造“方案商生态”+“开发者生态”
伴随着此次旭日3系列的发布,地平线还携手合作伙伴针对相关应用领域推出了相应的软硬结合的参考方案,比如IPC参考方案、USB CAM参考方案、同行面板方案、车载后装参考方案、边缘计算盒参考方案,可应用于智能会议、智能家居、交互机器人、车载后装、通行考勤等诸多应用场景。
那么,这是否意味着地平线会自己来推芯片方案,甚至是自己来做集成?
余凯告诉芯智讯:“我们自己不会做主板方案,更不会去做整机,因为那些都是由我们赋能的伙伴来做的,我们定位就是底层赋能,不会去跟我们的合作伙伴去抢生意。我们在所有行业里面都不会做硬件方案,包括整体解决方案,都是让我们的合作伙伴去做。因为我们觉得整个人工智能场景还是非常碎片化的,一家厂商做不了那么多事情,我们要做的是把大家的开发门槛降低,让更多厂商跟合作伙伴可以基于我们的芯片能够去开发各种各样的应用。所以我们要致力于打造开放、繁荣、活跃的方案商生态和开发者生态。”
具体来说,基于边缘AI芯片,地平线正打造一个多层次、多维度、多样性的开放生态体系。在方案商生态方面,无论是硬件方案商,还是垂直领域的解决方案商,还是软硬一体的整体解决方案商,地平线都将依托于底层技术能力,赋能方案商合作伙伴,帮助他们把对于场景的理解注入到产品中去,打造各种解决方案,赋能各行各业。
在开发者生态方面,地平线也将积淀多年并经过应用落地验证的技术组件‘白盒’开放出来,其中包括中间件,参考算法,应用参考设计,算法训练平台等,帮助开发者进一步加速AI落地。同时,地平线还通过开发者生态计划,依托开放易用的“天工开物”AI开发平台,一站式AI开发者社区和AI加速营开发者扶持计划,向开发者提供加速AIoT应用孵化的全链条支持,助力AI应用探索创新。
此外,地平线后续还将每年举办技术生态大会,介绍最新的芯片以及软件成果,包括地平线提供所有的素材、教程以及激励计划,去繁荣这两个生态。
地平线AIoT产品线总经理王丛也表示:“地平线并不仅仅是芯片提供商,而是AI芯片应用落地的生态赋能者。地平线的理念就是开放赋能,一路成就客户。客户选择地平线也不仅是选择一颗芯片,而是选择 AI 时代的长期伙伴。”
责任编辑:pj
-
芯片
+关注
关注
462文章
53534浏览量
459081 -
加速器
+关注
关注
2文章
836浏览量
39712 -
AI
+关注
关注
89文章
38091浏览量
296576
发布评论请先 登录
创龙 瑞芯微 RK3562 国产 2GHz 四核A53 工业开发板—IRIG-B码对时案例
创龙瑞芯微 RK3562 国产 2GHz 四核A53 工业开发板—调试工具安装
全国产!瑞芯微 RK3576 ARM 八核 2.2GHz 工业开发板—Linux应用开发手册
全国产!瑞芯微 RK3576 ARM 八核 2.2GHz 工业开发板—Linux开发环境搭建
全国产!瑞芯微 RK3576 ARM 八核 2.2GHz 工业开发板—Linux系统使用手册
全国产!瑞芯微 RK3576 ARM 八核 2.2GHz 工业开发板—LVGL应用开发案例
AM62L系列 带显示屏的低功耗 Arm® Cortex-A53® SoC,适用于 IOT、HMI 和通用应用技术手册
瑞芯微RK3576,8核2.2GHz+6T算力NPU工业核心板说明书
瑞芯微RK3506(3核ARM+Cortex-A7 + ARM Cortex-M0)工业核心板选型资料

旭日3M基于四核Arm Cortex-A53高能效处理器并拥有极致效能
评论