0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

鲲云发布超高效CAISA2.0架构 为AI提供更高算力支撑

渔翁先生 来源:鲲云科技 作者:鲲云科技 2019-04-10 10:27 次阅读

2019年4月9日,第二届全球人工智能应用创新峰会在深圳五洲宾馆举行,这场由深圳市科学技术协会、福田区科技创新局主办,鲲云科技、鲲云人工智能应用创新研究院和源创力创新中心承办的AI开年盛会上,鲲云科技发布全球第一款基于数据流技术打造的通用人工智能底层架构-定制数据流CAISA架构和端到端自动编译工具链RainBuilder,实现了国内完全自主产权的AI芯片架构,有效计算效率大幅领先国际水平,为人工智能算法的快速应用落地提供高性能算力支撑,推动我国人工智能芯片领域的技术革新和发展。深圳市人大常委会副主任、深圳市科协主席蒋宇扬,深圳市福田区委常委、副区长黄伟,深圳市源创力离岸创新中心总裁周路明,深圳市科协秘书长、办公室主任林肇武,深圳市福田区科技创新局、发展和改革局和工业信息化局等单位负责同志出席峰会。

打破摩尔定律局限,鲲云发布全球首款通用底层AI架构-定制数据流CAISA架构

牛昕宇博士

作为本次峰会的重头戏,鲲云科技创始人&CEO牛昕宇博士在会上发布了定制数据流CAISA2.0架构。依托创始团队在数据流架构领域近三十年的积累,鲲云的CAISA架构抛弃了传统基于指令集的架构方式,是全球第一款基于数据流技术打造的通用人工智能底层架构,可发挥90%以上的芯片峰值计算性能,大幅领先国际主流AI芯片。同时,鲲云还在会上发布了针对数据流架构定制开发的RainBuilder编译工具链,CAISA2.0架构可支持Tensorflow,Caffe等开源框架下开发的主流深度学习算法的无缝迁移,无需用户进行面向CAISA架构的编程。基于Arria10 SX160、SX660、GX1150,Straix10 GX2800系列的FPGA加速卡已完成开发并应用于产品落地中。

(定制数据流CAISA2.0架构)

随着人工智能技术的深入发展,对人工智能芯片的算力提出了更高的要求,算力成为了决定算法落地的重中之重。尤其是在云计算自动驾驶、安防工业等领域,算力的提升更是能够直接带来更多的用户量、更多的前端设备智能升级和更安全的自动驾驶汽车。正如图灵奖得主John Hennessey和 David Patterson在图灵奖颁奖典礼所言,未来十年,随着摩尔定律逐步饱和,人工智能芯片的峰值算力将逐步趋近饱和,而架构效率将成为芯片性能的决定因素,未来十年将是计算架构的“黄金十年”。鲲云科技自主研发的CAISA2.0架构以及RainBuilder编译工具链,没有采用主流计算机架构下大规模并行指令集设计的思路,通过完全不同的数据流架构突破底层架构的效率瓶颈,最大化发挥底层硬件的效率,在同等峰值芯片性能情况下可以为人工智能应用提供更高的算力支撑。

打造最好用的AI芯片编译工具,CAISA架构的端到端自动编译工具链RainBuilder面世,让人工智能更简单

要实现更快的AI应用落地,满足不同算法开发的需求,需要一个可以兼容各类算法框架和方便快捷实现算法到硬件写入的编译工具。为了降低使用门槛,鲲云发布了端到端自动编译工具链RainBuilder,它是一款针对深度学习算法优化加速的开发工具链。依托于CAISA架构的高性能特性,RainBuilder提供从算法模型到芯片级算法部署的一整套开发套件。该套件主要由Compiler和Runtime两部分组成,其中Compiler包含了一系列命令行接口,支持主流AI开发框架模型的解析和优化,并将模型转化为适用于CAISA架构的中间表达和数据。Runtime以Compiler生成的中间表达和数据为输入,为用户提供了丰富易用的开发接口以完成对底层AI芯片硬件的高效应用。

(RainBuilder端到端自动编译工具链)

RainBuilder使用过程非常简单便捷,用户无需对于底层硬件有深入的了解,即可快速开发适用于AI专用芯片的算法方案。从训练好的模型文件,只需两步,即可实现整个神经网络的推演。首先,调用Compiler的命令行接口完成模型的离线准备,对于一个模型,该步骤只需进行一次。Compiler提供了一套端到端的优化流程,包括模型解析、冗余节点裁剪、节点融合、模型量化压缩等。之后用户只需编写针对特定算法的前后处理函数,Runtime会自动完成算法模型对于CAISA架构的高效调用。Runtime中包含了大量针对CAISA架构的深层优化,如硬件资源调配、运行时资源调度、软硬件并行、异常处理等。另外,RainBuilder通过支持用户自定义算子实现了对于不同算法的高拓展性。用户只需根据提供的接口即可完成自定义模块的实现,RainBuilder会自动将自定义算子整合进计算图中,并针对其特点完成相应的计算优化。

提供下一代人工智能计算平台,鲲云公布基于CAISA架构的系列AI产品,鲲云高性能AI芯片切入工业市场

会上,鲲云还公布了基于CAISA架构的一系列产品,包括针对前端和边缘计算的“雨人”AI芯片加速卡3代和应用于NVR和服务器的“星空”AI加速卡2代,目前已经在电力、安防、工业等领域实现了规模落地。同合作伙伴联合开发的搭载雨人加速卡的AI摄像头、智能无人机、智能ops系统盒子,搭载星空加速卡的两款AI服务器也同时披露。

(雨人加速卡3代)

“雨人”加速卡可嵌入前端IoTs设备,提供深度学习目标定位、去重一体化前端方案,支持1080p高清实时视频对于60x60像素特定目标全检测,具有50帧/秒的处理能力。

(星空加速卡2代)

“星空”加速卡嵌入小型主机和服务器设备,即插即用,可同时支持16路1080p视频中对最小60×60像素的特定目标全检测及视频结构化分析,实现1080P高清实时视频200-800帧/秒的检测性能,延时低至5毫秒,功耗为35w,实测性能达理论峰值的90%。充分体现了自主研发的定制数据流CAISA架构芯片高性能、低功耗、低延时的特性,最大化资源能效比。可为安防行业中交通、商场和住宅等场景数字安全监控及行人、车辆、路况等提供深度学习目标定位、去重、识别、属性分析一体化的边缘后端人工智能加速方案。

鲲云高校计划发布,联合高校开展人工智能教学科研合作

为满足高校日益增长的在人工智能领域教学培训、科研平台方面的需求,鲲云科技结合自身在人工智能芯片、开发平台和垂直领域解决方案等方向的研发和技术优势,以及与市场端广泛的互动关系,由鲲云人工智能应用创新研究院发起,鲲云正式发布鲲云高校计划CUP (Corerain University Program),与全球高校在人工智能课程、科研合作和国际交流等领域实现深度合作。

在课程方面,鲲云提供基于CAISA架构FPGA加速卡的人工智能课程及实验内容,支持高校相关课程升级;在科研方面,鲲云支持高校基于CAISA架构运行最新人工智能算法,以及围绕CAISA架构拓展硬件平台;在国际合作领域,鲲云提供人工智能峰会、人工智能硬件加速暑期峰会等国际交流平台,全方位支持与高校在AI领域的合作,加速最新AI技术的产学研合作。

2019年2月24日,鲲云高校计划启动,联手英特尔开展的基于Intel? FPGA的人工智能芯片应用设计培训的交流活动完美落幕,来自清华大学、武汉大学、华中科技大学、山东大学、天津大学、重庆大学、电子科技大学等近30所高校的40余位老师参加。除与Intel合作进行人工智能课程培训外,鲲云人工智能应用创新研究院已同帝国理工学院、哈尔滨工业大学、天津大学等成立联合实验室,在定制计算、AI芯片安全、工业智能等领域开展前沿研究合作。

高端会晤,国际AI领域权威分享人工智能前沿技术突破

作为年度重量级AI峰会,此次活动汇聚了政府领导、全球人工智能领域顶尖学术大师、世界顶级科技企业、互联网巨头,产业界、投资界行业领袖,共同探讨人工智能实战落地和产学研发展方向。整个峰会由政府致辞、主题演讲和产业论坛三个环节组成。会上,几位人工智能领域的国际权威,包括获得“IT诺贝尔奖”的Viktor K. Prasanna教授,IEEE终身会士Sun Yuan Kung(贡三元)教授,国际学术界公认的世界上极少数同时在数据库理论与系统两个领域做出突破性贡献的Wenfei Fan(樊文飞)院士,定制计算国际权威Wayne Luk 陆永青院士,清华大学魏少军教授,以及高性能计算领域的Cristina Silvano教授等院士嘉宾就计算加速技术在人工智能领域的落地应用、AI方法的研究演进、面向人工智能应用的定制计算加速技术以及高能效高性能并行集群计算,软件定义芯片等内容做主题报告。

除了诸位院士、会士嘉宾的专业分享以外,Intel PSG战略市场总监的Tony Kau、浪潮人工智能与产品总经理刘军,也分享了英特尔和浪潮在人工智能的落地应用以及创新技术等方面的技术革新和新进展,也分享了同鲲云在AI加速应用和高校推广等方面的深入合作。

此外,峰会还邀请到星瀚资本杨歌、雷锋网麦广炜、天津大学电子信息学院副院长刘强、JWIPC副总经理刘迪科、CCE-YOCSEF深圳主席卢昱明等专家学者与鲲云科技CTO蔡权雄博士就人工智能芯片产业与生态落地等话题进行了探讨。

2019年人工智能应用创新峰会顺利结束,干货满满,在未来计算架构的黄金十年,鲲云科技是否能够凭借自己多年积累的数据流架构厚积薄发,在AI芯片性能上实现突破?我们拭目以待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43871

    浏览量

    230625
  • AI芯片
    +关注

    关注

    17

    文章

    1656

    浏览量

    34389
  • 鲲云科技
    +关注

    关注

    0

    文章

    23

    浏览量

    3729
收藏 人收藏

    评论

    相关推荐

    risc-v多核芯片在AI方面的应用

    应用中的成本。 最后,RISC-V多核芯片不仅可以应用于AI边缘计算领域,还可以扩展到其他领域,如数据中心、计算、自动驾驶、机器人等,这些领域提供
    发表于 04-28 09:20

    iBeLink KS MAX 10.5T大领跑KAS新领域

    挖掘机,它可以为用户提供超高,低廉的功耗,以及舒适的使用体验。如果您想要加入Kaspa的挖掘行列,或者想要提升您的挖掘效率和收获,那么iBeLink ks max 10.5T是您
    发表于 02-20 16:11

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    【飞腾派4G版免费试用】欧拉系统安装可视化界面(deepin)

    和应用的开发部署。 5G网络切片技术:支持5G网络切片管理和调度,自定义网络切片提供底层平台支撑。 分布式架构:采用分布式设计,支持大规模集群和边缘节点部署,适合5G和
    发表于 01-05 21:19

    赛昉科技RISC-V架构7110

    Ethernet、2路CAN2.0等常用功能接口,支持Linux5.15操作系统。适用于工业控制、人机交互、机器视觉、边缘计算等应用开发。   GPU加持,更充沛   JH7110的GPU采用了IMG
    发表于 10-30 08:49

    Orange Pi OS(OH)发布,开源鸿蒙PC端来了!

    0.8TopsAI加速器NPU,拥有2GB/4GB/8GB(LPDDR4/4X),支持16GB /32GB/ 64GB/128GB /256GB的eMMC模块、支持16MB/32MB SPI
    发表于 10-26 11:32

    BM1684架构介绍

    L2cache 2.2 峰值 峰值: FP32峰值 = 64 * 16 *
    发表于 09-19 08:11

    RISC-V强势崛起芯片架构第三极

    ,RISC-V能覆盖到对要求更高的领域,比如AI,而参与到RISC-V生态中来的企业也越来越多。 首先是操作系统厂商,包括Google开展Android系统拥抱RISC-V
    发表于 08-30 13:53

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    面向多媒体 AI 增强场景的 RISC-V 全栈软硬件平台。 该平台将 RISC-V 扩展性的新型 Vector、Matrix 及第三方硬件进行抽象,并接入 OpenCV 与 CSI-NN 等弹性
    发表于 08-26 14:14

    HarmonyOS NEXT新能力,一站式高效开发HarmonyOS应用

    提供了全栈式的设计架构,丰富的设计资源以及更高效的设计工具,将华为在人因研究上面的成果,以及包括动效、音效、主题、交互等多种能力融入到这些资源中,帮助应用开发者快速精致的HarmonyOS
    发表于 08-14 15:08

    Arm CCA安全模型1.0架构与技术组

    ARM保密计算体系结构(CCA)是一种提供称为Realms的受保护执行环境的体系结构。 领域的目的是机密计算提供环境。 除了标准ARM体系结构提供的基于特权的隔离之外,领域还接受反向
    发表于 08-11 07:39

    Gaudi2架构和软件的全面解释

    ,Gaudi2以其架构基础,数据中心和的深度学习带来了新的性能和效率。 Gaudi2由SynapseAI®软件套件支持,该软件套件与TensorFlow和PyTorch框架集成。
    发表于 08-04 06:15

    什么是Buck电源?矽杰SQ51201值得关注

    客户提供更高性能,更高可靠性的模拟芯片解决方案。 **矽杰多相Buck电源 SQ51201 ** 矽
    发表于 06-28 15:48

    RK3588开发板打包update.img怎么做

    CPU(四核Cortex-A76+四核Cortex-A55架构)集成MaliG610MP4四核GPU,内置AI加速器NPU,达6Tops,集成独立的8K视频硬件编码器和硬件解码器,
    发表于 05-11 15:30

    国产化RK3588开发平台16G大内存64G存储2路千兆以太网4G/5G通信

    MaliG610MP4四核GPU,内置AI加速器NPU,达6Tops,集成独立的8K视频硬件编码器和硬件解码器,提供了许多功能强大的嵌入式硬件引擎,性能更强的同时,功耗也能稳稳把控
    发表于 05-09 10:31