0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

龙架构向量创新赋能AI图像识别计算,促进NCNN神经网络前向计算框架性能翻倍

龙芯中科 来源:龙芯中科 作者:龙芯中科 2022-11-25 17:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,经过龙芯中科与NCNN社区的共同努力,在NCNN中使用龙架构(LoongArch)向量优化实现了大部分算子,得益于龙架构向量的高效实现,优化后NCNN在平台上各项性能测试比通用实现普遍提升一倍以上。

40d1d064-6c9e-11ed-8abf-dac502259ad0.png

基于龙架构向量优化开启前后的NCNN各项性能对比

(竖轴为耗时高度,越高耗时越久,性能越低)

NCNN作为业界首个为移动端优化的神经网络前向计算框架,在2017年首次开源,是腾讯优图实验室第一次对外公开深度学习的研究成果。目前多应用在图像方面,例如人像自动美颜,照片风格化,超分辨率,物体识别等等。NCNN计算框架,因其高性能、无第三方依赖、跨平台支持大部分常见CNN网络的特点,是许多开发者在移动端、嵌入式设备上部署深度学习算法的首选框架。

40e4711a-6c9e-11ed-8abf-dac502259ad0.png

龙架构向量优化加入NCNN生态社区

本次优化共产出3万多行代码,成果将应用于龙芯AI边缘计算场景,完成基于龙架构平台的特征识别、图像处理、人脸识别等模型的部署和推理,如门禁系统、手势识别、口罩检测等等。依托于NCNN计算框架优秀的低耦结构,开发者只需关注算子在龙架构平台上的高效实现,无需考虑整个系统结构问题,实现更高效的开发与部署工作。前期,NCNN与龙芯CPU进行了较为全面的适配和性能优化,共同打通了AI应用和国产CPU硬件间的壁垒。

可搭载NCNN框架的龙芯AI边缘计算场景

龙芯中科将与NCNN社区保持密切合作,继续根据龙架构平台向量特点不断优化算子,推进龙架构生态成果落地更多场景、服务更多领域、欢迎社区广大开发者与龙芯中科一道共建自主开放的龙架构生态体系。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4840

    浏览量

    108146
  • AI
    AI
    +关注

    关注

    91

    文章

    40969

    浏览量

    302533
  • 龙芯中科
    +关注

    关注

    0

    文章

    377

    浏览量

    8602

原文标题:龙架构向量创新赋能AI图像识别计算,促进NCNN神经网络前向计算框架性能翻倍

文章出处:【微信号:gh_53fadbdbd4d4,微信公众号:龙芯中科】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【CIE全国RISC-V创新应用大赛】MUSE Pi Pro开发板ROS系统

    1.8GHz,兼顾多任务处理能力与效比。支持向量扩展(V 扩展),天然适配 AI 计算、边缘推理等场景,指令集灵活性和开源特性显著优于传统闭源
    发表于 11-16 22:34

    NMSIS神经网络库使用介绍

    NMSIS NN 软件库是一组高效的神经网络内核,旨在最大限度地提高 Nuclei N 处理器内核上的神经网络性能并最​​大限度地减少其内存占用。 该库分为多个功能,每个功能涵盖特定类别
    发表于 10-29 06:08

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是训练一个手写数字识别神经
    发表于 10-22 07:03

    基于蜂鸟E203架构的指令集K扩展

    ,加速神经网络算法中的矩阵计算。 这些指令可以用于许多应用程序,例如数字信号处理、图像处理、机器学习等。同时,这些指令也可以通过软件编译器进行自动向量化,从而提高程序
    发表于 10-21 09:38

    CICC2033神经网络部署相关操作

    在完成神经网络量化后,需要将神经网络部署到硬件加速器上。首先需要将所有权重数据以及输入数据导入到存储器内。 在仿真环境下,可将其存于一个文件,并在 Verilog 代码中通过 readmemh 函数
    发表于 10-20 08:00

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    AI芯片不仅包括深度学细AI加速器,还有另外一个主要列别:类脑芯片。类脑芯片是模拟人脑神经网络架构的芯片。它结合微电子技术和新型神经形态器件
    发表于 09-17 16:43

    神经网络的并行计算与加速技术

    问题。因此,并行计算与加速技术在神经网络研究和应用中变得至关重要,它们能够显著提升神经网络性能和效率,满足实际应用中对快速响应和大规模数据处理的需求。
    的头像 发表于 09-17 13:31 1280次阅读
    <b class='flag-5'>神经网络</b>的并行<b class='flag-5'>计算</b>与加速技术

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    结果。 耦合振荡计算与传统的计算的区别: 3、神经符号计算 神经符号极端是指将基于神经网络的方法
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    Transformer和视觉Transformer模型。 ViTA是一种高效数据流AI加速器,用于在边缘设备上部署计算密集型视觉Transformer模型。 2、射频神经网络 2.1线性射频模拟处理器的原理 2.2 线性
    发表于 09-12 17:30

    【Milk-V Duo S 开发板免费体验】RISC-V核心NCNN基准测试

    ncnn是腾讯优图实验室推出的一个为移动端极致优化的高性能神经网络计算
    发表于 08-24 23:46

    AI 边缘计算网关:开启智能新时代的钥匙​—兴物联

    智能化决策的关键。卷积神经网络图像识别方面表现卓越,在智能工厂产品质量检测中,快速准确识别产品缺陷;循环神经网络擅长处理时间序列数据,可
    发表于 08-09 16:40

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    神经网络。 材料创新 这部分将视角投向化学与生物领域,探索 “湿件”的可能性,重新定义AI芯片的形态。 化学计算开辟了全新路径,通过酸碱反应构建逻辑门与
    发表于 07-28 13:54

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,清晰看到 Transformer 块、
    发表于 07-20 15:07

    【嘉楠堪智K230开发板试用体验】01 Studio K230开发板Test2——手掌,手势检测,字符检测

    CanMV K230 的核心计算单元,专门用于处理需要高计算量的复杂图像识别任务。其作用类似于电脑中的 GPU,专注于提供强大的视觉处理算力。 KPU 的核心优势在于: 神经网络处理
    发表于 07-10 09:45

    量子计算在海绵压缩测试数据优化中的创新探索

    试验机“超算驱动” 的智能终端演进。​ 一、量子算法在数据建模中的应用突破​ 量子神经网络(QNN)的性能提升​ 构建混合量子 - 经典神经网络
    的头像 发表于 04-22 13:05 1007次阅读
    量子<b class='flag-5'>计算</b>在海绵压缩测试数据优化中的<b class='flag-5'>创新</b>探索