0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

被低估的ArmNN(二)用C++部署Mobilenet回归器

电子设计 来源:电子设计 作者:电子设计 2020-12-10 18:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在专栏之前的文章,我们介绍过ArmNN,详情可参考被低估的ArmNN(一)如何编译。这里,我们给大家介绍如何使用ArmNN在Android设备上进行部署,部署的任务以Mobilenet分类器为例。关于Mobilenet回归器的训练,大家可以参考如何DIY轻型的Mobilenet回归器。我们今天的部署平台仍然是基于RK3399嵌入式平台,系统为Android-8.1。
作者:张新栋

我们知道ArmNN是一个非常高效的Inference框架,300x300的Mobilenet-SSD在depth_multiplier取1.0时inference最快可达90ms/帧。今天我们将使用ArmNN框架,用C++在RK-3399-Android-8.1中进行Mobilenet回归任务的部署。首先我们先进行第一步,环境的配置。

环境配置

若想使用编译好的ArmNN进行inference,首先我们必须要先加载编译好的ArmNN库、头文件及其他依赖文件。这里我们依旧为大家提供了Android.mk及Application.mk,

LOCAL_PATH := $(call my-dir)

include $(CLEAR_VARS)
LOCAL_MODULE := armnn
LOCAL_SRC_FILES := $(LOCAL_PATH)/../libarmnn.so
LOCAL_EXPORT_C_INCLUDES := $(LOCAL_PATH)/../../include/armnn
LOCAL_SHARED_LIBRARIES := c++_shared
include $(PREBUILT_SHARED_LIBRARY)


include $(CLEAR_VARS)
LOCAL_MODULE := tfliteParser
LOCAL_SRC_FILES := $(LOCAL_PATH)/../libarmnnTfLiteParser.so
LOCAL_EXPORT_C_INCLUDES := $(LOCAL_PATH)/../../include/libarmnnTfLiteParser
LOCAL_SHARED_LIBRARIES := c++_shared
include $(PREBUILT_SHARED_LIBRARY)

include $(CLEAR_VARS)
LOCAL_MODULE := armnnSerializer
LOCAL_SRC_FILES := $(LOCAL_PATH)/../libarmnnSerializer.so
LOCAL_EXPORT_C_INCLUDES := $(LOCAL_PATH)/../../include/armnn/armnnSerializer
LOCAL_SHARED_LIBRARIES := c++_shared
include $(PREBUILT_SHARED_LIBRARY)


include $(CLEAR_VARS)
OpenCV_INSTALL_MODULES := on
OPENCV_LIB_TYPE := STATIC
include /Users/xindongzhang/armnn-tflite/OpenCV-android-sdk/sdk/native/jni/OpenCV.mk
LOCAL_MODULE := face_detector

LOCAL_C_INCLUDES += $(OPENCV_INCLUDE_DIR)
LOCAL_C_INCLUDES += $(LOCAL_PATH)/../../include
LOCAL_C_INCLUDES += $(LOCAL_PATH)/../../../boost_1_64_0/
LOCAL_C_INCLUDES += $(LOCAL_PATH)/../../third-party/stb/
LOCAL_SRC_FILES := /
                face_detector.cpp


LOCAL_LDLIBS := -landroid -llog -ldl -lz 
LOCAL_CFLAGS   := -O2 -fvisibility=hidden -fomit-frame-pointer -fstrict-aliasing   /
                  -ffunction-sections -fdata-sections -ffast-math -ftree-vectorize / 
                  -fPIC -Ofast -ffast-math -w -std=c++14
LOCAL_CPPFLAGS := -O2 -fvisibility=hidden -fvisibility-inlines-hidden -fomit-frame-pointer /
                  -fstrict-aliasing -ffunction-sections -fdata-sections -ffast-math -fPIC  /
                  -Ofast -ffast-math -std=c++14
LOCAL_LDFLAGS  += -Wl,--gc-sections
LOCAL_CFLAGS   += -fopenmp
LOCAL_CPPFLAGS += -fopenmp
LOCAL_LDFLAGS  += -fopenmp
LOCAL_ARM_NEON := true

APP_ALLOW_MISSING_DEPS = true

LOCAL_SHARED_LIBRARIES :=                                   /
                        armnn                               /
            tfliteParser                        /
            armnnSerializer                     /
            android.hardware.neuralnetworks@1.0 /
            android.hidl.allocator@1.0          /
            android.hidl.memory@1.0             /
            libc++_shared

include $(BUILD_EXECUTABLE)

如下为Application.mk文件,

ANDROID_TOOLCHAIN=clang 
APP_ABI := arm64-v8a
APP_CPPFLAGS := -frtti -fexceptions -std=c++14
APP_PLATFORM := android-27
APP_STL := c++_shared

这里需要注意的是Application.mk的APP_STL项,由于我们在编译ArmNN时使用的STL为c++_shared,所以这里需要使用c++_shared,另外Android.mk文件中链接的OpenCV库也需要使用c++_shared的stl进行编译(官网下载的即c++_shared编译)。

编写C++业务代码

在配置好依赖项后,我们开始使用ArmNN提供的C++API进行业务代码的书写。首先第一步我们需要加载模型,ArmNN提供了解析题 ITfLiteParserPtr,我们可以使用其进行模型的加载。另外加载好的模型我们需要使用一个网络结构进行存储,ArmNN提供了INetworkPtr。为了在对应的arm嵌入式平台中高效的执行,ArmNN还提供了IOptimizedNetworkPtr来对网络的inference进行优化。更多的细节大家可参考如下的业务代码。

armnnTfLiteParser::ITfLiteParserPtr parser = armnnTfLiteParser::ITfLiteParser::Create(); 
armnn::INetworkPtr pose_reg_network{nullptr, [](armnn::INetwork *){}};
armnn::IOptimizedNetworkPtr pose_reg_optNet{nullptr, [](armnn::IOptimizedNetwork *){}};
armnn::InputTensors pose_reg_in_tensors;
armnn::OutputTensors pose_reg_ou_tensors;
armnn::IRuntimePtr runtime{nullptr, [](armnn::IRuntime *){}};
float yaw[1];
float pose_reg_input[64*64*3];


// loading tflite model
std::string pose_reg_modelPath = "/sdcard/Algo/pose.tflite";
pose_reg_network = parser->CreateNetworkFromBinaryFile(pose_reg_modelPath.c_str());

// binding input and output
armnnTfLiteParser::BindingPointInfo pose_reg_input_bind  = 
                              parser->GetNetworkInputBindingInfo(0, "input/ImageInput");
armnnTfLiteParser::BindingPointInfo pose_reg_output_bind = 
                              parser->GetNetworkOutputBindingInfo(0, "yaw/yangle");

// wrapping pose reg input and output
armnn::Tensor pose_reg_input_tensor(pose_reg_input_bind.second, pose_reg_input);
pose_reg_in_tensors.push_back(std::make_pair(pose_reg_input_bind.first, pose_reg_input_tensor));

armnn::Tensor pose_reg_output_tensor(pose_reg_output_bind.second, yaw);
pose_reg_ou_tensors.push_back(std::make_pair(pose_reg_output_bind.first, pose_reg_output_tensor));

// config runtime, fp16 accuracy 
armnn::IRuntime::CreationOptions runtimeOptions;
runtime = armnn::IRuntime::Create(runtimeOptions);
armnn::OptimizerOptions OptimizerOptions;
OptimizerOptions.m_ReduceFp32ToFp16 = true;
this->pose_reg_optNet = 
armnn::Optimize(*pose_reg_network, {armnn::Compute::GpuAcc},runtime->GetDeviceSpec(), OptimizerOptions);
runtime->LoadNetwork(this->pose_reg_identifier, std::move(this->pose_reg_optNet));

// load image
cv::Mat rgb_image = cv::imread("face.jpg", 1);
cv::resize(rgb_image, rgb_image, cv::Size(pose_reg_input_size, pose_reg_input_size));
rgb_image.convertTo(rgb_image, CV_32FC3);
rgb_image = (rgb_image - 127.5f) * 0.017f;

// preprocess image
int TOTAL   = 64 * 64 * 3;
float* data = (float*) rgb_image.data;
for (int i = 0; i < TOTAL; ++i) {
    pose_reg_input[i] = data[i];
}

// invoke graph forward inference
armnn::Status ret = runtime->EnqueueWorkload(
    this->pose_reg_identifier,
    this->pose_reg_in_tensors,
    this->pose_reg_ou_tensors
);
float result = yaw[0] * 180 / 3.14; 

非常简单易懂的业务代码就可以完成ArmNN的一次inference,注意这里我们使用的是FP16来进行inference,相比于FP32,FP16具有更高的加速比,且不会损失很多精度。后续我们会给出如何使用ArmNN来做INT8的inference例子。

最后

本文我们介绍了如何使用ArmNN来进行Mobilenet的inference(其实很容易就可以改成分类任务),并使用FP16的精度进行inference,该网络在RK3399中执行效率非常高(约10ms)。若你想在其他设备中使用FP16,首先你要保证设备中有GPU,且支持OpenCL。欢迎大家留言讨论、关注专栏,谢谢大家!

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9499

    浏览量

    388689
  • C++
    C++
    +关注

    关注

    22

    文章

    2122

    浏览量

    76708
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    C++程序异常的处理机制

    1、什么是异常处理? 有经验的朋友应该知道,在正常的CC++编程过程中难免会碰到程序不按照原本设计运行的情况。 最常见的有除法分母为零,数组越界,内存分配失效、打开相应文件失败等等。 一个程序
    发表于 12-02 07:12

    嵌入式C/C++回归测试四大最佳实践(附自动化测试工具TESSY使用教程)

    嵌入式开发中,一次微小的代码改动都可能引发“蝴蝶效应”,如何守护系统的稳健?推荐专业的自动化测试工具#TESSY,源自戴姆勒-奔驰,是嵌入式C/C++单元/集成测试的标杆。
    的头像 发表于 10-31 14:21 184次阅读
    嵌入式<b class='flag-5'>C</b>/<b class='flag-5'>C++</b><b class='flag-5'>回归</b>测试四大最佳实践(附自动化测试工具TESSY使用教程)

    C/C++代码静态测试工具Perforce QAC 2025.3的新特性

     Perforce Validate 中 QAC 项目的相对/根路径的支持。C++ 分析也得到了增强,增加了用于检测 C++ 并发问题的新检查,并改进了实体名称和实
    的头像 发表于 10-13 18:11 345次阅读
    <b class='flag-5'>C</b>/<b class='flag-5'>C++</b>代码静态测试工具Perforce QAC 2025.3的新特性

    技能+1!如何在树莓派上使用C++控制GPIO?

    在使用树莓派时,你会发现Python和Scratch是许多任务(包括GPIO编程)中最常用的编程语言。但你知道吗,你也可以使用C++进行GPIO编程,而且这样做还有不少好处。借助WiringPi
    的头像 发表于 08-06 15:33 3573次阅读
    技能+1!如何在树莓派上使用<b class='flag-5'>C++</b>控制GPIO?

    C++ 与 Python:树莓派上哪种语言更优?

    Python是树莓派上的首选编程语言,我们的大部分教程都使用它。然而,C++在物联网项目中同样广受欢迎且功能强大。那么,在树莓派项目中选择哪种语言更合适呢?Python因其简洁性、丰富的库和资源而
    的头像 发表于 07-24 15:32 642次阅读
    <b class='flag-5'>C++</b> 与 Python:树莓派上哪种语言更优?

    主流的 MCU 开发语言为什么是 C 而不是 C++

    在单片机的地界儿里,C语言稳坐中军帐,C++想分杯羹?难喽。咱电子工程师天天跟那针尖大的内存空间较劲,C++那些花里胡哨的玩意儿,在这儿真玩不转。先说内存这道坎儿。您当stm32f4的256kRAM
    的头像 发表于 05-21 10:33 778次阅读
    主流的 MCU 开发语言为什么是 <b class='flag-5'>C</b> 而不是 <b class='flag-5'>C++</b>?

    K230D部署模型失败的原因?

    ) 2.按照教程实现C++版本部署流程,大小核这里就无法推进了,无法输入命令 期待结果和实际结果 (1)期待结果:不管按照哪个流程部署完,可以运行给的测试用例,看到结果 (2)实际结果:采用
    发表于 03-11 06:19

    源代码加密、源代码防泄漏c/c++与git服务开发环境

    源代码加密对于很多研发性单位来说是至关重要的,当然每家企业的业务需求不同所用的开发环境及开发语言也不尽相同,今天主要来讲一下c++及git开发环境的源代码防泄密保护方案。企业源代码泄密场景一、在很多
    的头像 发表于 02-12 15:26 874次阅读
    源代码加密、源代码防泄漏<b class='flag-5'>c</b>/<b class='flag-5'>c++</b>与git服务<b class='flag-5'>器</b>开发环境

    基于OpenHarmony标准系统的C++公共基础类库案例:ThreadPoll

    1、程序简介该程序是基于OpenHarmony标准系统的C++公共基础类库的线程池处理:ThreadPoll。本案例完成如下工作:创建1个线程池,设置该线程池内部有1024个线程空间。启动5个线程
    的头像 发表于 02-10 18:09 598次阅读
    基于OpenHarmony标准系统的<b class='flag-5'>C++</b>公共基础类库案例:ThreadPoll

    Spire.XLS for C++组件说明

    Spire.XLS for C++ 是一款专业的 C++ Excel 组件,可以用在各种 C++ 框架和应用程序中。Spire.XLS for C++ 提供了一个对象模型 Excel
    的头像 发表于 01-14 09:40 1297次阅读
    Spire.XLS for <b class='flag-5'>C++</b>组件说明

    EE-112:模拟C++中的类实现

    电子发烧友网站提供《EE-112:模拟C++中的类实现.pdf》资料免费下载
    发表于 01-03 15:15 0次下载
    EE-112:模拟<b class='flag-5'>C++</b>中的类实现

    C++ QT开发,IC读写程序

    第一步:新建一个qt C++项目 在此需要注意, 名称和路径不能有中文。 第步: 添加控件 完成UI布局 IC读写读写IC卡数据块 第三步:开始写代码 使设备发出滴滴响声 #define
    的头像 发表于 12-30 14:55 1075次阅读
    <b class='flag-5'>C++</b> QT开发,IC读写<b class='flag-5'>器</b>程序

    HighTec C/C++编译套件全面支持芯来RISC-V IP

    德国萨尔布吕肯,2024年12月5日——世界领先的汽车C/C++编译解决方案提供商HighTec EDV Systeme GmbH宣布全面支持芯来科技的RISC-V IP。HighTec编译
    的头像 发表于 12-23 09:04 1999次阅读
    HighTec <b class='flag-5'>C</b>/<b class='flag-5'>C++</b>编译<b class='flag-5'>器</b>套件全面支持芯来RISC-V IP

    运动控制卡周期上报实时数据IO状态之C++

    使用C++进行运动控制卡的周期上报功能实现
    的头像 发表于 12-17 13:59 1528次阅读
    运动控制卡周期上报实时数据IO状态之<b class='flag-5'>C++</b>篇

    HighTec C/C++编译支持Andes晶心科技RISC-V IP

    汽车编译解决方案领先供货商HighTec EDV-Systeme GmbH宣布其针对汽车市场的高度优化C/C++编译支持Andes晶心科技的RISC-V IP。这项支持对汽车软件开
    的头像 发表于 12-12 16:26 1560次阅读