探索ARM CPU架构的美妙以及C语言编译器的奥秘-电子发烧友网

笔者接触嵌入式领域软件开发以来，几乎用的都是 ARM Cortex M 内核系列的微控制器。感谢C语言编译器的存在，让我不用接触汇编即可进行开发，但是彷佛也错过了一些风景，没有领域到编译器之美和CPU之美，所以决定周末无聊的休息时间通过寻找资料、动手实验、得出结论的方法来探索 ARM CPU 架构的美妙，以及C语言编译器的奥秘。（因为我个人实在是不赞同学校中微机原理类课程的教学方法）。

ARM探索之旅 01 | 带你认识ARM Cortex-M阵营

ARM探索之旅 02 | ARM Cortex-M 用什么指令集？

一、浮点数的存储

浮点数按照 IEEE 754 标准存储在计算机中，ARM浮点环境是遵循「IEEE 754-1985」标准实现的。

IEEE 754 标准规定浮点数的存储格式有三个域

sign：符号位，0表示正数、1表示负数；

exponent：二进制小数的指数值编码；

frac tion：二进制小数的有效值编码；

具体的编码规则过多，本文重点不在此，不再展开，感兴趣可以阅读我之前的文章：浮点数在计算机中的存储 —— IEEE 754标准［1］（可点击阅读原文查看）。

二、浮点支持软件库fplib

1. fplib介绍

ARM Cortex-M处理器中计算浮点数的方式有软件和硬件两种。

对于不带 FPU 的处理器，ARM提供了一个「浮点支持软件库」用于计算浮点数：fplib。

fplib提供的 API 以__aeabi开头，比如：

__aeabi_fadd：计算两个float型浮点数（float占4个字节，32位）

__aeabi_dadd：计算两个double型浮点数（double占8个字节，64位）

__aeabi_f2d：float型转为double型

__aeabi_d2f：double型转为float型

除此之外，fplib库还提供取余、开方等非常多的浮点数操作函数，如有兴趣可以查阅文末我列出的参考文档［2］。

2. 测试代码与优化等级

编写如下测试代码：

float a = 5.625; float b = 5.625; float res_add， res_sub， res_mul， res_div; res_add = a + b; res_sub = a - b; res_mul = a * b; res_div = a / b; printf（“res_add = %f ”， res_add）; printf（“res_sub = %f ”， res_sub）; printf（“res_mul = %f ”， res_mul）; printf（“res_div = %f ”， res_div）;

❝

使用这段测试代码，「编译器优化等级推荐设置为-O0」，否则聪明的编译器会直接将结果计算出来编译到程序中，我们就没法研究了。

❞

3. armcc测试结果

这节我们验证是否ARM使用 fplib 库来计算浮点数，在设置中关闭FPU：

使用MDK编译之后，进入调试模式查看反汇编结果。

在反汇编中可以看到，变量a是float类型，所以编译器分配了一个寄存器用于存储值：

查看0x080031C4处的值，小端存储模式下（低位在低地址），变量a的值是0x40B40000，存储方式符合IEEE 754标准。

再来看看浮点数运算操作的反汇编结果，果然调用fplib库提供的函数完成浮点数的操作：这里还有一个有趣的小细节，在反汇编中可以看到「使用 %f 占位符打印浮点数时，printf是按照double型传参的」：

4. arm-none-eabi-gcc测试结果

使用STM32CubeMX生成makeifle工程，修改makeifle中的等级为-O0，设置为软件浮点计算：另外还需要注意，默认gcc编译时不支持printf打印浮点数，需要在 makefile 中手动加入以下链接选项：

LDFLAGS += -u _printf_float

编译完成之后进行反汇编（注意文件名）：

arm-none-eabi-objdump -s -d build/usart1-fpu-test.elf 》 build/usart1-fpu-test.dis

同样，在反汇编文件中即可找到浮点计算代码：

三、使用 ARM FPU 加速浮点计算

1. ARM FPU的魅力

FPU（Floating Point Unit，浮点单元）是ARM内核中的硬件外设，用于硬件计算浮点数，要想使用FPU计算浮点数，需要程序和编译器配合。

在程序中使能/开启FPU硬件外设，「使 FPU 硬件可以正常工作」；

在编译器中设置使用FPU，编译器会将所有浮点计算的代码都编译为「使用FPU操作指令完成」。

目前Cortex-M4、Cortex-M7、Cortex-M33、Cortex-M35P、Cortex-M55处理器中都具备FPU硬件。

在上一节中我们使用fplib软件库来计算浮点数，但是fplib终归还是软件方式，每个计算函数的实现都是通过很多的指令去完成计算，并且最终的程序中还会把函数链接进可执行程序，导致程序体积变大。

「ARM FPU的魅力在于，浮点计算可以通过简单的FPU操作指令去完成，相比之下，不仅计算快，也不会增大程序体积。」

2. 如何使能FPU硬件

ARM Cortex - M4内核中将 FPU 作为协处理器设计的，所以通过设置协处理器访问控制（CPACR，Co-processor access control register）来控制是否使能FPU。

复位之后CP11=0、CP10=0，默认禁止访问FPU，因为这是Cortex-M内核的外设，寄存器定义CMSIS-Core中，所以可以直接通过下面这行代码设置CP11=1、CP10=1来允许访问FPU：

SCB-》CPACR = 0x00F00000; // Enable the floating point unit for full access

无论是STM32 HAL库还是标准库，在SystemInit（）函数中已经存在使能代码，通过__FPU_PRESENT和__FPU_USED来控制：

/* FPU settings ------------------------------------------------------------*/ #if （__FPU_PRESENT == 1） && （__FPU_USED == 1） SCB-》CPACR |= （（3UL 《《 10*2）|（3UL 《《 11*2））; /* set CP10 and CP11 Full Access */ #endif

并且，在头文件 stm32l431xx.h 中已经使能__FPU_PRESENT宏定义：__FPU_PRESENT宏定义是一直使能的，那么如何来控制FPU的使能呢？

别忘了还有一个宏定义__FPU_USED，这是留给编译器来控制的！

3. ARMCC编译器如何开启FPU

MDK编译器开启FPU的方法非常简单，如图：在MDK中使能FPU，一方面编译器会设置宏定义__FPU_USED == 1，不放心的话可以在任意位置添加下面的预处理代码，分别在使用/不使用的情况编译一下，查看编译器输出结果：

#if __FPU_USED == 1 #error “ok！” #endif

另一方面，编译器在编译的时候，会将所有的浮点运算都编译为使用FPU操作指令去完成

4. gcc编译器如何开启FPU

在Makefile中加入以下gcc编译设置项：

# fpu FPU = -mfpu=fpv4-sp-d16 # float-abi FLOAT-ABI = -mfloat-abi=hard

ABI是应用程序二进制接口（Application Binary Interface），-mfloat-abi用来指定使用哪种方式：

soft：使用CPU寄存器组+软件库（fplib）完成浮点操作；

softfp：使用CPU寄存组+FPU硬件+软件库完成浮点操作；

hard：使用FPU寄存器组+FPU硬件+软件库完成浮点操作；

mfpu选项用来指定FPU架构，具体值可以阅读我在文末给出的参考文档，本文所使用的值fpv4-sp-d16，意味着仅仅使能Armv7 FPv4-SP-D16 单精度浮点单元扩展。

同样，对之前的测试代码编译，查看反汇编结果，可以看到使用了浮点操作全部使用了FPU相关指令。

四、使用Julia测试FPU加速性能

1. 测试准备

需要准备一份裸机工程，具有屏幕打点显示功能和串口打印功能。

参考：STM32CubeMX_17 | 使用硬件SPI驱动TFT-LCD（ST7789）。

2. 移植Julia分形测试代码

Julia测试是通过计算几帧Julia分形的数据来测试单精度浮点运算的性能，测试代码参考正点原子，如下：

/* Private user code ---------------------------------------------------------*/ /* USER CODE BEGIN 0 */ #define ITERATION 128 //迭代次数 #define REAL_CONSTANT 0.285f //实部常量 #define IMG_CONSTANT 0.01f //虚部常量 //颜色表 uint16_t color_map［ITERATION］; //缩放因子列表 const uint16_t zoom_ratio［］ = { 120， 110， 100， 150， 200， 275， 350， 450， 600， 800， 1000， 1200， 1500， 2000， 1500， 1200， 1000， 800， 600， 450， 350， 275， 200， 150， 100， 110， }; //初始化颜色表 //clut：颜色表指针 void InitCLUT（uint16_t * clut） { uint32_t i = 0x00; uint16_t red = 0， green = 0， blue = 0; for （i = 0;i 《 ITERATION; i++） { //产生 RGB 颜色值 red = （i*8*256/ITERATION） % 256;

green = （i*6*256/ITERATION） % 256; blue = （i*4*256 /ITERATION） % 256;

//将 RGB888，转换为 RGB565 red = red 》》 3; red = red 《《 11; green = green 》》 2; green = green 《《 5; blue = blue 》》 3; clut［i］ = red + green + blue; } } //产生 Julia 分形图形 //size_x，size_y：屏幕 x，y 方向的尺寸 //offset_x，offset_y：屏幕 x，y 方向的偏移 //zoom：缩放因子 void GenerateJulia_fpu（uint16_t size_x，uint16_t size_y，uint16_t offset_x，uint16_t offset_y，uint16_t zoom） { uint8_t i; uint16_t x，y; float tmp1，tmp2; float num_real，num_img; float radius; for （y = 0; y 《 size_y; y++） { for （x = 0; x 《 size_x; x++） { num_real = y - offset_y; num_real = num_real / zoom; num_img = x-offset_x;

num_img = num_img / zoom; i = 0; radius = 0; while （（i 《 ITERATION-1） && （radius 《 4）） { tmp1 = num_real * num_real;

tmp2 = num_img * num_img; num_img = 2*num_real*num_img + IMG_CONSTANT; num_real = tmp1 - tmp2 + REAL_CONSTANT;

radius = tmp1 + tmp2; i++; } //绘制到屏幕 lcd_draw_color_point（x， y， color_map［i］）; } } } /* USER CODE END 0 */

在main函数中创建一些需要的变量：

/* USER CODE BEGIN 1 */ uint8_t zoom_index = 0; uint32_t start_time = 0， end_time = 0; /* USER CODE END 1 */

调用初始化函数：

/* USER CODE BEGIN 2 */ printf（“Julia test by Mculover666 ”）; lcd_init（）; //初始化颜色表 InitCLUT（color_map）; /* USER CODE END 2 */

调用测试函数：

/* Infinite loop */ /* USER CODE BEGIN WHILE */ while （1） { /* USER CODE END WHILE */ /* USER CODE BEGIN 3 */ start_time = HAL_GetTick（）; GenerateJulia_fpu（240， 240， 120， 120， zoom_ratio［zoom_index］）; end_time = HAL_GetTick（）; printf（“diff time is %d ms ”， end_time - start_time）; zoom_index++; if （zoom_index 》 sizeof（zoom_ratio）） { zoom_index = 0; } } /* USER CODE END 3 */

3. 测试结果

使用-O2优化等级，在不开 FPU 的情况下，「显示一帧平均需要11s左右」：程序大小情况：

使用-O2优化等级，在开启 FPU 的情况下，「显示一帧平均需要4s左右」：程序大小情况：

最后放上好看的Julia分形图：

原文标题：揭秘ARM FPU 加速浮点计算

文章出处：【微信公众号：strongerHuang】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

ARM

ARM

+关注

关注
134

文章
8651

浏览量
361777
嵌入式

嵌入式

+关注

关注
4981

文章
18281

浏览量
288401
C语言

C语言

+关注

关注
180

文章
7530

浏览量
128533

原文标题：揭秘ARM FPU 加速浮点计算

文章出处：【微信号：strongerHuang，微信公众号：strongerHuang】欢迎添加关注！文章转载请注明出处。

TVM编译器的整体架构和基本方法

。但是这其中也去思考了一下基于FPGA加速器的编译器架构。在FPGA深度学习加速器中，编译器除了需要自动化生成指令外，还要优化指令的结构，来最大化加速器性能。TVM是一个支持GPU、CPU

发表于 11-30 09:36 •869次阅读

Keil修改ARM编译器及配置方法

Keil MDK自 V5.36 版本之后，默认就不带 Arm Compiler V5版本编译器。如果需要使用 V5 版本编译器，就需要自己下载并安装。

发表于 09-19 10:41 •2204次阅读

如何安装ARM编译器Linux版

本教程介绍如何下载、安装、设置您的环境，以及如何开始使用ARM编译器for Linux。 ARM编译器Linux版软件包包括

发表于 08-28 06:45

ARM编译器6.6版ARMASM用户指南

2.1 关于Arm Conventinger 工具链装配器,Armá 编译器工具链提供不同的装配器。它们是: • 独立遗留的装配器, 编组器。使用 armasm 来组装现有的 A6

发表于 08-25 07:35

Arm编译器嵌入式FuSa 6.16.2版LTS用户指南

用于Embedded FUSA 6的ARM®编译器是ARM为ARM®Cortex®和ARM®Neoverse®处理

发表于 08-18 06:42

RealView用于BREW编译器和库的编译工具指南

只要有可能，编译器就会采用Windows/MS-DOS用户所熟悉的广泛使用的命令行选项。 ARM C编译器按照ISO/IEC 9899：1990(E)的定义

发表于 08-12 07:38

ARM编译器5.06版ARMCC用户指南

。源代码提供一个或多个包含C或C++源代码的文本文件的文件名。默认情况下，编译器在当前目录中查找源文件并创建输出文件。如果源文件是程序集文件，即扩展名为.s的文件，则编译器会激活

发表于 08-12 07:15

ARM Developer Suite 1.2版编译器和库指南

ADS由一套应用程序以及支持文档和示例组成，使您能够为ARM系列RISC处理器编写和调试应用程序。您可以使用ADS开发、构建和调试C、C+

发表于 08-12 06:15

Arm C/C++编译器22.1版开发人员和参考指南

提供帮助您使用ARM®编译器Linux版的ARM®C/C++编译器组件的信息。

发表于 08-11 07:46

Arm编译器6.6版armclang参考指南

Arm®编译器armclang参考指南提供了Arm编译器armclaang的用户信息。armclang是一个优化的C和

发表于 08-11 07:35

ARM C语言扩展资料

Arm体系结构包含的功能超出了C/C++程序员可使用的操作集。Arm C语言扩展（ACLE）的目

发表于 08-11 07:31

Arm C/C++编译器开发人员和参考指南

提供帮助您使用Arm®编译器Linux版的Arm®C/C++编译器组件的信息。

发表于 08-10 06:17

如何使用ARM编译器构建Hello World

在本教程中，我们将展示如何使用Arm构建一个名为hello_world.C的简单C程序DS-5中的编译器工具链。您可以找到Arm

发表于 08-08 07:55

如何为Arm编译C和c++代码

和C++源代码翻译成机器代码的编译器。 •将汇编语言源代码翻译成机器代码的汇编程序。 •一个链接器，用于将多个机器代码模块组合成一个可执行文件。可用的工具链包括： •

发表于 08-02 17:28

ARM C语言扩展规范

ARM C语言扩展（ACLE）规范指定源语言扩展和实现C/C++

发表于 08-02 06:27

搜索历史

探索ARM CPU架构的美妙以及C语言编译器的奥秘

评论

TVM编译器的整体架构和基本方法

Keil修改ARM编译器及配置方法

如何安装ARM编译器Linux版

ARM编译器6.6版ARMASM用户指南

Arm编译器嵌入式FuSa 6.16.2版LTS用户指南

RealView用于BREW编译器和库的编译工具指南

ARM编译器5.06版ARMCC用户指南

ARM Developer Suite 1.2版编译器和库指南

Arm C/C++编译器22.1版开发人员和参考指南

Arm编译器6.6版armclang参考指南

ARM C语言扩展资料

Arm C/C++编译器开发人员和参考指南

如何使用ARM编译器构建Hello World

如何为Arm编译C和c++代码

ARM C语言扩展规范