0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探索ARM CPU架构的美妙以及C语言编译器的奥秘

strongerHuang 来源:Mculover666 作者:Mculover666 2021-06-06 18:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

笔者接触嵌入式领域软件开发以来,几乎用的都是 ARM Cortex M 内核系列的微控制器。感谢C语言编译器的存在,让我不用接触汇编即可进行开发,但是彷佛也错过了一些风景,没有领域到编译器之美和CPU之美,所以决定周末无聊的休息时间通过寻找资料、动手实验、得出结论的方法来探索 ARM CPU 架构的美妙,以及C语言编译器的奥秘。(因为我个人实在是不赞同学校中微机原理类课程的教学方法)。

ARM探索之旅 01 | 带你认识ARM Cortex-M阵营

ARM探索之旅 02 | ARM Cortex-M 用什么指令集?

一、浮点数的存储

浮点数按照 IEEE 754 标准存储在计算机中,ARM浮点环境是遵循「IEEE 754-1985」标准实现的。

IEEE 754 标准规定浮点数的存储格式有三个域

sign:符号位,0表示正数、1表示负数;

exponent:二进制小数的指数值编码;

fraction:二进制小数的有效值编码;

具体的编码规则过多,本文重点不在此,不再展开,感兴趣可以阅读我之前的文章:浮点数在计算机中的存储 —— IEEE 754标准[1](可点击阅读原文查看)。

二、浮点支持软件库fplib

1. fplib介绍

ARM Cortex-M处理器中计算浮点数的方式有软件和硬件两种。

对于不带 FPU 的处理器,ARM提供了一个「浮点支持软件库」用于计算浮点数:fplib。

fplib提供的 API 以__aeabi开头,比如:

__aeabi_fadd:计算两个float型浮点数(float占4个字节,32位)

__aeabi_dadd:计算两个double型浮点数(double占8个字节,64位)

__aeabi_f2d:float型转为double型

__aeabi_d2f:double型转为float型

除此之外,fplib库还提供取余、开方等非常多的浮点数操作函数,如有兴趣可以查阅文末我列出的参考文档[2]。

2. 测试代码与优化等级

编写如下测试代码:

float a = 5.625; float b = 5.625; float res_add, res_sub, res_mul, res_div; res_add = a + b; res_sub = a - b; res_mul = a * b; res_div = a / b; printf(“res_add = %f ”, res_add); printf(“res_sub = %f ”, res_sub); printf(“res_mul = %f ”, res_mul); printf(“res_div = %f ”, res_div);

使用这段测试代码,「编译器优化等级推荐设置为-O0」,否则聪明的编译器会直接将结果计算出来编译到程序中,我们就没法研究了。

3. armcc测试结果

这节我们验证是否ARM使用 fplib 库来计算浮点数,在设置中关闭FPU:

使用MDK编译之后,进入调试模式查看反汇编结果。

在反汇编中可以看到,变量a是float类型,所以编译器分配了一个寄存器用于存储值:

查看0x080031C4处的值,小端存储模式下(低位在低地址),变量a的值是0x40B40000,存储方式符合IEEE 754标准。

再来看看浮点数运算操作的反汇编结果,果然调用fplib库提供的函数完成浮点数的操作:这里还有一个有趣的小细节,在反汇编中可以看到「使用 %f 占位符打印浮点数时,printf是按照double型传参的」:

4. arm-none-eabi-gcc测试结果

使用STM32CubeMX生成makeifle工程,修改makeifle中的等级为-O0,设置为软件浮点计算:另外还需要注意,默认gcc编译时不支持printf打印浮点数,需要在 makefile 中手动加入以下链接选项:

LDFLAGS += -u _printf_float

编译完成之后进行反汇编(注意文件名):

arm-none-eabi-objdump -s -d build/usart1-fpu-test.elf 》 build/usart1-fpu-test.dis

同样,在反汇编文件中即可找到浮点计算代码:

三、使用 ARM FPU 加速浮点计算

1. ARM FPU的魅力

FPU(Floating Point Unit,浮点单元)是ARM内核中的硬件外设,用于硬件计算浮点数,要想使用FPU计算浮点数,需要程序和编译器配合。

在程序中使能/开启FPU硬件外设,「使 FPU 硬件可以正常工作」;

在编译器中设置使用FPU,编译器会将所有浮点计算的代码都编译为「使用FPU操作指令完成」。

目前Cortex-M4、Cortex-M7、Cortex-M33、Cortex-M35P、Cortex-M55处理器中都具备FPU硬件。

在上一节中我们使用fplib软件库来计算浮点数,但是fplib终归还是软件方式,每个计算函数的实现都是通过很多的指令去完成计算,并且最终的程序中还会把函数链接进可执行程序,导致程序体积变大。

「ARM FPU的魅力在于,浮点计算可以通过简单的FPU操作指令去完成,相比之下,不仅计算快,也不会增大程序体积。」

2. 如何使能FPU硬件

ARM Cortex - M4内核中将 FPU 作为协处理器设计的,所以通过设置协处理器访问控制(CPACR,Co-processor access control register)来控制是否使能FPU。

复位之后CP11=0、CP10=0,默认禁止访问FPU,因为这是Cortex-M内核的外设,寄存器定义CMSIS-Core中,所以可以直接通过下面这行代码设置CP11=1、CP10=1来允许访问FPU:

SCB-》CPACR = 0x00F00000; // Enable the floating point unit for full access

无论是STM32 HAL库还是标准库,在SystemInit()函数中已经存在使能代码,通过__FPU_PRESENT和__FPU_USED来控制:

/* FPU settings ------------------------------------------------------------*/ #if (__FPU_PRESENT == 1) && (__FPU_USED == 1) SCB-》CPACR |= ((3UL 《《 10*2)|(3UL 《《 11*2)); /* set CP10 and CP11 Full Access */ #endif

并且,在头文件 stm32l431xx.h 中已经使能__FPU_PRESENT宏定义:__FPU_PRESENT宏定义是一直使能的,那么如何来控制FPU的使能呢?

别忘了还有一个宏定义__FPU_USED,这是留给编译器来控制的!

3. ARMCC编译器如何开启FPU

MDK编译器开启FPU的方法非常简单,如图:在MDK中使能FPU,一方面编译器会设置宏定义__FPU_USED == 1,不放心的话可以在任意位置添加下面的预处理代码,分别在使用/不使用的情况编译一下,查看编译器输出结果:

#if __FPU_USED == 1 #error “ok!” #endif

另一方面,编译器在编译的时候,会将所有的浮点运算都编译为使用FPU操作指令去完成

4. gcc编译器如何开启FPU

在Makefile中加入以下gcc编译设置项:

# fpu FPU = -mfpu=fpv4-sp-d16 # float-abi FLOAT-ABI = -mfloat-abi=hard

ABI是应用程序二进制接口(Application Binary Interface),-mfloat-abi用来指定使用哪种方式:

soft:使用CPU寄存器组+软件库(fplib)完成浮点操作;

softfp:使用CPU寄存组+FPU硬件+软件库完成浮点操作;

hard:使用FPU寄存器组+FPU硬件+软件库完成浮点操作;

mfpu选项用来指定FPU架构,具体值可以阅读我在文末给出的参考文档,本文所使用的值fpv4-sp-d16,意味着仅仅使能Armv7 FPv4-SP-D16 单精度浮点单元扩展。

同样,对之前的测试代码编译,查看反汇编结果,可以看到使用了浮点操作全部使用了FPU相关指令。

四、使用Julia测试FPU加速性能

1. 测试准备

需要准备一份裸机工程,具有屏幕打点显示功能和串口打印功能。

参考:STM32CubeMX_17 | 使用硬件SPI驱动TFT-LCD(ST7789)。

2. 移植Julia分形测试代码

Julia测试是通过计算几帧Julia分形的数据来测试单精度浮点运算的性能,测试代码参考正点原子,如下:

/* Private user code ---------------------------------------------------------*/ /* USER CODE BEGIN 0 */ #define ITERATION 128 //迭代次数 #define REAL_CONSTANT 0.285f //实部常量 #define IMG_CONSTANT 0.01f //虚部常量 //颜色表 uint16_t color_map[ITERATION]; //缩放因子列表 const uint16_t zoom_ratio[] = { 120, 110, 100, 150, 200, 275, 350, 450, 600, 800, 1000, 1200, 1500, 2000, 1500, 1200, 1000, 800, 600, 450, 350, 275, 200, 150, 100, 110, }; //初始化颜色表 //clut:颜色表指针 void InitCLUT(uint16_t * clut) { uint32_t i = 0x00; uint16_t red = 0, green = 0, blue = 0; for (i = 0;i 《 ITERATION; i++) { //产生 RGB 颜色值 red = (i*8*256/ITERATION) % 256;

green = (i*6*256/ITERATION) % 256; blue = (i*4*256 /ITERATION) % 256;

//将 RGB888,转换为 RGB565 red = red 》》 3; red = red 《《 11; green = green 》》 2; green = green 《《 5; blue = blue 》》 3; clut[i] = red + green + blue; } } //产生 Julia 分形图形 //size_x,size_y:屏幕 x,y 方向的尺寸 //offset_x,offset_y:屏幕 x,y 方向的偏移 //zoom:缩放因子 void GenerateJulia_fpu(uint16_t size_x,uint16_t size_y,uint16_t offset_x,uint16_t offset_y,uint16_t zoom) { uint8_t i; uint16_t x,y; float tmp1,tmp2; float num_real,num_img; float radius; for (y = 0; y 《 size_y; y++) { for (x = 0; x 《 size_x; x++) { num_real = y - offset_y; num_real = num_real / zoom; num_img = x-offset_x;

num_img = num_img / zoom; i = 0; radius = 0; while ((i 《 ITERATION-1) && (radius 《 4)) { tmp1 = num_real * num_real;

tmp2 = num_img * num_img; num_img = 2*num_real*num_img + IMG_CONSTANT; num_real = tmp1 - tmp2 + REAL_CONSTANT;

radius = tmp1 + tmp2; i++; } //绘制到屏幕 lcd_draw_color_point(x, y, color_map[i]); } } } /* USER CODE END 0 */

在main函数中创建一些需要的变量:

/* USER CODE BEGIN 1 */ uint8_t zoom_index = 0; uint32_t start_time = 0, end_time = 0; /* USER CODE END 1 */

调用初始化函数:

/* USER CODE BEGIN 2 */ printf(“Julia test by Mculover666 ”); lcd_init(); //初始化颜色表 InitCLUT(color_map); /* USER CODE END 2 */

调用测试函数:

/* Infinite loop */ /* USER CODE BEGIN WHILE */ while (1) { /* USER CODE END WHILE */ /* USER CODE BEGIN 3 */ start_time = HAL_GetTick(); GenerateJulia_fpu(240, 240, 120, 120, zoom_ratio[zoom_index]); end_time = HAL_GetTick(); printf(“diff time is %d ms ”, end_time - start_time); zoom_index++; if (zoom_index 》 sizeof(zoom_ratio)) { zoom_index = 0; } } /* USER CODE END 3 */

3. 测试结果

使用-O2优化等级,在不开 FPU 的情况下,「显示一帧平均需要11s左右」:程序大小情况:

d4847f56-c55a-11eb-9e57-12bb97331649.png

使用-O2优化等级,在开启 FPU 的情况下,「显示一帧平均需要4s左右」:程序大小情况:

d4ebf7da-c55a-11eb-9e57-12bb97331649.png

最后放上好看的Julia分形图:

原文标题:揭秘ARM FPU 加速浮点计算

文章出处:【微信公众号:strongerHuang】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9588

    浏览量

    393562
  • 嵌入式
    +关注

    关注

    5209

    文章

    20645

    浏览量

    336920
  • C语言
    +关注

    关注

    183

    文章

    7646

    浏览量

    146131

原文标题:揭秘ARM FPU 加速浮点计算

文章出处:【微信号:strongerHuang,微信公众号:strongerHuang】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索 Hynetek HUSB338C:高性能 USB Type - C 电源控制奥秘

    探索 Hynetek HUSB338C:高性能 USB Type - C 电源控制奥秘 前言 在当今电子设备飞速发展的时代,USB Ty
    的头像 发表于 03-26 17:05 611次阅读

    C编译器错误与解决方法

    C语言keil编译器提示错误的解决方法,可以帮你解决程序编译中的烦恼!! C编译器错误与解决方
    发表于 01-22 08:03

    C语言C++之间的区别是什么

    C++的标准库那样集成度高和功能齐全。 6、编译器语言特性: C++编译器通常比C
    发表于 12-11 06:23

    开源鸿蒙技术大会2025丨编译器与编程语言分论坛:语言驱动系统创新,编译赋能生态繁荣

    在万物智联的时代背景下,操作系统底层能力的构建离不开编程语言编译器的关键支撑。作为开源鸿蒙生态的核心技术,语言设计与编译器、虚拟机实现的进步直接关系到开发效率、运行性能与系统安全。本
    的头像 发表于 11-20 17:24 1146次阅读
    开源鸿蒙技术大会2025丨<b class='flag-5'>编译器</b>与编程<b class='flag-5'>语言</b>分论坛:<b class='flag-5'>语言</b>驱动系统创新,<b class='flag-5'>编译</b>赋能生态繁荣

    C语言和单片机C语言有什么差异

    成汇编语言机器才能读懂,所以每个平台的编译器编译成对应平台汇编的程序,每个平台的汇编不一样,当然编译器也不一样。 DOS上的TC2 TC3 WINDOWS上的VC 8051的
    发表于 11-14 07:55

    Arm Neoverse CPU上大代码量Java应用的性能测试

    Java 是互联网领域广泛使用的编程语言。Java 应用的一些特性使其性能表现与提前编译的原生应用(例如 C 程序)大相径庭。由于 Java 字节码无法直接在 CPU 上执行,因此通常
    的头像 发表于 11-05 11:25 934次阅读
    <b class='flag-5'>Arm</b> Neoverse <b class='flag-5'>CPU</b>上大代码量Java应用的性能测试

    GCC编译器,怎么才能实现c文件中未被调用的函数,不会被编译呢?

    GCC编译器,怎么才能实现c文件中未被调用的函数,不会被编译?有什么编译选项可以设置吗? 移植代码,有些函数没被调用的函数想留在代码里,但不想被编译
    发表于 09-28 12:25

    请问如何在keil μVision 5上进行ARM编译器的代码优化?

    如何在keil μVision 5上进行ARM编译器的代码优化?
    发表于 08-20 07:37

    如何在Keil中将NuMicro BSP从Arm编译器5迁移到编译器6?

    在Keil中将NuMicro BSP从Arm编译器5迁移到编译器6!
    发表于 08-20 06:29

    探索CPU架构奥秘,揭秘高性能计算的隐形引擎

    本文转自:绿算技术CPU的内部工作原理:指令周期的精密舞蹈CPU,这颗无形的“心脏”,默默地驱动着每一台智能设备的脉动。它不仅是数据的处理中心,更是智慧与效率的源泉。今天与大家一同潜入CPU
    的头像 发表于 08-13 11:58 956次阅读
    <b class='flag-5'>探索</b><b class='flag-5'>CPU</b><b class='flag-5'>架构</b>的<b class='flag-5'>奥秘</b>,揭秘高性能计算的隐形引擎

    进迭时空同构融合RISC-V AI CPU的Triton算子编译器实践

    Triton是由OpenAI开发的一个开源编程语言编译器,旨在简化高性能GPU内核的编写。它提供了类似Python的语法,并通过高级抽象降低了GPU编程的复杂性,同时保持了高性能。目前
    的头像 发表于 07-15 09:04 2187次阅读
    进迭时空同构融合RISC-V AI <b class='flag-5'>CPU</b>的Triton算子<b class='flag-5'>编译器</b>实践

    边缘设备AI部署:编译器如何实现轻量化与高性能?

    电子发烧友网综合报道 AI编译器是专门为人工智能(AI)和机器学习(ML)模型设计的编译器,其核心目标是将高级的AI模型描述(如计算图、神经网络结构)转换为特定硬件平台(如CPU、GPU、FPGA
    的头像 发表于 07-06 05:49 6926次阅读

    兆松科技ZCC编译器全面支持芯来科技NA系列处理

    近日,兆松科技(武汉)有限公司(以下简称“兆松科技”)宣布正式发布高性能RISC-V编译器ZCC 4.0.0版本。
    的头像 发表于 06-11 09:56 1996次阅读

    RISC-V架构下的编译器自动向量化

    进迭时空专注于研发基于RISC-V的高性能新AICPU,对于充分发挥CPU核的性能而言,编译器是不可或缺的一环,而在AI时代,毫无疑问向量算力将发挥越来越重要的作用。进迭时空非常重视RISC-V
    的头像 发表于 06-06 16:59 1436次阅读
    RISC-V<b class='flag-5'>架构</b>下的<b class='flag-5'>编译器</b>自动向量化

    RVCT编译器是否比GNU的编译器的代码执行速度更快?

    使用FX3S遇到了RVCT编译器的问题。 1、在SDK的release note中有支持RVCT的描述, 但是在EZ USB Suite的设置中没有找到RVCT的选项, 请问支持的具体版本
    发表于 05-08 07:49