0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于STM32浮点运算单元FPU的应用示例

茶话MCU 来源:ST MCU 信息交流 作者:ST MCU 信息交流 2021-01-02 18:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

有人利用STM32芯片做些DSP处理,在启用FPU单元进行调试、验证过程中可能会遇到些小问题、小困惑,这里通过STM32F4芯片一个具体的应用示例简单分享下,希望顺便能给同仁提供些帮助或提醒。

我这里通过调用DSP库里的FFT相关函数实现1024点的FFT运算,样点数据及运算结果均为浮点数。

cf4aaab0-445e-11eb-8b86-12bb97331649.png

上图中A区代码是做样点数据准备,B区代码完成FFT运算。我们来一起看看基本的配置以及不启用硬件浮点单元和启用硬件浮点单元执行B区代码的时间上的差别。

程序里要调用一些数学函数,而这些数学函数往往集成在相应的数学函数库里。我们选用ARM公司的DSP数学库,该库系专门针对AMR核芯片及指令系统而组织的代码,相比IDE自带的通用数学函数库会更优化、高效。

目前该DSP数学库包括基本数学函数、复数数学函数、滤波函数、矩阵函数等几大块,详细内容可以去ARM网站阅读比较方便。【可点击左下方原文链接前往】

cfc025ce-445e-11eb-8b86-12bb97331649.png

我们开发时,这些文件具体在哪里呢?在各个编译环境的安装目录下都不难找到。不妨看看ARM keil MDK环境下它们所在位置。

d00fcdb8-445e-11eb-8b86-12bb97331649.png

上面我们看到的是DSP库源文件所在目录,在另一个目录存放着基于不同内核、不同存储端格式以及是否支持硬件浮点单元而编译出来的库文件。我们在开发时,直接添加合适的库文件进工程即可,不必逐个查找源文件来添加。下图就是可以用于ARM MDK环境的库文件。【对于不同IDE,库文件名后缀略有差异】

d0591e1e-445e-11eb-8b86-12bb97331649.png

这里以用于M4内核的DSP数学函数库稍作解释,详见下面表格。

d0c45cc4-445e-11eb-8b86-12bb97331649.png

从上表可以看出,基于Cortex M4内核芯片进行DSP运算可以能用到的库有四个,但具体到STM32 基于M4内核的芯片可以选用的只有两个,即xxxM4l_math.lib或xxxM4lf_math.lib,因为STM32芯片的存储设计都是小端模式。所谓小端模式,简单点说就是指多字节数据在内存中存储时,按照低位字节对应地址低位来存放,反之则为大端模式。

在上面截图中,我还截取了对应M0内核可用的DSP数学库,它为什么只有两个?这是因为M0内核没有FPU硬件单元,不存在FPU是否启用的可选情况。

现在就利用STM32F429开发板,基于开篇的截图代码进行测试,并用定时器测量下面执行代码在不使用FPU和使用FPU分别所花费的时间,并计算二者的时间比。【注:STM32F429芯片自身是带硬件FPU的】

d10e74ee-445e-11eb-8b86-12bb97331649.png

必要的配置和文件包含及添加,如下表所示:

d149fb18-445e-11eb-8b86-12bb97331649.png

基于上面条件执行FFT运算代码,不使用FPU和使用FPU的时间比为16。

采用相似的条件,基于IAR环境对相同功能代码段进行测试,不使用FPU和使用FPU的时间比为11。

关于这个时间比,除了跟是否使用微库、优化等级、浮点精度等有关外,跟你所选取的测试代码也有很大关系,因为有些代码只能靠CPU执行的话,开不开FPU硬件单元对这部分时间是没有影响的。不难理解,被测试代码里只能靠CPU运行的代码占比越多,上面的这个比值就会越小。一般来说,我们不必太过纠结这个值的大小,知道有这个硬件浮点单元,既减轻了CPU负荷,又可以提升计算速度就好。

另外,我们在做DSP相关应用时,注意添加的DSP库既要跟所用芯片匹配,还要跟IDE里的配置匹配。还是以上面测试代码为例,本意是想启用FPU,结果添加的DSP库却是基于不使用FPU硬件的数学库,那会怎么样呢?

d199418c-445e-11eb-8b86-12bb97331649.png

本应该添加arm_cortexM4lf_math.h的,结果弄错了。如果按照上面条件构建ARM MDK工程,一路编译下来没有任何警告或错误提示。程序也能流畅运行,FFT运算结果似乎也出来了。

d1fd51ae-445e-11eb-8b86-12bb97331649.png

但仔细查看结果,跟之前正确配置的运行结果明显不一样。经验证核对,这次运算结果是错的。为此我特意添加一行计算90°的正弦值代码,它算出来结果竟然是1.5!逆天了。

d236a81e-445e-11eb-8b86-12bb97331649.png

如果说在不知情的情况下这一路下来,估计要被摧残一顿了。毕竟很多数学函数结果常人是无法一眼能看出对错的,即使看出错了若没未及时想到库问题的话,恐怕还得折腾折腾。

针对这种情形,基于同样代码于IAR环境下测试,情况相比ARM MDK貌似要好点。至少编译时有警告提示,提示引用冲突之类的。计算结果没有MDK的那么具有隐蔽性【至少对于本次测试是这样】,基本是清一色的0,颇有冲击效果!当然,此时让它计算90°的正弦值结果也是明显错的。

d2617c24-445e-11eb-8b86-12bb97331649.png

感觉上,这种情形下,使用IAR时挖的坑似乎稍微浅些,更容易让人警醒怀疑哪里出问题了。

好,就分享到这里,祝君好运!

原文标题:关于STM32浮点运算单元FPU的小话题

文章出处:【微信公众号:ST MCU 信息交流】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53530

    浏览量

    458856
  • STM32
    +关注

    关注

    2305

    文章

    11120

    浏览量

    371054
  • FPU
    FPU
    +关注

    关注

    0

    文章

    46

    浏览量

    22713

原文标题:关于STM32浮点运算单元FPU的小话题

文章出处:【微信号:stmcu832,微信公众号:茶话MCU】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何使用 ARM FPU 加速浮点计算?

    FPU的魅力FPU(Floating Point Unit,浮点单元)是ARM内核中的硬件外设,用于硬件计算浮点数,要想使用
    发表于 11-19 06:51

    为什么FPU在MCU中很重要呢?

    性能飞跃: 这是最主要的原因。与软件模拟相比,FPU 执行浮点运算的速度可以快几十倍甚至上百倍。 单周期操作: 许多基本的浮点运算(如加、乘
    发表于 11-18 07:05

    请问如何在E203开发板上下载运行带有浮点操作的程序?

    了解到E203没有配备FPU单元,想问下能不能把有浮点操作的程序下载到板子上运行呢,比如使用软浮点
    发表于 11-07 06:43

    E203添加浮点数方法:译码和派遣模块设计

    单元给出的写寄存器相关信息后,就能判断出是否需要写寄存器,需要的话是写整数通用寄存器还是浮点数通用寄存器; (3)dispatch 模块通过disp_i_fpu,disp_i_fpu
    发表于 10-24 13:54

    E203添加浮点数方法:FPU控制逻辑

    。 2. FPU 设计 要实现整一个 FPU 及其控制单元,首先要确定指令周期,以及浮点运算的方式。 由于笔者首次使用 Verilog 设计
    发表于 10-24 13:28

    蜂鸟E203的浮点指令集拓展(F拓展)

    关于蜂鸟E203的浮点指令集拓展(F拓展) Whetstone中有很多浮点运算,而蜂鸟e203中没有硬件支持,是通过将浮点数转化成整型数
    发表于 10-24 11:51

    FPNew开源浮点运算单元工程建立

    在添加浮点运算单元时,可以引用开源的浮点运算器以简化所需工作任务压力。在此我们采用了FPnew这个开源工程,再次介绍一些如何将其导成viva
    发表于 10-24 11:08

    浮点数是如何实现开平方运算

    摘要: 本文主要描述浮点数是如何实现开平方运算的。 简介 事实上,浮点数的开平方运算结构与定点数甚至整数的开平方运算结构是十分相似的,我
    发表于 10-24 08:42

    用于RISCV的F指令集实现的浮点计算单元FPU)设计方案

    实现功能 为了完成F拓展,我们计划在ALU内添加一个专用于计算单精度浮点数的FPU单元。 2.1 实现riscv的F指令集拓展 即需要实现26条F指令: 以下部分指令返回地址是给整数寄存器,红色
    发表于 10-24 07:43

    浮点运算单元的实现——浮点指令内联汇编(一)

    代码实现 在硬件实现FPU后,可通过内联汇编的方式,指定浮点指令对其进行测试,以下罗列出相关测试代码。 //fmadds_test __STATIC_FORCEINLINE float
    发表于 10-23 06:51

    浮点运算单元的实现——浮点指令内联汇编(二)

    代码实现 在硬件实现FPU后,可通过内联汇编的方式,指定浮点指令对其进行测试,以下罗列出相关测试代码。如有错误,欢迎大家评论指出。 //feqs_test
    发表于 10-23 06:17

    浮点运算单元的设计和优化

    浮点运算单元的设计和优化可以从以下几个方面入手: 1.浮点寄存器设计:为了实现浮点运算指令子集(
    发表于 10-22 07:04

    使用Simulink自动生成浮点运算HDL代码(Part 1)

    单元。 Unpack和Pack模块块将浮点类型转换为符号、指数和尾数。图中S、E、M分别代表符号、指数、尾数。这是基于IEEE-754浮点运算标准。
    发表于 10-22 06:48

    risc-v中浮点运算单元的使用及其设计考虑

    RISC-V浮点运算单元(floating-point unit,简称FPU)是一种专门用于执行浮点运算
    发表于 10-21 14:46

    FCP32C335——对标TI TMS320F28335的高性能DSP芯片,赋能工业控制与智能设备!

    FCP32C335以TMS320F28335为标杆,搭载150MHz主频的32位浮点处理单元FPU),支持单周期32×32位乘法运算,单精度浮点
    的头像 发表于 03-07 10:45 1277次阅读
    FCP32C335——对标TI TMS320F28335的高性能DSP芯片,赋能工业控制与智能设备!