0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谈一谈Linux让实时任务独占CPU的事

Linux阅码场 来源:Linuxer 作者:Linuxer 2021-02-20 17:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文主要讨论在高实时要求、高效能计算、DPDK等领域,Linux如何让某一个线程排他性独占CPU;独占CPU涉及的线程、中断隔离原理;以及如何在排他性独占的情况下,甚至让系统的timer tick也不打断独占任务,从而实现最低的延迟抖动。

本文目录:

1. 工程需求

2. 用户态隔离

3. 内核态隔离

3.1 中断

3.2 内核线程

4. 最佳实践指南

Part 1

工程需求

在一个SMP或者NUMA系统中,CPU的数量大于1。在工程中,我们有时候有一种需求,就是让某个能够独占CPU,这个CPU什么都不做,就只做指定的任务,从而获得低延迟、高实时的好处。

比如在DPDK中,通过设置

GRUB_CMDLINE_LINUX_DEFAULT=“isolcpus=0-3,5,7”

隔离CPU0,3,5,7,让DPDK的任务在运行的时候,其他任务不会和DPDK的任务进行上下文切换,从而保证网络性能最佳[1]。在Realtime应用场景中,通过isolcpus=2隔离CPU2,然后把实时应用通过taskset绑定到隔离的核:

taskset-c 2 pn_dev

从而保证低延迟要求[2]。

Part 2

用户态隔离

这个地方,我们可以看出,它们统一都使用了isolcpus这样一个启动参数。

实践是检验真理的唯一标准,下面我们来启动一个8核的ARM64系统,运行Ubuntu,并指定isolcpus=2这个启动参数:

3724778a-71ad-11eb-8b86-12bb97331649.png

系统启动后,我们运行下面简单的程序(启动8个进程运行while死循环):

375f64ee-71ad-11eb-8b86-12bb97331649.png

我们是8核的,现在又是运行8个进程,所以理论上来讲,负载均衡后,8个进程应该均分地运行在8个核上面,但是我们来看看实际的htop结果:

37807ec2-71ad-11eb-8b86-12bb97331649.png

我们发现3(也就是CPU2)上面的CPU占用率是0.0%。这实证了CPU2已经被隔离,用户空间的进程不能在它上面跑。

当然,这个时候,我们可以通过taskset,强行把其中的一个a.out,绑定到CPU2上面去:

37cd7dd0-71ad-11eb-8b86-12bb97331649.png

从上面命令的结果看出,663原本的affinity list只有0,1,3-7是没有2的,而我们强行把它设置为了2,之后再看htop,CPU2上面占用100%:

380fa0f2-71ad-11eb-8b86-12bb97331649.png

通过上面的实验,我们明显可以看出isolcpus=2使得CPU2上无法再运行用户空间的进程了(除非手动设置affinity)。

Part 3

内核态隔离

中断

但是,能在CPU2上面运行的,不是只有用户态的任务,还可以有内核线程、中断等,那么isolcpus=能否隔离内核线程和中断呢?

对于中断,我们特别容易查看,就是实际去验证每个IRQ的smp_affinity就好了:

3841b6c8-71ad-11eb-8b86-12bb97331649.png

从上图明显可以看出,对于44、47号这种外设的中断,Linux内核把smp_affinity设置为了FB(11111011),明显避开了CPU2,所以,实际外设中断也不会在CPU2发生,除非我们强行给中断绑核,比如让44号中断绑定到CPU2:

echo 2 》/proc/irq/44/smp_affinity_list

之后,我们发现44号中断在CPU2可以发生:

386bdfca-71ad-11eb-8b86-12bb97331649.png

但是,系统的timer中断、IPI,由于是Linux系统的运行基石,实际还是要在CPU2上面运行的。这里面最可能给任务带来延迟抖动的,自然是timer tick。

下面我们重点探讨下tick的问题,由于Linux一般情况下,已经配置IDLE状态的NO_HZ tickless,所以CPU2上面什么都不跑的时候,实际timer中断几乎不发生。

下面,我们还是在isolcpus=2的情况下,运行前面那个8个进程的a.out,默认情况下没有任务会占用CPU2。通过先后运行几次cat /proc/interrupts | head 2,我们会看到其他core的timer中断频繁发生,而CPU2几乎不变,这显然是IDLE时候的NO_HZ在发挥省电的作用:

388fdf92-71ad-11eb-8b86-12bb97331649.png

但是,一旦我们放任务到CPU2,哪怕只是放1个,就会发现CPU2上面的timer中断开始增加:

38b28a6a-71ad-11eb-8b86-12bb97331649.png

这说明一点,哪怕隔离的CPU上面只有一个线程去跑,timer tick就会开始跑,当然,这个timer tick也会频繁打断这一个线程,从而造成大量的上下文切换。你肯定会觉得Linux怎么这么傻,既然只有一个人,那也没有时间片分片的必要,不需要在2个或者多个任务进行时间片划分地调度,为啥还要跑tick?其实原因是我们的内核默认只是使能了IDLE的NO_HZ:

390e92c4-71ad-11eb-8b86-12bb97331649.png

我们来重新编译一个内核,使能NO_HZ_FULL:

39338926-71ad-11eb-8b86-12bb97331649.png

当我们使能了NO_HZ_FULL后,Linux支持在CPU上仅有1个任务的时候,是可以NO_HZ的。但是有2个就傻眼了,所以这个“FULL”也不是真地FULL[3]。这当然也可以理解,因为有2个就涉及到时间片调度的问题。什么时候应该使能NO_HZ_FULL,内核文档Documentation/timers/no_hz.rst有明确地“指示”,只有在实时和HPC等的场景,才需要,否则默认的NO_HZ_IDLE是你最好的选择:

3959e594-71ad-11eb-8b86-12bb97331649.png

我们重新编译了内核,选中了NO_HZ_FULL,下面启动Linux,注意启动的时候参数添加nohz_full=2,让CPU2支持NO_HZ_FULL:

3a7d168a-71ad-11eb-8b86-12bb97331649.png

重新运行CPU2只有一个任务的场景,看看它的timer中断发生情况:

3abb29a2-71ad-11eb-8b86-12bb97331649.png

发现CPU2上面的tick稳定在188上面,这样相信你会更加开心,因为你独占地更加彻底了!

下面,我们再放一个task进去CPU2,有2个任务的情况下,CPU2上面的timer tick开始增加:

3aed457c-71ad-11eb-8b86-12bb97331649.png

不过,这或许不是个问题,因为我们说好了“独占”,1个任务独占的时候,timer tick不来打扰,应该已经是非常理想的情况了!

内核态线程

内核态的线程其实和用户态差不多,当它们没有绑定到隔离的CPU的时候,是不会跑到隔离CPU运行的。下面用笔者在内核里面添加的dma_map_benchmark来做实验[4],开启16个内核线程来进行DMA map和unmap(注意我们只有8个核):

。/dma_map_benchmark -s 120 -t 16

我们看到CPU2上面的CPU占用也是0:

3b193696-71ad-11eb-8b86-12bb97331649.png

内核里面的dma_map_benchmark线程在狂占CPU0-1, 3-7,但是就是不去占CPU2:

3b3b2788-71ad-11eb-8b86-12bb97331649.png

但是,内核线程如果用kthread_bind_mask()类似API把线程绑定到了隔离的CPU,则情况就不一样了,这就类似用taskset把用户态的任务绑定到CPU一样。

Part 4

最佳实践指南

对于实时性要求高、高性能计算等场景,如果要让某个任务独占CPU,最理想的选择是:

1. 采用isolcpus隔离CPU

2. 将指定任务绑定到隔离CPU

3. 小心意外地把中断、内核线程绑定到了隔离CPU,排查到这些“意外”分子

4. 使能NO_HZ_FULL,则效果更佳,因为连timer tick中断也不打扰你了。

原文标题:宋宝华:谈一谈Linux让实时/高性能任务独占CPU的事

文章出处:【微信公众号:Linuxer】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222944
  • Linux
    +关注

    关注

    88

    文章

    11628

    浏览量

    217973

原文标题:宋宝华:谈一谈Linux让实时/高性能任务独占CPU的事

文章出处:【微信号:LinuxDev,微信公众号:Linux阅码场】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Linux-RT特点及简单应用

    以及使用适当的API来创建和管理任务。以下是在Linux-RT上创建和管理实时任务般步骤: 选择合适的调度策略:Linux-RT内核支持
    发表于 12-05 07:37

    技术分享 | RK3588增加Xenomai3实时补丁

    Xenomai是套为嵌入式系统设计的实时开发框架,通过“双内核”架构,Linux既能处理复杂的通用任务,又能可靠地完成那些对响应时间有极
    的头像 发表于 11-27 17:29 1089次阅读
    技术分享 | RK3588增加Xenomai3<b class='flag-5'>实时</b>补丁

    【飞凌OK-T153 开发板试用】实时性测试

    中断发生到进入中断处理程序ISR的延时 调度延时(scheduling latency),即当任务被唤醒到任务真正获得CPU使用权中间的延时 cyclictest创建的任务均是
    发表于 11-22 05:29

    嵌入式实时操作系统的特点

    任务的系统。 实时嵌入式操作系统与传统的桌面操作系统相比,更注重对实时任务的响应和精确控制。它们在资源利用、可靠性、可预测性、任务调度和中断处理等方面提供了更加严格的要求和机制。
    发表于 11-13 06:30

    从微秒级响应到确定性延迟:深入解析米尔全志T536核心板的实时性技术突破

    ,通过CPU隔离技术将特定核心专用于实时任务,减少系统干扰。 优势:无需修改内核,配置相对简单。 挑战:隔离不彻底,Linux内核活动仍可能影响实时任务,最坏情况延迟改善有限。 2.3
    发表于 10-22 17:25

    深入解析米尔全志T536核心板的实时性技术突破

    CPU隔离技术将特定核心专用于实时任务,减少系统干扰。优势:无需修改内核,配置相对简单。挑战:隔离不彻底,Linux内核活动仍可能影响实时任务,最坏情况延迟改善有限。2.3 RT-PR
    发表于 10-17 17:41

    请问rt_kprintf会影响RT-Threat系统的实时性吗?

    有人说频繁调用rt_kprintf可能阻塞实时任务,影响系统响应,是这样吗?
    发表于 09-23 07:06

    Crontab定时任务完全指南

    在凌晨3点,当大多数人还在熟睡时,位运维工程师的手机突然响起——线上数据库备份失败了。他匆忙起床,打开电脑,手动执行备份脚本,整个过程耗时2小时。这样的场景,在我刚入行时经常遇到。直到我真正掌握了crontab定时任务,才彻底摆脱了"人肉运维"的窘境。
    的头像 发表于 09-05 10:03 592次阅读

    文读懂:嵌入式Linux实时性进阶

    能够在限定的时间内对外部时间做出相应的特性。 Linux可以通过任务调度与相应时间,中断延迟与抢占延迟,内核可抢占性与实时补丁,实时调度策略,硬件支持来提高其
    发表于 07-10 15:26

    linux服务器挖矿病毒处理方案

    情况说明:挖矿进程被隐藏(CPU占用50%,htop/top却看不到异常进程),结束挖矿进程后马上又会运行起来(crontab -l查看发现没有定时任务)。
    的头像 发表于 04-09 10:33 945次阅读
    <b class='flag-5'>linux</b>服务器挖矿病毒处理方案

    【第四章 定时任务】手把手教你玩转新版正点原子云

    【第四章 定时任务】手把手教你玩转新版正点原子云 承接上篇,除了报警联动这个功能,原子云还有个特色功能也是各开发者喜欢用的,定时任务功能。 【正点原子】云平台:原子云(点击登录原子云) 前言
    发表于 03-13 10:19

    鸿道Intewell操作系统为半导体行业打造高可靠实时控制系统

    。在半导体制造中,Windows/Linux系统可用于运行人机界面(HMI)、数据处理和可视化等非实时任务,而鸿道Intewell实时系统则专注于设备的精确控制、运动控制和实时数据采集
    的头像 发表于 02-08 16:13 786次阅读
    鸿道Intewell操作系统为半导体行业打造高可靠<b class='flag-5'>实时</b>控制系统

    Linux计划任务cron详解

    cron是linux下用来周期性的执行某种任务或等待处理某些事件的个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务 工具,并且会自动启动crond
    的头像 发表于 02-07 15:31 1528次阅读
    <b class='flag-5'>Linux</b>计划<b class='flag-5'>任务</b>cron详解

    微秒级实时在无人机控制中的重要性

    控制系统尤为关键。本文将深入探讨这特性及其如何支持无人机控制。 在实时系统中,任务通常分为两类:硬实时任务和软实时任务。硬
    的头像 发表于 01-17 14:46 653次阅读

    望获实时Linux系统与Betaflight的结合:计算与飞控的完美协作

    Linux系统实现高级计算任务,同时通过Betaflight实现无人机的飞控功能。 、望获实时Linux与Betaflight的角色分工
    的头像 发表于 01-10 16:17 1235次阅读