0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

glibc内存管理存在的共性问题及解决方法

Linux阅码场 来源:Linux阅码场 作者:刘冬云 2021-06-18 14:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言

对于嵌入式设备来说,用户态内存管理是一项基础功能,目前主流的用户态内存管理库有glibc、uclibc、tcmalloc、jemalloc等。

本文基于glibc2.17版本进行分析,围绕glibc内存分配原理、内存站岗问题形成原因展开讨论,并对glibc缓存大量内存(高达几十个 G甚至上百 G)且不释放的问题给出一种解决方案。

笔者遇到的问题是基于glibc进行内存管理的64 位Linux系统。具体现象如下:设备32G物理内存,在大规格打流情况下,某用户进程占用的物理内存暴涨至20G左右。

在停止打流后,观察到业务模块已经释放了绝大部分内存,但是进程占用的物理内存依然达到16G左右,此后内存状况一直维持该状态,导致系统内存紧张,若叠加上其他业务则出现了OOM的现象,已排除该进程内存泄露的可能性。

1

Glibc内存分配基本原理

Glibc使用了ptmalloc的内存管理方式,本文在描述时均使用glibc来称呼。Glibc申请内存时是从分配区申请的,分为主分配区和非主分配区,分配区都有锁,在分配内存前需要先获取锁,然后再去申请内存。

一般进程都是多线程的,当多个线程同时需要申请内存时,如果只有一个分配区,那么效率太低。

glibc为了支持多线程的内存申请释放,会在多个线程同时需要申请内存时根据cpu核数分配一定数量的分配区,将分配区分配给线程。如果线程数量较多,则会出现多个线程争用一个分配区的的情况,这里不展开。

内存申请基本原理:当用户调用malloc申请内存时,glibc会查看是否已经缓存了内存,如果有缓存则会优先使用缓存内存,返回一块符合用户请求大小的内存块。

如果没有缓存或者缓存不足则会去向操作系统申请内存(可通过brk、mmap申请内存),然后切一块内存给用户。

内存释放基本原理:当业务模块使用完毕后调用free释放内存时,glibc会检查该内存块虚拟地址上下内存块的使用状态(fast bin除外)。若其上一块内存空闲,则与上一块内存进行合并。若下一块内存空闲,则与下一块内存进行合并。如图2所示。

若下一块内存时top chunk(top chunk一直是空闲的),则看top chunk的大小是否超过一个阈值,如果超过一个阈值则将其释放给OS。

2

Glibc内存站岗及其原因

内存站岗概念:

内存站岗指的是glibc从OS申请到内存后分配给业务模块,业务模块使用完毕后释放了内存,但是glibc没有将这些空闲内存释放给OS,也就是缓存了很多空闲内存无法归还给系统的现象。

内存站岗原因:

glibc设计时就确定其内存是用于短生命周期的,因此在设计上内存释放给OS的时机是当top chunk的大小超过一个阈值时会释放top chunk的一部分内存给OS。当top chunk不超过阈值就不会释放内存给OS。

那么问题来了,若与top chunk相邻的内存块一直在使用中,那么top chunk就永远也不会超过阈值,即便业务模块释放了大量内存,达到几十个G 或者上百个G,glibc也是无法将内存还给OS的。

对于glibc来说,其有主分配和非主分配区的概念。主分配通过sbrk来增加分配区的内存大小,而非主分配区则是通过一个或多个mmap出来的内存块用链表链接起来模拟主分配区的。为了更清晰的解释内存站岗,下面举个例子来说明主分配区的内存站岗。

如上有(a) (c) (e) (g)内存块正在使用,故而导致了空闲内存(b) (d) (f)无法和top chunk连成一块更大的空闲内存块,glibc的阈值(64位系统默认是128K),尽管目前空闲内存有将近130M,也无法还给OS。

接下来看非主分配区的内存站岗,实际的非主分配区可能有很多个heap,这里假设只有4个heap。

在定位过程中,笔者与同事讨论过多次如何解决站岗。在一次讨论过程中由邓竑杰提出降低heap的size(类似于tcmalloc的做法),虽然实测后发现完全没有效果,但是为后续解决问题起到了启示作用。

后面笔者在走读代码时发现这是glibc原生机制,同时笔者在查看内存布局时观察到非主分配区大量heap均为free状态。原有机制是先释放heap3,如果heap3有内存在使用,尽管heap0、heap1、heap2的内存都释放了,那也是无法释放给系统。

glibc有多个分配区,每个分配区都几百 M 空闲内存的话,则整个进程占用达到几十个G也就不奇怪了。

3

Glibc内存站岗解决方法及patch

在内存释放时,对于主分配区和非主分配其走的流程是不一样的,我们64位系统的进程内存模型为经典模式,栈是从高地址向低地址生长的。

对于主分配区的内存站岗我还没有遇到过,若主分配区内存站岗,一种方法是可以尝试madvise将主分配区的pagesize对齐的空闲内存进行释放,但是这样效果可能不太明显。

另外一种是通过创建线程,然后将主线程的业务移到新线程即可,这样主分配区就不会造成站岗了,而将站岗转移到了非主配区,而非主分配区则是我们接下来要进行优化的主战场。

针对非主分配区进行两处优化:a) heap0,heap1,heap2是空闲的,那么我们就可以将heap1,heap2释放掉;b) heap默认是64M,降低每个heap的size(笔者测试时设置为512K)。

这里需要特别解释一下为什么不释放heap0和最后一个heap3,heap0的组成如图7所示。图左边是第一个heap即heap0,图右边是最后一个heap即heap3。

从图中可以清晰的看到如若释放掉heap0那么会将struct malloc_state结构体释放,会造成进程崩溃。右边这个由于有在用的内存,也不能释放掉。当然如果heap3的内存全部被释放了,则由glibc原生代码进行了处理,patch不再处理。

经过修改glibc源码,优化其释放机制,实际打流测试。

在打流到峰值后,进程使用了20G的内存,在停止打流后数秒内便恢复到了打流前的内存水平,进程所占用的内存基本还给系统了。至此,glibc内存站岗问题得到解决。

以上我们介绍了如何解决内存站岗的原理,纸上得来终觉浅,现在我们看patch源码实现。

目前笔者已经将该优化的patch提交到开源社区审核,提交到社区的patch未对heap的size进行修改,这是因为想要谨慎一些,毕竟开源的代码使用场景较多,如有需要可自行决定heap的size。

Patch基于glibc2.17代码

1. Index: arena.c2. ===================================================================3. --- arena.c (revision 2)4. +++ arena.c (working copy)5. @@ -652,7 +652,7 @@6.7. static int8. internal_function9. -heap_trim(heap_info *heap, size_t pad)10. +heap_trim(heap_info *heap, heap_info* free_heap, size_t pad)11. {12. mstate ar_ptr = heap-》ar_ptr;13. unsigned long pagesz = GLRO(dl_pagesize);14. @@ -659,7 +659,29 @@15. mchunkptr top_chunk = top(ar_ptr), p, bck, fwd;16. heap_info *prev_heap;17. long new_size, top_size, extra, prev_size, misalign;18. + heap_info *last_heap;19.20. + /*Release heap if possible*/21. + last_heap = heap_for_ptr(top_chunk);22. + if ((NULL != free_heap-》prev) && (last_heap != free_heap)){23. + p = chunk_at_offset(free_heap, sizeof(*free_heap));24. + if (!inuse(p)){25. + if (chunksize(p)+sizeof(*free_heap)+MINSIZE==free_heap-》size){26. + while (last_heap){27. + if (last_heap-》prev == free_heap){28. + last_heap-》prev == free_heap-》prev;29. + break;30. + }31. + last_heap = last_heap-》prev;32. + }33. + ar_ptr-》system_mem -= free_heap-》size;34. + arena_mem -= free_heap-》size;35. + unlink(p, bck, fwd);36. + delete_heap(free_heap);37. + return 1;38. + }39. + }40. + }41. /* Can this heap go away completely? */42. while(top_chunk == chunk_at_offset(heap, sizeof(*heap))) {43. prev_heap = heap-》prev;44. Index: malloc.c45. ===================================================================46. --- malloc.c (revision 2)47. +++ malloc.c (working copy)48. @@ -915,7 +915,7 @@49. # if __WORDSIZE == 3250. # define DEFAULT_MMAP_THRESHOLD_MAX (512 * 1024)51. # else52. -# define DEFAULT_MMAP_THRESHOLD_MAX (4 * 1024 * 1024 * sizeof(long))53. +# define DEFAULT_MMAP_THRESHOLD_MAX (256 * 1024)54. # endif55. #endif56.57. @@ -3984,7 +3984,7 @@58. heap_info *heap = heap_for_ptr(top(av));59.60. assert(heap-》ar_ptr == av);61. - heap_trim(heap, mp_.top_pad);62. + heap_trim(heap, heap_for_ptr(p), mp_.top_pad);63. }64. }

4

结束语

不同的内存管理方式均有其优势和缺陷,由于工作需要,笔者有幸研究过glibc、tcmalloc、uclibc内存管理,本文讨论了glibc内存管理存在的一个共性问题,并给出可行的解决方案。

对于内存站岗问题,一般的做法是用户自己缓存一些长时间不释放的内存。另一种是干脆将glibc替换为tcmalloc。因为 tcmalloc 的 span比较小,所以站岗发生的概率极低,即便发生也就站岗一个span的大小。若由于某些原因不能用tcmalloc代替glibc的场景,如上的解决思路可以尝试一下,该问题也困扰我们多时了,花费了较长时间和较多精力去定位。

在glibc2.28的版本中,glibc有了tcache的特性,对于业务进程使用大量小内存的场景则更加容易出现内存站岗问题。在撰写本文时查看了glibc2.33版本,开源社区还未对该问题进行修改(或许是开源社区大神认为这不是glibc的问题,而是用户不释放内存)。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux
    +关注

    关注

    88

    文章

    11814

    浏览量

    219527
  • 代码
    +关注

    关注

    30

    文章

    4976

    浏览量

    74370
  • Glibc
    +关注

    关注

    0

    文章

    9

    浏览量

    7753

原文标题:Linux glibc 内存站岗问题及解决方法

文章出处:【微信号:LinuxDev,微信公众号:Linux阅码场】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    C++ 11 14 17 20内存管理-指针、智能指针和内存池基础与提升

    pan.baidu.com/s/1g64x9D_jp9ufk4uBpQBmvA?pwd=497f  未来 C++ 底层核心:内存管理实战,从指针到内存池全链路进阶 站在2026年的技术潮头,当AI
    的头像 发表于 04-20 15:51 510次阅读

    在 4GB 型号上检测到的内存大小错误为 8GB,怎么解决?

    - 看起来内存检测有问题 - 至少如果其他人也是如此。所有这一切都是完整的 69 图像。 在 /boot/boot/extlinux/extlinux.conf 中添加 mem=4000M 是一种解决方法,可避免在系统尝试访问内存
    发表于 03-24 06:17

    如何升级 GLIBC 以避免错误“找不到 GLIBC_2.34”?

    我从其他RISCV64系统复制了一些动态链接的二进制文件。 不幸的是,尝试执行它们会显示以下错误: /lib/riscv64-linux-gnu/libc.so.6:未找到版本“GLIBC
    发表于 03-19 06:16

    MAX1917:DDR内存电源管理的理想选择

    MAX1917:DDR内存电源管理的理想选择 在电子设备的设计中,电源管理是至关重要的一环。特别是对于DDR内存等对电源要求较高的组件,需要一个高效、稳定的电源解决方案。今天,我们就来
    的头像 发表于 03-17 17:15 427次阅读

    C编译器错误与解决方法

    C语言keil编译器提示错误的解决方法,可以帮你解决程序编译中的烦恼!! C编译器错误与解决方法 1. Warning 280:’i’:unreferenced local variable
    发表于 01-22 08:03

    ODF配线架常见故障及解决方法

    ODF配线架常见故障及解决方法如下: 一、接地故障 故障表现: 防雷性能下降,静电积累,甚至引发设备损坏。 光信号传输不稳定,出现误码或中断。 常见原因: 接地端子氧化、松动或接触不良。 接地线
    的头像 发表于 01-05 10:43 599次阅读

    请问C语言中整形溢出的解决方法有哪些?

    C语言中整形溢出的解决方法有哪些?
    发表于 12-29 07:33

    rk基于linux/android内存管理

    一、内存分布   U-Boot 由前级 Loader 加载到 CONFIG_SYS_TEXT_BASE 地址,初始化时会探明当前系统的总内存容 量, 32 位平台上认为最大 4GB 可用(但是不影响
    的头像 发表于 12-15 10:42 289次阅读
    rk基于linux/android<b class='flag-5'>内存</b><b class='flag-5'>管理</b>

    MCU调试典型问题与解决方法

    ;CFSR(故障状态寄存器)、SCB->HFSR、SCB->MMFAR(内存管理地址)。 使用ARM Cortex-M的故障诊断库(如CmBacktrace)自动定位崩溃代码行。
    发表于 11-17 07:57

    Vivado仿真之后没有出现仿真结果的解决方法

    ;Run Behavioral Simulation之后,会出现如下图界面,此时,在Tcl Console中并没有出现仿真结果。 没有出现仿真结果的原因是没有给Vivado时间进行仿真,解决方法
    发表于 10-31 06:24

    程序加载过程中遇到的问题及其解决方法

    /quick_start/ide.html。 (1)遇到的问题1:在创建好项目后,运行配置设置为ILM,可以编译成功;当修改运行配置为Flash后,编译失败;重启软件,仍会遇到类似问题。 解决方法
    发表于 10-30 07:59

    LVDS接口的显示屏,显示偏暗问题的解决方法

    问题:点亮屏幕后画面显示偏暗 可能原因: 主板输出的LVDS 模式与屏幕的不一致; PWM亮度并未调节到最亮; 解决方法 检查主板的LVDS输出模式是否和屏幕一致; 一般主板端的LVDS模式是可以配置的,配置成与屏幕相同的模式即可; 检查PWM亮度调节是否正常?或者直接给高电平测试;
    发表于 10-09 15:55

    国产主板无法开机的状况及解决方法

    在计算机的硬件系统中,主板作为连接各个组件的关键枢纽,其稳定运行至关重要。随着国产主板技术的不断发展与普及,了解其常见故障及解决方法,能帮助用户在遇到问题时快速排查修复,保障计算机正常使用。
    的头像 发表于 07-02 09:33 1536次阅读
    国产主板无法开机的状况及<b class='flag-5'>解决方法</b>

    电机常见的噪音、振动问题及解决方法

    ,甚至引发安全隐患。本文将系统分析电机常见的噪音和振动问题,并提供切实可行的解决方法。   一、电机噪音问题及解决方法 电机噪音主要来源于电磁噪音、机械噪音和空气动力噪音三个方面。 1. 电磁噪音 电磁噪音是由于电机内部
    的头像 发表于 06-08 10:25 4361次阅读

    电机常见故障分析及解决方法

    电机在运行过程中可能会出现多种故障,以下是一些常见故障的分析及解决方法: 一、机械故障 1. 轴承损坏或磨损    ● 故障表现:电机运转不平稳,产生异响,严重时甚至停转。    ● 原因分析:通常
    的头像 发表于 04-25 15:20 6406次阅读
    电机常见故障分析及<b class='flag-5'>解决方法</b>