0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Linux Kernel中AEP的现状和发展

Linux阅码场 来源:fqj 2019-05-13 14:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AEP简介

AEP是Intel推出的一种新型的非易失Optane Memory设备,又被称作Apache Pass,所以一般习惯称作AEP。在这之前也有类似的设备称作NVDIMM或PMEM,目前Linux创建的AEP设备节点也是叫做pmem(如/dev/pmem0),所以本文中NVDIMM或PMEM都指AEP。但是本文不是为了科普AEP,如果想了解AEP的一些基本知识,可以参考以下几篇文章:NVDIMM Enabling in SUSE Linux Enterprise Part 1NVDIMM Enabling in SUSE Linux Enterprise Part 2Persistent Memory Wiki

DAX

目前Linux Kernel中主要把PMEM看成一个类似于磁盘的块设备,所以可以在PMEM设备上创建文件系统,使它看起来和一般的磁盘没什么区别。但是设备的具体物理属性完全不一样,比如读写的latency,PMEM可以达到和DRAM接近的程度,磁盘当然是望尘莫及的。所以,这就带来一个问题,众所周知,一般在Linux上常见的文件系统,比如ext4,xfs等,都是给磁盘设计的,都用到了page cache来缓存磁盘上的数据来提高性能。但是,对于PMEM设备来说,它的访问延迟已经和内存接近了,为什么还需要内存中的page cache呢?所以,目前Linux Kernel中对这一块最大的改进就是支持DAX(Direct Access)。一句话解释DAX,就是DAX bypass了page cache。无论读写都是直接操作PMEM上的数据。DAX需要在文件系统层面支持,如果要使用DAX,那么需要在mount文件系统时传入“-o dax”参数,比如:

1/dev/pmem0on/mnttypexfs(rw,relatime,seclabel,attr2,dax,inode64,noquota)

DAX极大地提高了文件系统在PMEM设备上的性能,但是还有一些问题没有解决,比如:1. 文件系统的metadata还是需要使用page cache或buffer cache。2. “-o dax”mount option是对整个文件系统的,不能做更细粒度的控制。3. 没有一个API来告诉应用访问的文件是不是可以DAX访问的。虽然DAX还有这些问题,但是目前DAX还是Linux Kernel中的主流使用方式。

PMEM用作NUMA node

既然PMEM就是memory,只是带宽和latency上差一点,那么自然会想到能不能就把PMEM当做memory用呢?答案当然是可以的。目前支持SRAT或者HMAT的硬件,都可以把PMEM识别为一个或多个NUMA node。Dave Hansen的这组patch,Allow persistent memory to be used like normal RAM,就是通过memory hotplug的方式把PMEM添加到Linux的buddy allocator里面。
新添加的PMEM会以一个或多个NUMA node的形式出现,Linux Kernel就可以分配PMEM上的memory,这样和使用一般DRAM没什么区别。目前看这组patch已经没有什么blocking issues,不出什么问题的话,很快就会合并进入内核主线。但是,到这里只是解决了第一步的问题,怎么把PMEM“用好”的问题还没有解决。比如,当内核分配内存时,如果从PMEM上分配了memory,并且这块内存上的数据是被经常访问的,那么由于物理特性上的差异,一般应>用都会体会到性能的下降。那么怎么更明智的使用PMEM就是一个亟待解决的问题。
吴峰光的一组patch,PMEM NUMA node and hotness accounting/migration,来尝试解决这个问题。这组patch主要提供了下面几个功能:1. 隔离DRAM和PMEM。为PMEM单独构造了一个zonelist,这样一般的内存分配是不会分配到PMEM上的。2. 跟踪内存的冷热。利用内核中已经有的idle page tracking功能(目前主线内核只支持系统全局的tracking),在per process的粒度上跟踪内存的冷热。3. 利用现有的page reclaim,在reclaim时将冷内存迁移到PMEM上(只能迁移匿名页)。4. 利用一个userspace的daemon和idle page tracking,来将热内存(在PMEM上的)迁移到DRAM中。这组patch发到LKML以后,引来了很激烈的讨论。
主要集中在两个方面:
1. 为什么要单独构造一个zonelist把PMEM和DRAM分开?其实在这块,我们也遇到了相似的问题。我们在某些项目要求做到控制每个进程使用的DRAM和PMEM的比例(比如8:2),但是目前的NUMA API做不到。目前的NUMA API只能控制从哪个node分配,但是不能控制比例,>比如mbind(),只能告诉进程这段VMA可以用哪些node,但是不能控制具体多少memory从哪个node来。要想做到更细粒度的控制,需要改造目前的NUMA API。而且目前memory hierarchy越来越复杂,比如device memory,这都是目前的NUMA API所不能很好解决的。
2. 能不能把冷热内存迁移通用化?冷热内存迁移这个方向是没有问题的,问题在于目前patch中的处理太过于PMEM specific了。内核中的NUMA balancing是把“热”内存迁移到最近的NUMA node来提高性能。但是却没有对“冷”内存的处理。所以能不能实现一种更通用的NUMA rebalancing?比如,在reclaim时候,不是直接reclaim内存,而是把内存迁移到一个远端的,或者空闲的,或者低速的NUMA node,类似于NUMA balancing所做的,只不过是往相反的方向。笔者的一组patch,Another Approach to Use PMEM as NUMA Node,就体现了这种思路。利用Kernel中>已经很成熟的memory reclaim路径把“冷”内存迁移到PMEM node中,NUMA Balancing访问到这个page的时候可以选择是否把这个页迁移回DRAM,相当于是一种比较粗粒度的“热”内存识别。
社区中还有一种更加激进的想法就是不区分PMEM和DRAM,在memory reclaim时候只管把“冷”内存迁移到最近的remote node,如果target node也有内存压力,那就在target node上做同样的迁移。但是这种方法有可能引入一个内存迁移“环”,导致内存在NUMA node中间不停地迁移,有可能引入unbounded time问题。而且一旦node增多,可能会迅速恶化问题。
在笔者看来,在内存回收方面还有一个更可能立竿见影的方案就是把PMEM用作swap设备或者swap文件。目前swap的最大问题就是传统磁盘的延迟问题,很容易造成系统无响应,这也是为什么有zswap这样的技术出现。PMEM的低延迟特性完全可以消除swap的延迟问题。在这个方面,我们也正在做一些探索和实验。

PMEM用作RAM(DRAM作为Cache)

这个标题看起来有点歧义,上面已经说了PMEM可以作为NUMA node使用,这不已经是作为RAM了吗?怎么这里还要说用作RAM?这就涉及到AEP的另一个用法了,那就是所谓的“memory mode”。当在memory mode时,DRAM>并不是和PMEM并列的,而是变成了PMEM透明的Cache,PMEM就成了DRAM。这时候PMEM和DRAM的关系就变成了DRAM和Cache的关系。而且,DRAM是一个direct mapped的Cache(这点很重要)。这时疑问就来了,这样不是更没有什么可做的?既不需要管理NUMA,也没有冷热内存的问题了,热的自然就被Cache了。是的,但是这会引入另外一个问题,就是Cache冲突的问题。上面已经提到,在这种情况下,DRAM是一个direct mapped的Cache,就是在同样索引下只有一个cache line命中,这样会带来比较严重的Cache冲突问题,从而降低Cache的命中率,带来性能问题。对于这个问题的详细解释,请参见这篇文章为了解决这个Cache冲突的问题,Dan Williams提出了这组patch,mm: Randomize free memory。这组patch的想法很简单,就是通过randomize free area的方式来降低Cache>冲突。目前这组patch已经合并入-mm tree,不出意外应该会在5.1时合并入内核主线。但是这种配置的问题就是不够灵活,需要在BIOS中配置,一旦配置不可在运行时更改。

NVDIMM专用文件系统

前面提到PMEM可以作为一个块设备部署文件系统,但是现在支持的文件系统,比如ext4,xfs等,在设计时更多的考虑了怎样针对磁盘优化。但是PMEM是性质完全不同的存储介质,虽然经过一些改造,这些传统的文件系统可以比较好的工作在PMEM上,但是还是会有很多不适合PMEM的地方,比如metadata还要经过page cache等。所以,NVDIMM专用文件系统就应用而生了。

NOVA

NOVA Filesystem就是专门为PMEM设计的文件系统。笔者对文件系统研究不深,而且对NOVA也没有很深入的研究,所以就不在这里班门弄斧了。感兴趣的读者可以参考NOVA的github link之前,NOVA曾发到LKML上,但是好像社区里的maintainer们没有时间仔细review一个新的文件系统,所以合入社区的努力暂时停止了,但是还在github上继续开发中。

ZUFS

ZUFS是来自于NetApp的一个项目,ZUFS的意思是Zero-copy User Filesystem。声称是实现了完全的zero-copy,甚至文件系统的metadata都是zero-copy的。ZUFS主要是为了PMEM设计,但是也可以支持传统的磁盘设备,相当于是FUSE的zero-copy版本,是对FUSE的性能的提升。目前作者正在尝试将ZUFS的kernel部分upstream,据他说RHEL已经同意将ZUFS作为一个module加入RHEL 8。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux
    +关注

    关注

    88

    文章

    11628

    浏览量

    217980
  • AEP
    AEP
    +关注

    关注

    0

    文章

    4

    浏览量

    2744

原文标题:Linux Kernel中AEP的现状和发展

文章出处:【微信号:LinuxDev,微信公众号:Linux阅码场】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于安路DR1M90 FPSoC的Linux系统全流程开发指南(4)

    本手册由创龙科技研发,针对安路飞龙 DR1M90,详述 Linux 系统开发流程:LinuxSDK 配置编译、BOOT.bin(FSBL+U-Boot)开发、Kernel 与 Rootfs 开发
    的头像 发表于 11-30 15:46 1743次阅读
    基于安路DR1M90 FPSoC的<b class='flag-5'>Linux</b>系统全流程开发指南(4)

    国际标准在分布式能源并网场景的应用现状发展趋势是怎样的?

    国际标准在分布式能源并网场景的应用现状呈现 技术成熟度高、跨区域渗透加速、多场景融合深化 的特点,而发展趋势则聚焦 标准动态更新、技术跨界融合、国际协同治理 三大方向。以下从应用现状
    的头像 发表于 09-18 17:43 769次阅读
    国际标准在分布式能源并网场景<b class='flag-5'>中</b>的应用<b class='flag-5'>现状</b>和<b class='flag-5'>发展</b>趋势是怎样的?

    中国芯片发展现状和趋势2025

    中国芯片产业正处于关键发展阶段,在政策支持与外部压力双重驱动下,正在加速构建自主可控的半导体产业链。以下是现状分析与趋势展望: 一、发展现状 (一)全产业链布局初具规模 设计领域 华为海思(5G基带
    的头像 发表于 08-12 11:50 3.6w次阅读
    中国芯片<b class='flag-5'>发展现状</b>和趋势2025

    【HZ-RK3568开发板免费体验】3、开启Linux Kernel RT功能

    微提供配套SDK的Preempt-RT补丁。 1、Linux PREEMPT_RT补丁 Linux Kernel应用补丁的指令格式如下 patch -p1 < path
    发表于 07-22 14:03

    linux系统,通过I2C和CCG5通讯,有没有和CCG5通过I2C进行固件升级?状态配置的有没有可以参考的源代码?

    linux系统,通过I2C和CCG5通讯,有没有和CCG5通过I2C进行固件升级,状态配置的 有没有可以参考的源代码? 固件升级是在linux kernel里面实现 还是在用户空间
    发表于 07-17 06:59

    人工智能技术的现状与未来发展趋势

    人工智能技术的现状与未来发展趋势     近年来,人工智能(AI)技术迅猛发展,深刻影响着各行各业。从计算机视觉到自然语言处理,从自动驾驶到医疗诊断,AI的应用场景不断扩展,推动社会向智能化方向迈进
    的头像 发表于 07-16 15:01 1192次阅读

    工控机的现状、应用与发展趋势

    稳定可靠地运行,并执行实时控制、数据采集、过程监控等关键任务。本文将深入探讨工控机的现状、广阔应用以及未来的发展趋势,以期更好地理解其在工业领域的价值和潜力。工控机
    的头像 发表于 06-17 13:03 524次阅读
    工控机的<b class='flag-5'>现状</b>、应用与<b class='flag-5'>发展</b>趋势

    详解Linux权限相关指令

    Linux严格来说是一个操作系统,我们称之为“核心”(kernel)。而作为用户的我们并不能直接与核心交流,这时候就有一个中间人的角色出现:将我们的指令翻译为核心可以看懂的符号,交由核心执行,并将执行结果翻译并返回给我们。
    的头像 发表于 06-06 11:47 814次阅读
    详解<b class='flag-5'>Linux</b>权限相关指令

    AI在医疗健康和生命科学发展现状

    NVIDIA 首次发布的“AI 在医疗健康和生命科学现状”调研,揭示了生成式和代理式 AI 如何帮助医疗专业人员在药物发现、患者护理等领域节省时间和成本。
    的头像 发表于 04-14 14:10 736次阅读

    工业电机行业现状及未来发展趋势分析

    引言:工业电机行业作为现代制造业的核心动力设备之一,具有广阔的发展前景和巨大的市场潜力。随着技术的不断进步和市场需求的持续增长,工业电机行业将迎来更多的发展机遇和挑战。以下是研网通
    发表于 03-31 14:35

    SOPHGO RISC-V SoC Linux Kernel 社区邮件列表建立,欢迎加入开源社区为RISC-V生态完善添砖加瓦

    SOPHGO RISC-V SoC Linux Kernel 社区邮件列表建立,欢迎加入开源社区为RISC-V生态完善添砖加瓦
    的头像 发表于 02-14 08:34 712次阅读
    SOPHGO RISC-V SoC <b class='flag-5'>Linux</b> <b class='flag-5'>Kernel</b> 社区邮件列表建立,欢迎加入开源社区为RISC-V生态完善添砖加瓦

    智能驾驶传感器发展现状发展趋势

    的数据支持,从而实现安全、高效的自动驾驶。本文将深入探讨智能驾驶传感器的发展现状,并展望其未来的发展趋势。 一、智能驾驶传感器的发展现状 1. 多样化的传感器类型 智能驾驶传感器主要包括摄像头、激光雷达(LiDAR)、毫
    的头像 发表于 01-16 17:02 1519次阅读

    新型储能产业发展现状及趋势-2024年上半年数据发布简版

    新型储能产业发展现状及趋势-2024年上半年数据发布 简版
    发表于 01-03 15:14 0次下载

    亚马逊云科技与Adobe携手推出AEP解决方案

    近日,Adobe宣布了一项重要合作——与亚马逊云科技深化战略伙伴关系,共同推出Adobe Experience Platform(AEP)解决方案。这一全新服务的推出,旨在为全球品牌提供强大的数字化
    的头像 发表于 12-25 15:44 845次阅读

    Linux的用户与创建

    Linux的用户与创建 用户的类型 超级管理用户: 权限最高的用户(uid:0) #uid:是用户的身份证号,Linux系统只认uid 普通用户: 权限受限的用户(uid:1000-60000
    的头像 发表于 12-20 14:24 1200次阅读
    <b class='flag-5'>Linux</b><b class='flag-5'>中</b>的用户与创建