0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Linux内核观测技术eBPF中文入门指南

马哥Linux运维 来源:coolshell.cn 2023-02-08 09:45 次阅读

1.介绍

eBPF(extened Berkeley Packet Filter)是一种内核技术,它允许开发人员在不修改内核代码的情况下运行特定的功能。eBPF 的概念源自于 Berkeley Packet Filter(BPF),后者是由贝尔实验室开发的一种网络过滤器,可以捕获和过滤网络数据包。

出于对更好的 Linux 跟踪工具的需求,eBPF 从 dtrace中汲取灵感,dtrace 是一种主要用于 Solaris 和 BSD 操作系统的动态跟踪工具。与 dtrace 不同,Linux 无法全面了解正在运行的系统,因为它仅限于系统调用、库调用和函数的特定框架。

在 Berkeley Packet Filter(BPF)(一种使用内核 VM 编写打包过滤代码的工具)的基础上,一小群工程师开始扩展 BPF 后端以提供与 dtrace 类似的功能集。eBPF 诞生了。2014 年随 Linux 3.18 首次限量发布,充分利用 eBPF 至少需要 Linux 4.4 以上版本。

eBPF 比起传统的 BPF 来说,传统的 BPF 只能用于网络过滤,而 eBPF 则可以用于更多的应用场景,包括网络监控、安全过滤和性能分析等。另外,eBPF 允许常规用户空间应用程序将要在 Linux 内核中执行的逻辑打包为字节码,当某些事件(称为挂钩)发生时,内核会调用 eBPF 程序。此类挂钩的示例包括系统调用、网络事件等。用于编写和调试 eBPF 程序的最流行的工具链称为 BPF 编译器集合(BCC),它基于 LLVM 和 CLang。

eBPF 有一些类似的工具。例如,SystemTap 是一种开源工具,可以帮助用户收集 Linux 内核的运行时数据。它通过动态加载内核模块来实现这一功能,类似于 eBPF。另外,DTrace 是一种动态跟踪和分析工具,可以用于收集系统的运行时数据,类似于 eBPF 和 SystemTap。[Ⅰ]

以下是一个简单的比较表格,可以帮助您更好地了解 eBPF、SystemTap 和 DTrace 这三种工具的不同之处:[Ⅰ]

560f78da-a71f-11ed-bfe3-dac502259ad0.png

从上表可以看出,eBPF、SystemTap 和 DTrace 都是非常强大的工具,可以用于收集和分析系统的运行情况。[Ⅰ]

用途

eBPF 是一种非常灵活和强大的内核技术,可以用于多种应用场景。下面是 eBPF 的一些常见用途:[Ⅰ]

网络监控:eBPF 可以用于捕获网络数据包,并执行特定的逻辑来分析网络流量。例如,可以使用 eBPF 程序来监控网络流量,并在发现异常流量时进行警报。[Ⅰ]

安全过滤:eBPF 可以用于对网络数据包进行安全过滤。例如,可以使用 eBPF 程序来阻止恶意流量的传播,或者在发现恶意流量时对其进行拦截。[Ⅰ]

性能分析:eBPF 可以用于对内核的性能进行分析。例如,可以使用 eBPF 程序来收集内核的性能指标,并通过特定的接口将其可视化。这样,可以更好地了解内核的性能瓶颈,并进行优化。[Ⅰ]

虚拟化:eBPF 可以用于虚拟化技术。例如,可以使用 eBPF 程序来收集虚拟机的性能指标,并进行负载均衡。这样,可以更好地利用虚拟化环境的资源,提高系统的性能和稳定性。[Ⅰ]

总之,eBPF 的常见用途非常广泛,可以用于网络监控、安全过滤、性能分析和虚拟化等多种应用场景。[Ⅰ]

2.工作原理

eBPF 的工作原理主要分为三个步骤:加载、编译和执行。

eBPF 需要在内核中运行。这通常是由用户态的应用程序完成的,它会通过系统调用来加载 eBPF 程序。在加载过程中,内核会将 eBPF 程序的代码复制到内核空间。

eBPF 程序需要经过编译和执行。这通常是由Clang/LLVM的编译器完成,然后形成字节码后,将用户态的字节码装载进内核,并通过一个JIT编译步骤将程序的通用字节码转换为机器特定指令集,以优化程序的执行速度。

在内核中运行时,eBPF 程序通常会挂载到一个内核钩子(hook)上,以便在特定的事件发生时被执行。例如,可以将 eBPF 程序挂载到网络协议栈的某个位置,以便在收到网络数据包时被执行。

最后,eBPF 程序还需要经过内核安全机制的检查。这是为了确保 eBPF 程序不会破坏内核的稳定性和安全性。在检查过程中,内核会对 eBPF 程序的代码进行分析,以确保它不会进行恶意操作,如系统调用、内存访问等。如果 eBPF 程序通过了内核安全机制的检查,它就可以在内核中正常运行了。在运行过程中,eBPF 程序可以访问内核的数据结构,并通过内核接口与其他组件进行交互。例如,eBPF 程序可以捕获网络数据包,并通过内核接口将它们转发给用户态的应用程序。总之,eBPF 的工作原理是通过动态加载、执行和检查无损编译过的代码来实现的。[Ⅰ]

下图是其架构图。

5626c56c-a71f-11ed-bfe3-dac502259ad0.jpg

图片来自:https://www.infoq.com/articles/gentle-linux-ebpf-introduction/

3. 示例

eBPF 可以用于对内核的性能进行分析。下面是一个基于 eBPF 的性能分析的 step-by-step 示例:

第一步:准备工作:首先,需要确保内核已经支持 eBPF 功能。这通常需要在内核配置文件中启用 eBPF 相关的选项,并重新编译内核。检查是否支持 eBPF,你可以用这两个命令查看 ls /sys/fs/bpf 和 lsmod | grep bpf。

第二步:写 eBPF 程序:接下来,需要编写 eBPF 程序,用于收集内核的性能指标。eBPF 程序的语言可以选择 C 或者 Python,它需要通过特定的接口访问内核的数据结构,并将收集到的数据保存到指定的位置。

下面是一个 Python 示例:

#!/usr/bin/python3
frombccimportBPF
fromtimeimportsleep
#定义eBPF程序
bpf_text="""
#include
BPF_HASH(stats,u32);
intcount(structpt_regs*ctx){
u32key=0;
u64*val,zero=0;
val=stats.lookup_or_init(&key,&zero);
(*val)++;
return0;
}
"""
#编译eBPF程序
b=BPF(text=bpf_text,cflags=["-Wno-macro-redefined"])
#加载eBPF程序
b.attach_kprobe(event="tcp_sendmsg",fn_name="count")
name={
0:"tcp_sendmsg"
}
#输出统计结果
whileTrue:
try:
#print("Totalpackets:%d"%b["stats"][0].value)
fork,vinb["stats"].items():
print("{}:{}".format(name[k.value],v.value))
sleep(1)
exceptKeyboardInterrupt:
exit()

这个 eBPF 程序的功能是统计网络中传输的数据包数量。它通过定义一个 BPF_HASH 数据结构来保存统计结果,并通过捕获 tcp_sendmsg 事件来实现实时统计。最后,它通过每秒输出一次统计结果来展示数据。这个 eBPF 程序只是一个简单的示例,实际应用中可能需要进行更复杂的统计和分析。

第三步:运行 eBPF 程序:接下来,需要使用eBPF编译器将 eBPF 程序编译成内核可执行的格式(这个在上面的Python程序里你可以看到——Python引入了一个bcc的包,然后用这个包,把那段 C语言的程序编译成字节码加载在内核中并把某个函数attach到某个事件上)。这个过程可以使用 BPF Compiler Collection(BCC)工具来完成。BCC 工具可以通过命令行的方式将 eBPF 程序编译成内核可执行的格式,并将其加载到内核中。

下面是运行上面的 Python3 程序的步骤:

sudoaptinstallpython3-bpfcc

注:在Python3下请不要使用 pip3 install bcc (参看:https://github.com/iovisor/bcc/issues/2278#issuecomment-825356087)

如果你是 Ubuntu 20.10 以上的版本,最好通过源码安装(否则程序会有编译问题),参看https://github.com/iovisor/bcc/issues/3993#issuecomment-1228217609:

aptpurgebpfcc-toolslibbpfccpython3-bpfcc
wgethttps://github.com/iovisor/bcc/releases/download/v0.25.0/bcc-src-with-submodule.tar.gz
tarxfbcc-src-with-submodule.tar.gz
cdbcc/
aptinstall-ypython-is-python3
aptinstall-ybisonbuild-essentialcmakeflexgitlibedit-devlibllvm11llvm-11-devlibclang-11-devzlib1g-devlibelf-devlibfl-devpython3-distutils
aptinstall-ycheckinstall
mkdirbuild
cdbuild/
cmake-DCMAKE_INSTALL_PREFIX=/usr-DPYTHON_CMD=python3..
make
checkinstall

接下来,需要将上面的 Python 程序保存到本地,例如保存到文件 netstat.py。运行程序:最后,可以通过执行以下命令来运行 Python 程序:

$chmod+x./netstat.py
$sudo./netstat.py
tcp_sendmsg:29
tcp_sendmsg:216
tcp_sendmsg:277
tcp_sendmsg:379
tcp_sendmsg:419
tcp_sendmsg:468
tcp_sendmsg:574
tcp_sendmsg:645
tcp_sendmsg:29

程序开始运行后,会在控制台输出网络数据包的统计信息。可以通过按 Ctrl+C 组合键来结束程序的运行。

下面我们再看一个比较复杂的示例,这个示例会计算 TCP 的发包时间(示例参考于 Github 上这个 issue[1] 里的程序):

#!/usr/bin/python3
frombccimportBPF
importtime
#定义eBPF程序
bpf_text="""
#include
#include
#include
#include
structpacket_t{
u64ts,size;
u32pid;
u32saddr,daddr;
u16sport,dport;
};
BPF_HASH(packets,u64,structpacket_t);
inton_send(structpt_regs*ctx,structsock*sk,structmsghdr*msg,size_tsize)
{
u64id=bpf_get_current_pid_tgid();
u32pid=id;
//记录数据包的时间戳和信息
structpacket_tpkt={};//结构体一定要初始化,可以使用下面的方法
//__builtin_memset(&pkt,0,sizeof(pkt));
pkt.ts=bpf_ktime_get_ns();
pkt.size=size;
pkt.pid=pid;
pkt.saddr=sk->__sk_common.skc_rcv_saddr;
pkt.daddr=sk->__sk_common.skc_daddr;
structinet_sock*sockp=(structinet_sock*)sk;
pkt.sport=sockp->inet_sport;
pkt.dport=sk->__sk_common.skc_dport;
packets.update(&id,&pkt);
return0;
}
inton_recv(structpt_regs*ctx,structsock*sk)
{
u64id=bpf_get_current_pid_tgid();
u32pid=id;
//获取数据包的时间戳和编号
structpacket_t*pkt=packets.lookup(&id);
if(!pkt){
return0;
}
//计算传输时间
u64delta=bpf_ktime_get_ns()-pkt->ts;
//统计结果
bpf_trace_printk("tcp_time:%llu.%llums,size:%llu\n",
delta/1000,delta%1000%100,pkt->size);
//删除统计结果
packets.delete(&id);
return0;
}
"""
#编译eBPF程序
b=BPF(text=bpf_text,cflags=["-Wno-macro-redefined"])
#注册eBPF程序
b.attach_kprobe(event="tcp_sendmsg",fn_name="on_send")
b.attach_kprobe(event="tcp_v4_do_rcv",fn_name="on_recv")
#输出统计信息
print("TracingTCPlatency...HitCtrl-Ctoend.")
whileTrue:
try:
(task,pid,cpu,flags,ts,msg)=b.trace_fields()
print("%-18.9f%-16s%-6d%s"%(ts,task,pid,msg))
exceptKeyboardInterrupt:
exit()

上面这个程序通过捕获每个数据包的时间戳来统计传输时间。在捕获 tcp_sendmsg 事件时,记录数据包的发送时间;在捕获 tcp_v4_do_rcv 事件时,记录数据包的接收时间;最后,通过比较两个时间戳来计算传输时间。

从上面的两个程序我们可以看到,eBPF 的一个编程的基本方法,这样的在 Python 里向内核的某些事件挂载一段 “C语言” 的方式就是 eBPF 的编程方式。

实话实说,这样的代码很不好写,而且有很多非常诡异的东西,一般人是很难驾驭的(上面的代码我也很不是很容易都能写通的,把 Google 都用了个底儿掉,读了很多晦涩的文档……)。好在这样的代码已经有人写了,我们不必再写了,在 Github 上的 bcc 库下的 tools 目录[2]有很多……

BCC(BPF Compiler Collection)是一套开源的工具集,可以在 Linux 系统中使用 BPF(Berkeley Packet Filter)程序进行系统级性能分析和监测。BCC 包含了许多实用工具,如:

bcc-tools:一个包含许多常用的 BCC 工具的软件包。

bpftrace:一个高级语言,用于编写和执行 BPF 程序。

tcptop:一个实时监控和分析 TCP 流量的工具。

execsnoop:一个用于监控进程执行情况的工具。

filetop:一个实时监控和分析文件系统流量的工具。

trace:一个用于跟踪和分析函数调用的工具。

funccount:一个用于统计函数调用次数的工具。

opensnoop:一个用于监控文件打开操作的工具。

pidstat:一个用于监控进程性能的工具。

profile:一个用于分析系统 CPU 使用情况的工具。

下面这张图你可能见过多次了,你可以看看他可以干多少事,内核里发生什么事一览无余。

5645e8f2-a71f-11ed-bfe3-dac502259ad0.png

4.延伸阅读

一些经典的文章和书籍关于 eBPF 包括:

Brendan Gregg 的《BPF Performance Tools: Linux System and Application - Observability[3]》一书是一个全面的指南,涵盖了 eBPF 的基础知识和实践应用。

eBPF 的官网:https://ebpf.io/ 由 Cilium 建立

Cilium’s BPF and XDP Reference Guide:http://docs.cilium.io/en/latest/bpf/

BPF Documentation:https://www.kernel.org/doc/html/latest/bpf/index.html

BPF Design Q&A:https://www.kernel.org/doc/html/latest/bpf/bpf_design_QA.html

还有 Github 上的 Awesome eBPF:https://github.com/zoidbergwill/awesome-ebpf

5. 彩蛋

最后来到彩蛋环节。因为最近 ChatGPT 很火,于是,我想通过 ChatGPT 来帮助我书写这篇文章,一开始我让 ChatGPT 帮我列提纲,并根据提纲生成文章内容,并查找相关的资料,非常之顺利,包括生成的代码,我以为我们以很快地完成这篇文章。

但是,到了代码生成的时候,我发现,ChatGPT 生成的代码的思路和方法都是对的,但是是比较老的,而且是跑不起来的,出现了好些低级错误,如:使用了未声明的变量,没有引用完整的C语言的头文件,没有正确地初始化变量,错误地获取数据,类型没有匹配……等等,在程序调试上,挖了很多的坑,C 语言本来就不好搞,挖的很多运行时的坑很难察觉。

所以,耗费了我大量的时间来排除各种各样的问题,其中有环境上的问题,还有代码上的问题,这些问题即便是通过 Google 也不容易找到解决方案,我找到的解决方案都放在文章中了,尤其是第二个示例,让我调试了3个多小时,读了很多 bcc 上的 issue 和相关的晦涩的手册和文档,才让程序跑通。

到了文章收关的阶段,我让 ChatGPT 给我几个延伸阅读,也是很好的,但是没有给出链接,于是我只得人肉 Google 了一下,然后让我吃惊的是,好多 ChatGPT 给出来的文章是根本不存在的,完全是它伪造的。我连让它干了两次都是这样,这个让我惊掉大牙。

这让我开始怀疑它之前生成的内容,于是,我不得我返回仔细 Review 我的文章,尤其是“介绍”、“用途”和“工作原理”这三个章节,基本都是 ChatGPT 生成的,在 Review 完后,我发现了 ChatGPT 给我生造了一个叫 “无损编译器”的术语,这个术语简直了,于是我开始重写我的文章。我把一些段落重写了,有一些没有,保留下来的我都标记上了 [Ⅰ],大家读的时候要小心阅读。

最后,我的结论是,ChatGPT 只是一个不成熟的玩具,只能回答一些没有价值的日常聊天的问题,要说能取代 Google,我觉得不可能,因为 Google 会基于基本的事实,而 ChatGPT 会基于内容生成的算法,在造假方面称得上是高手,可以列为电信诈骗的范畴了,我以后不会再使用 ChatGPT 生成文章内容或是作我的帮手了。StackOverflow 把其 ban 了真是不能太赞了!

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 内核
    +关注

    关注

    3

    文章

    1309

    浏览量

    39862
  • Linux
    +关注

    关注

    87

    文章

    10992

    浏览量

    206744
  • 开源
    +关注

    关注

    3

    文章

    2991

    浏览量

    41722
  • 代码
    +关注

    关注

    30

    文章

    4556

    浏览量

    66814
  • 观测
    +关注

    关注

    0

    文章

    18

    浏览量

    9579

原文标题:Linux 内核观测技术 eBPF 中文入门指南

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FreeRTOS实时内核使用指南_中文

    FreeRTOS实时内核使用指南_中文.pdf
    发表于 04-08 17:38

    Linux学习书籍—入门

    想学习嵌入式Linux的初学者,如果你想深入了解Linux,作为凌阳教育的老师为大家推荐几本关于Linux入门学习的书籍,希望能帮助到你们哦!  
    发表于 01-20 17:01

    FreeRTOS实时内核使用指南_中文

    本帖最后由 lee_st 于 2018-2-3 14:18 编辑 FreeRTOS实时内核使用指南_中文
    发表于 02-03 14:17

    Linux系统可卸载内核模块完全指南

    技术分享Linux系统可卸载内核模块完全指南(中)
    发表于 05-26 16:27

    关于 eBPF 安全可观测性,你需要知道的那些事儿

    许庆伟:龙蜥社区eBPF技术探索SIG组 Maintainer & Linux Kernel Security Researcher。本文是作者在 PODS 2022 大会上关于内核
    发表于 09-08 15:31

    openEuler 倡议建立 eBPF 软件发布标准

    eBPF 是一个能够在内核运行沙箱程序的技术,提供了一种在内核事件和用户程序事件发生时安全注入代码的机制,使得非内核开发人员也可以对
    发表于 12-23 16:21

    Linux内核中文版教程

    Linux内核中文版教程
    发表于 03-28 09:45 0次下载

    Linux内核解读入门

    Linux内核解读入门关键词:Linux, 内核,源代码一.核心源程序的文件组织: 1. Linux
    发表于 01-16 14:40 103次下载

    linux内核入门教材之linux内核设计与实现第二版中文版免费下载

    此书是当今首屈一指的linux内核入门最佳图书。作者是为2.6内核加入了抢占的人,对调度部分非常精通,而调度是整个系统的核心,因此本书是很权威的。这本书讲解浅显易懂,全书没有列举一条汇编语句,但是
    发表于 10-15 18:20 0次下载
    <b class='flag-5'>linux</b><b class='flag-5'>内核入门</b>教材之<b class='flag-5'>linux</b><b class='flag-5'>内核</b>设计与实现第二版<b class='flag-5'>中文</b>版免费下载

    介绍eBPF针对可观测场景的应用

    随着eBPF推出,由于具有高性能、高扩展、安全性等优势,目前已经在网络、安全、可观察等领域广泛应用,同时也诞生了许多优秀的开源项目,如Cilium、Pixie等,而iLogtail 作为阿里内外千万实例可观测数据的采集器,eBPF
    的头像 发表于 08-11 09:10 1203次阅读

    eBPF安全可观测性的前景展望

    本次分享将从监控和可观测性、eBPF安全可观测性分析、内核安全可观测性展望三个方面展开。
    的头像 发表于 08-17 11:27 1240次阅读

    Linux技术eBPF内核原理及应用

    BCC(BPF Compiler Collection)是一套开源的工具集,可以在 Linux 系统中使用 BPF(Berkeley Packet Filter)程序进行系统级性能分析和监测。
    发表于 01-04 10:31 1718次阅读

    Linux 内核eBPF优势和eBPF潜力总结

    Express Data Path (XDP):网络驱动程序是最早可以附加 XDP BPF 钩子的点。当收到一个数据包时,eBPF 程序就会被触发运行。
    发表于 01-10 11:37 1969次阅读

    eBPF,何以称得上是革命性的内核技术

    eBPF 的全称是 extended Berkeley Packet Filter,它被称之为 “革命性” 的内核技术,可以在 Linux 内核中运行沙盒程序,而无需更改
    的头像 发表于 05-08 08:26 411次阅读
    <b class='flag-5'>eBPF</b>,何以称得上是革命性的<b class='flag-5'>内核技术</b>?

    基于ebpf的性能工具-bpftrace

    在前面我已经分享了关于ebpf入门的文章: 基于ubuntu22.04-深入浅出 eBPF 。 这篇文章介绍一个基于ebpf技术的强大工具-
    的头像 发表于 09-04 16:02 345次阅读
    基于<b class='flag-5'>ebpf</b>的性能工具-bpftrace