如何利用Splunk最新的Metrics Store来对Kubernetes的集群进行性能监控-电子发烧友网

Kubernetes已经成为容器编排的事实上的王者，连Docker都已经向K8s女王大人低头。对于Kubernetes的cluster的数据收集和监控已经成为IT运维的一个重要话题。我们今天来看一看如何利用Splunk最新的Metrics Store来对Kubernetes的集群进行性能监控。

部署架构

下图是该方案的部署架构，主要包括：

利用Heapster收集K8s的性能数据，包含CPU，Memory，Network，File System等

利用Heapster的Statsd Sink，发送数据到Splunk的Metrics Store

利用Splunk的搜索命令和仪表盘功能对性能数据进行监控

前期准备

前期主要要准备好两件事：

编译最新的Heapster的镜像，并上传到某个公共的Docker镜像仓库，例如docker hub

在Splunk中配置Metrics Store和对应的网络输入（Network Input UDP／TCP）

这里主要要做的选择是Statsd的传输协议用UDP还是TCP。这里我推荐使用TCP。最新的Heapster代码支持不同的Backend，包含了log, influxdb, stackdriver, gcp monitoring, gcp logging, statsd, hawkular-metrics, wavefront, openTSDB, kafka, riemann, elasticsearch等等。因为Splunk的Metrics Store支持statsd协议，所以可以很容易的和Heapster集成。

首先我们需要利用最新的heapster代码，编译一个容器镜像，因为docker hub上的heapsterd的官方镜像的版本比较旧，并不支持statsd。所以需要自己编译。

mkdir myheapstermkdir myheapster/srcexport GOPATH=myheapstercd myheapster/srcgit clone https://github.com/kubernetes/heapster.gitcd heapstermake container

运行以上的命令来编译最新的heapster镜像。

注意，heapster缺省使用udp协议，如果想要使用tcp，需要修改代码

https://github.com/kubernetes/heapster/blob/master/metrics/sinks/statsd/statsd_client.go

func (client *statsdClientImpl) open() error { var err error client.conn, err = net.Dial("udp", client.host) if err != nil { glog.Errorf("Failed to open statsd client connection : %v", err) } else { glog.V(2).Infof("statsd client connection opened : %+v", client.conn) } return err}

把udp改成tcp。

我在docker hub上放了两个镜像，分别对应udp版本的tcp版本，大家可以直接使用

naughtytao/heapster-amd64:v1.5.0-beta.3 udp

naughtytao/heapster-amd64:v1.5.0-beta.4 tcp

然后需要在Splunk中配置Metrics Store，参考这个文档

安装配置Heapster

在K8s上部署heapster比较容易，创建对应的yaml配置文件，然后用kubectl命令行创建就好了。

以下是Deployment和Service的配置文件：

deployment.yaml

apiVersion: extensions/v1beta1kind: Deploymentmetadata: name: heapster namespace: kube-systemspec: replicas: 1 template: metadata: labels: task: monitoring k8s-app: heapster version: v6 spec: containers: - name: heapster image: naughtytao/heapster-amd64:v1.5.0-beta.3 imagePullPolicy: Always command: - /heapster - --source=kubernetes:https://kubernetes.default - --sink=statsd:udp://ip:port?numMetricsPerMsg=1

service.yaml

apiVersion: v1kind: Servicemetadata: labels: task: monitoring # For use as a Cluster add-on (https://github.com/kubernetes/kubernetes/tree/master/cluster/addons) # If you are NOT using this as an addon, you should comment out this line. kubernetes.io/cluster-service: 'true' kubernetes.io/name: Heapster name: heapster namespace: kube-systemspec: ports: - port: 80 targetPort: 8082 selector: k8s-app: heapster

注意这里deployment的--sink的配置，ip是Splunk的IP或者主机名，port的对应的Splunk的data input的端口号。当使用udp协议的时候，需要配置的numMetricsPerMsg的值比较小，当这个值比较大的时候，会出message too long的error。当使用tcp的时候可以配置较大的数值。

运行 kubectl apply -f *.yaml 来部署heapster

如果正常运行，对应的heapster pod的日志如下

I0117 18:10:56.054746 1 heapster.go:78] /heapster --source=kubernetes:https://kubernetes.default --sink=statsd:udp://ec2-34-203-25-154.compute-1.amazonaws.com:8124?numMetricsPerMsg=10I0117 18:10:56.054776 1 heapster.go:79] Heapster version v1.5.0-beta.4I0117 18:10:56.054963 1 configs.go:61] Using Kubernetes client with master "https://kubernetes.default" and version v1I0117 18:10:56.054978 1 configs.go:62] Using kubelet port 10255I0117 18:10:56.076200 1 driver.go:104] statsd metrics sink using configuration : {host:ec2-34-203-25-154.compute-1.amazonaws.com:8124 prefix: numMetricsPerMsg:10 protocolType:etsystatsd renameLabels:map[] allowedLabels:map[] customizeLabel:0x15fc8c0}I0117 18:10:56.076248 1 driver.go:104] statsd metrics sink using configuration : {host:ec2-34-203-25-154.compute-1.amazonaws.com:8124 prefix: numMetricsPerMsg:10 protocolType:etsystatsd renameLabels:map[] allowedLabels:map[] customizeLabel:0x15fc8c0}I0117 18:10:56.076272 1 heapster.go:202] Starting with StatsD SinkI0117 18:10:56.076281 1 heapster.go:202] Starting with Metric SinkI0117 18:10:56.090229 1 heapster.go:112] Starting heapster on port 8082

在Splunk中进行监控

好了如果一切正常的化，heapster会用statsd的协议和格式发送metrics到Splunk的metrics store。

然后就可以用利用SPL的mstats和mcatalog命令来分析，监控metrics数据了。

以下搜索语句列出所有的Metrics

| mcatalog values(metric_name)

以下搜索语句列出整个cluster的CPU使用，我们可以用Area或者Line Chart来可视化搜索结果。

| mstats avg(_value) WHERE metric_name=cluster.cpu/usage_rate span=30m

kube-system namespace的对应内存使用情况

| mstats avg(_value) WHERE metric_name=namespace.kube-system.memory/usage span=30m

大家可以把自己感兴趣的分析结果放在Dashboard中，利用Realtime设置进行监控。

好了，更多的分析选项可以参考Splunk文档。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10412

浏览量
206468
数据收集

数据收集

+关注

关注
0

文章
66

浏览量
11061
kubernetes

kubernetes

+关注

关注
0

文章
219

浏览量
8567

原文标题：使用Heapster和Splunk监控Kubernetes运行性能

文章出处：【微信号：magedu-Linux，微信公众号：马哥Linux运维】欢迎添加关注！文章转载请注明出处。

踩坑rust的partial copy导致metrics丢失

在 RisingWave 的存储代码中，我们使用 RAII [1] 的思想来对 LSM iterator 的 metrics 进行监控，从而避免在代码中忘记上报 metrics 而导致

发表于 01-03 10:02 •234次阅读

Kubernetes 集群及其生态搭建

上一次接触到kubernetes集群的时候已经是一年以前了，那个时候官方的版本还只是 v1.10 ，而现在过去一年的时间了，官方版本已经快速的迭代到了 v1.17 了，社区也越来越成熟、相关的生态

发表于 11-01 16:04 •198次阅读

<b class='flag-5'>Kubernetes</b> <b class='flag-5'>集群</b>及其生态搭建

基于Kubernetes集群的typecho博客搭建方案

Kubernetes提供了强大的高可用性特性，它可以自动管理和调度容器实例，确保应用程序在集群中始终可用。还可以监控和自动修复故障的容器实例，提高博客的稳定性和可靠性。

发表于 10-30 10:02 •137次阅读

基于<b class='flag-5'>Kubernetes</b><b class='flag-5'>集群</b>的typecho博客搭建方案

Kubernetes集群中如何选择工作节点

简要概述：本文讨论了在Kubernetes集群中选择较少数量的较大节点和选择较多数量的较小节点之间的利弊。

发表于 08-28 15:46 •342次阅读

<b class='flag-5'>Kubernetes</b><b class='flag-5'>集群</b>中如何选择工作节点

NKD：容器云集群与OS一体化运维利器

NKD 是 NestOS-kubernetes-Deployer 的缩写，是为了基于 NestOS 部署的 Kubernetes 集群运维工作准备的解决方案。其目标是在集群外提供对

发表于 08-15 14:52 •954次阅读

NKD：容器云<b class='flag-5'>集群</b>与OS一体化运维利器

293.293 尚硅谷集群监控 Zabbix使用之测试

集群监控

充八万

发布于 :2023年07月18日 13:57:29

282.282 尚硅谷集群监控 Zabbix安装之yum仓库配置 #硬声创作季

集群监控

充八万

发布于 :2023年07月18日 13:56:15

289.289 尚硅谷集群监控 Zabbix使用之配置监控项 #硬声创作季

集群监控

充八万

发布于 :2023年07月18日 13:55:01

291.291 尚硅谷集群监控 Zabbix使用之配置报警媒介

集群监控

充八万

发布于 :2023年07月18日 13:53:47

285.285 尚硅谷集群监控 Zabbix启动

集群监控

充八万

发布于 :2023年07月18日 13:51:19

283.283 尚硅谷集群监控 Zabbix安装之下载安装

集群监控

充八万

发布于 :2023年07月18日 13:50:05

ChatGPT团队是如何使用Kubernetes的

在本文中，OpenAI 的工程师团队分享了他们在 Kubernetes 集群扩展过程中遇到的各种挑战和解决方案，以及他们取得的性能和效果。

发表于 07-06 11:17 •323次阅读

ChatGPT团队是如何使用<b class='flag-5'>Kubernetes</b>的

基于Prometheus的全方位监控平台设计

Kubernetes集群规模大、动态变化快，而且容器化应用部署和服务治理机制的普及，传统的基础设施监控方式已经无法满足Kubernetes集群

发表于 06-29 11:37 •570次阅读

Kubernetes 监控利器功能特性

Kubeshark 是专为 Kubernetes 设计的 API 流量分析器，它提供实时的 K8s 协议级别的可见性，可以捕获和监控所有在容器、Pod、节点和集群之间进出和流动的流量和负载。可以把它想象成专门针对

发表于 05-17 16:10 •395次阅读

Kubernetes是怎样工作的？

。您可以将运行 Linux® 容器的主机组集群在一起，Kubernetes 可帮助您轻松高效地管理这些集群。

发表于 05-12 16:13 •310次阅读

搜索历史

如何利用Splunk最新的Metrics Store来对Kubernetes的集群进行性能监控

评论

踩坑rust的partial copy导致metrics丢失

Kubernetes 集群及其生态搭建

基于Kubernetes集群的typecho博客搭建方案

Kubernetes集群中如何选择工作节点

NKD：容器云集群与OS一体化运维利器

293.293 尚硅谷集群监控 Zabbix使用之测试

282.282 尚硅谷集群监控 Zabbix安装之yum仓库配置 #硬声创作季

289.289 尚硅谷集群监控 Zabbix使用之配置监控项 #硬声创作季

291.291 尚硅谷集群监控 Zabbix使用之配置报警媒介

285.285 尚硅谷集群监控 Zabbix启动

283.283 尚硅谷集群监控 Zabbix安装之下载安装

ChatGPT团队是如何使用Kubernetes的

基于Prometheus的全方位监控平台设计

Kubernetes 监控利器功能特性

Kubernetes是怎样工作的？