0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

马哥Linux运维

文章:1635 被阅读:563.2w 粉丝数:61 关注数:0 点赞数:31

广告

一次内存泄漏排查复盘

故障发生在一套图片缩略图服务的晚高峰时段。版本发布后不到 90 分钟,业务侧先出现 P99 RT 抖....
的头像 马哥Linux运维 发表于 03-11 09:52 489次阅读

Linux内核参数调优避坑指南

线上问题一来,很多人第一反应是改 sysctl。连接慢改 somaxconn,内存紧张改 swapp....
的头像 马哥Linux运维 发表于 03-11 09:50 460次阅读

MySQL主从延迟排查全流程

复制延迟一上来,很多人先盯 Seconds_Behind_Master。这个指标当然要看,但它只能告....
的头像 马哥Linux运维 发表于 03-11 09:49 430次阅读

Linux服务器CPU飙高怎么排查

线上 CPU 飙高最怕两件事:一是盯着 top 看了半小时,最后还是不知道是谁打满了核;二是误把负载....
的头像 马哥Linux运维 发表于 03-11 09:48 485次阅读

Nginx常见故障排查手册

Nginx 报 502、504、连接超时,看起来都是“请求没成功”,但根因完全不是一类问题。502 ....
的头像 马哥Linux运维 发表于 03-11 09:47 521次阅读

SonarQube代码质量管理平台详解

代码质量问题是技术债务的主要来源。一个未被发现的空指针异常可能在生产环境导致服务崩溃,一段存在SQL....
的头像 马哥Linux运维 发表于 03-11 09:40 511次阅读

企业级KVM虚拟化平台搭建实战

企业IT基础设施经历了从物理机时代到虚拟化时代的演进。传统数据中心中,每台物理服务器运行单一应用,资....
的头像 马哥Linux运维 发表于 03-11 09:38 849次阅读

MySQL慢查询分析与索引调优全流程

MySQL 性能问题在生产环境中的表现通常是渐进式的:业务量增长、数据量膨胀,某天突然发现 P99 ....
的头像 马哥Linux运维 发表于 03-06 15:56 312次阅读

Linux入侵检测与应急响应实战手册

生产环境的安全防护不能只靠边界防火墙。攻击者一旦突破外层防线,在主机上的横向移动、权限提升、后门植入....
的头像 马哥Linux运维 发表于 03-06 15:53 311次阅读

TiDB分布式数据库运维实践

TiDB 是 PingCAP 开发的开源分布式关系型数据库,兼容 MySQL 5.7 协议,底层存储....
的头像 马哥Linux运维 发表于 03-04 15:44 409次阅读

MySQL数据库备份恢复方式对比

备份是数据库运维中最重要也最容易被忽视的环节。"重要"体现在数据丢失时备份是唯一的救命稻草,"忽视"....
的头像 马哥Linux运维 发表于 03-04 15:39 331次阅读

Nginx高性能配置详细步骤

Nginx 1.26.x 是当前 mainline 分支的最新稳定线,在 HTTP/3 支持、动态模....
的头像 马哥Linux运维 发表于 03-04 15:35 545次阅读

大模型推理服务的弹性部署与GPU调度方案

7B 模型 FP16 推理需要约 14GB 显存,70B 模型需要 140GB+,KV Cache ....
的头像 马哥Linux运维 发表于 03-03 09:29 578次阅读

Kubernetes Pod调度策略原理与落地指南

Pod调度是Kubernetes的核心机制之一,决定了Pod最终运行在哪个节点上。默认调度器kube....
的头像 马哥Linux运维 发表于 02-27 11:08 411次阅读

Redis哨兵模式的自动故障检测与主从切换实战

Redis 主从复制解决了读扩展和数据冗余问题,但主节点故障时需要人工介入切换,这在生产环境中是不可....
的头像 马哥Linux运维 发表于 02-27 11:05 463次阅读

Redis内存管理、持久化策略与慢查询排查分析

Redis 在生产环境中承担着缓存、会话存储、消息队列、分布式锁等多种角色。随着数据量增长和并发压力....
的头像 马哥Linux运维 发表于 02-27 11:00 383次阅读

使用Prometheus和Grafana的企业级监控落地实战

生产环境跑着几百台机器,出了故障全靠人肉巡检和用户反馈,这种被动运维的日子我们团队经历了两年。201....
的头像 马哥Linux运维 发表于 02-27 10:58 539次阅读

Docker容器网络模式全解析

容器网络是Docker使用中最容易出问题的部分。容器之间怎么通信、容器怎么访问外网、外部怎么访问容器....
的头像 马哥Linux运维 发表于 02-26 16:39 651次阅读

Helm包管理与模板化部署实战

直接用kubectl管理K8s资源,10个微服务就要维护几十个YAML文件,版本管理靠文件夹命名,回....
的头像 马哥Linux运维 发表于 02-26 16:37 511次阅读

Prometheus告警规则编写与Alertmanager通知配置实战

监控系统搭完了,指标也采集上来了,但如果没有告警,等于白搭。我见过不少团队Prometheus跑得好....
的头像 马哥Linux运维 发表于 02-26 16:35 653次阅读

使用VictoriaMetrics的Prometheus远程存储方案

Prometheus单机存储在生产环境跑到一定规模就会碰壁——单节点磁盘容量有限,TSDB默认保留1....
的头像 马哥Linux运维 发表于 02-26 16:30 619次阅读

Kubernetes HPA和VPA使用实战指南

线上业务流量存在明显的波峰波谷。白天高峰期Pod数量不够导致请求排队,凌晨低谷期大量Pod空跑浪费资....
的头像 马哥Linux运维 发表于 02-26 16:27 340次阅读

基于OpenTelemetry的全链路追踪微服务可观测性实践

微服务拆分到第三年,我们的服务数量从最初的5个膨胀到了47个。一个用户下单请求要经过API Gate....
的头像 马哥Linux运维 发表于 02-26 15:43 781次阅读

Kubernetes存储管理功能的落地实践

容器本身是无状态的,Pod重启后容器内的数据全部丢失。数据库、消息队列、文件存储这类有状态服务跑在K....
的头像 马哥Linux运维 发表于 02-26 14:45 479次阅读

Kubernetes容器运行时containerd与CRI-O如何选择

Kubernetes 1.24版本正式移除了dockershim,Docker不再是K8s的默认容器....
的头像 马哥Linux运维 发表于 02-26 09:54 550次阅读

Istio服务网格的核心原理与部署实战

微服务拆分之后,服务间调用关系变得复杂。一个请求从网关进来,经过认证服务、用户服务、订单服务、库存服....
的头像 马哥Linux运维 发表于 02-26 09:49 402次阅读

Kubernetes故障排查手册

K8s集群出故障是常态。Pod起不来、Service访问不通、节点NotReady、证书过期、etc....
的头像 马哥Linux运维 发表于 02-26 09:47 423次阅读

使用Dockerfile构建镜像的详细步骤

Dockerfile写得好不好,直接影响三件事:镜像大小、构建速度、运行安全性。我见过太多团队的Do....
的头像 马哥Linux运维 发表于 02-26 09:43 524次阅读

编写一个生产级的Service配置文件

systemctl start xxx 敲了无数遍,但真要从零写一个 Service 文件丢到生产环....
的头像 马哥Linux运维 发表于 02-25 14:24 483次阅读

TCP三次握手与四次挥手的详细过程

TCP 三次握手和四次挥手,大概是网络领域被问烂了的面试题。但真正能把状态变迁、序列号变化、抓包细节....
的头像 马哥Linux运维 发表于 02-25 10:38 543次阅读