0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一次k8s升级,滴滴直接故障12小时?

小林coding 来源:小林coding 2023-12-08 15:45 次阅读

前段时间滴滴的故障相信大家都知道了。

中断业务 12 小时定级为 P0 级故障一点都不冤。

45f005c2-9595-11ee-8b88-92fbcf53809c.jpg

故障回顾

网上有传言是运维人员升级 k8s 时,本来计划是从 1.12 版本升级到 1.20,但是操作失误选错了版本,操作了集群降级到低版本。

从下面滴滴技术的博客中也可以看到滴滴的升级方案:

4603b1c6-9595-11ee-8b88-92fbcf53809c.jpg

滴滴为了降低升级成本,选择了原地升级的方式。首先升级 master,然后升级 node。我们一起看一下 k8s 官方架构:

462f33c8-9595-11ee-8b88-92fbcf53809c.jpg

img

master(官网图中叫 CONTROL PLANE) 节点由 3 个重要的组件组成:

cloud-controller-manager:负责容器编排;

kube-api-server:为 Node 节点提供 api 注册服务;

scheduler:负责任务调度。

Node 节点向 kube-api-server 注册成功后,才可以运行 Pod。从滴滴的博客中可以看到,采用原地升级的方式,升级了 master 之后,逐步升级 Node,Node 会有一个重新注册的过程,不过既然选择这个方案,运维人员应该反复演练过,重新注册耗时应该非常短,用户无感知。

但是 master 选错版本发生降级时,会把 kube-api-server 污染,Node 节点注册 master 失败,又不能快速回滚,这样 Node 节点被集群认为是非健康节点,上面的 pod 被 kill 掉,服务停止。

集群隔离

463d72bc-9595-11ee-8b88-92fbcf53809c.png

这次故障大家讨论的话题还有一个比较热门的就是 k8s 集群隔离,因为多个业务比如打车业务、单车业务同时挂,说明都在一个集群上,没有单独建集群来做隔离,这可能也是博客中说的“最大集群规模已经远远超出了社区推荐的5千个 node 上限”的原因。

当然也有可能当时野蛮生长的时候,为了快速上线开展业务,就多个业务建在了一个集群上,后来可能也有过拆分的想法,但发现业务上升空间已经很小,现有集群可以维持,所以就搁置了。

拆分成多个集群好处很明显,业务隔离,故障隔离,可靠性增加,就拿这次升级来说,先升级一个不太关键、业务量也比较小的集群做试点,升级成功了再逐个升级其他集群。

但缺点也很明显,运维复杂度增加,成本增加。

升级方案

工作这些年,也参与过一些大规模的平台重构,但原地升级真的是没有接触过,主要原因就是架构师们不太愿意选择原地升级的方案。而他们主要出于下面考虑:

业务系统原地重构升级,不像推翻重做能够更彻底地升级改造;

考虑对业务影响最小,一般是要通过灰度发布渐进地把流量切过去;

替换升级的方案,更能展现团队的产出。

对于滴滴这样的大公司,相信运维团队大咖如云,无论采用哪种方案,肯定都是经过反复验证的,或许不要选错版本,原地升级也没有问题。

降本增效

看了微博上滴滴道歉的留言区,好多人猜测这次事故的原因是降本增效,裁掉了一线高成本的运维,保留了成本低的新人

从数据上来看,出于降本增效的目的,滴滴这两年确实少了很多人,但我不相信这是造成事故的直接原因。

在快速增长的阶段,确实需要投入大量的技术人员来建设系统。但国内互联网规模也基本见顶了,一个业务经营这么多年,不会再有爆发式地增长,系统也已经非常稳定。这样的背景下,公司确实用不了这么多技术人员了,留下部分人员来维护就够了。

所以,无论哪家公司,降本增效是业务稳定后必定会经历的阶段。想想滴滴这次 12 小时故障的损失,能比养 1000 个技术人员的成本高吗?

对于我们研发人员,如果有机会进入快速增长的公司,那就抓住机会多挣钱,被裁员的时候平常心看待就可以了,想在一家公司干到退休太难了。同时也要看到自己给公司带来的价值,千万不要认为我们技术厉害就比那个 PPT 工程师更有价值。

总结

本文根据网上流传的滴滴故障的原因,分析了升级方案和降本增效。

最后,又快年末了,希望大家都能维护好自己的系统,不要发生严重故障影响自己的年底考核。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 节点
    +关注

    关注

    0

    文章

    208

    浏览量

    24078
  • MASTER
    +关注

    关注

    0

    文章

    78

    浏览量

    11158
  • 滴滴
    +关注

    关注

    1

    文章

    190

    浏览量

    12889

原文标题:一次 k8s 升级,滴滴直接故障 12 小时?

文章出处:【微信号:小林coding,微信公众号:小林coding】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    数据采集控制,每小时采集一次,每次采集30S

    ?如何控制程序使采集自动执行并完成下动作:每小时采集一次,每次采集30S?如何将每次采集的数据存储,存储要求是:每次采集的数据分别存放在对应的文件中,文件按序号命名?想要在发烧友论坛
    发表于 08-08 10:10

    全面提升,阿里云Docker/Kubernetes(K8S) 日志解决方案与选型对比

    摘要: 今天,日志服务再次升级Kubernetes(k8s)的日志解决方案。1分钟内即可完成整个集群部署,支持动态扩容,提供采集宿主机日志、容器日志、容器stdout等所有数据源的站式采集。点此
    发表于 02-28 12:49

    全面提升,阿里云Docker/Kubernetes(K8S) 日志解决方案与选型对比

    摘要: 今天,日志服务再次升级Kubernetes(k8s)的日志解决方案。1分钟内即可完成整个集群部署,支持动态扩容,提供采集宿主机日志、容器日志、容器stdout等所有数据源的站式采集。点此
    发表于 02-28 12:50

    再次升级!阿里云Kubernetes日志解决方案

    无需对采集做任何二部署。今天阿里云Kubernetes日志解决方案再次升级,为您带来以下改进:极致部署体验:只需条命令个参数即可完成整个K8S
    发表于 05-28 19:08

    K8S容器编排的互通测试

    K8S容器编排之NetWorkPolicy官方实例
    发表于 06-06 11:28

    从零开始入门 K8s| 阿里技术专家详解 K8s 核心概念

    的资料中也会看到“ks”这个词,也就是“K8s”,它是通过将 8 个字母“ubernete ”替换为“8”而导致的个缩写。Kubernetes 为什么要用“舵手”来命名呢?大家可以看
    发表于 09-20 14:52

    k8s核心原理学习指南3

    k8s学习3 - 核心原理
    发表于 09-25 16:37

    K8s 从懵圈到熟练 – 集群网络详解

    导读:阿里云 K8S 集群网络目前有两种方案:种是 flannel 方案;另外种是基于 calico 和弹性网卡 eni 的 terway 方案。Terway 和 flannel 类似
    发表于 10-14 15:06

    K8s 从懵圈到熟练 – 镜像拉取这件小事

    下载。K8s 实现的私有镜像自动拉取基本功能K8s 集群般会管理多个节点,每个节点都有自己的 docker 环境。如果让用户分别到集群节点上登录镜像仓库,这显然是很不方便的。为了解决这个问题,
    发表于 10-14 15:38

    从零开始入门 K8s | 应用存储和持久化数据卷:核心知识

    的常见类型:本地存储,常用的有 emptydir/hostpath;网络存储:网络存储当前的实现方式有两种,种是 in-tree,它的实现代码是放在 K8s 代码仓库中的,随着 K8s 对存储类型支持
    发表于 10-15 14:55

    从零开始入门 K8s | 应用存储和持久化数据卷:存储快照与拓扑调度

    是什么意思:这里所说的拓扑是 K8s 集群中为管理的 nodes 划分的种“位置”关系,意思为:可以通过在 node 的 labels 信息里面填写某个 node 属于某个拓扑。
    发表于 10-15 15:07

    从零开始入门 K8s | 可观测性:你的应用健康吗?

    时候需要自己对业务场景上来判断,这种的链接是否会对业务造成影响。 三、问题诊断接下来给大家讲解下在 K8s 中常见的问题诊断。应用故障排查-了解状态机制首先要了解
    发表于 10-15 15:32

    从零开始入门 K8s | 应用存储和持久化数据卷:核心知识

    首先看下 Pod Volumes 的常见类型:本地存储,常用的有 emptydir/hostpath;网络存储:网络存储当前的实现方式有两种,种是 in-tree,它的实现代码是放在 K8s 代码
    发表于 10-16 10:10

    k8s volume中的本地存储和网络存储

    八 、 k8s volume 本地存储和网络存储
    发表于 03-25 08:44

    搭建K8s环境平台的步骤

    1 搭建K8s环境平台规划1.1 单master集群1.2 多master集群
    发表于 11-04 06:03