0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于kubernetes托管虚机后续管理设计

454398 来源:oschina 作者:8小时 2020-10-15 16:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

基于kubernetes托管虚机有一些现成的方案,不过今天笔者要聊的是在虚机交付后,该如何实现后续的管理,包括如何实现环境和代码的部署与更新,感兴趣的可以一起看看,本篇是设计篇

1. 虚机应用的托管

由于虚机应用交付流程链路的复杂性,我们无法设计一套机制,能cover住100%的异常场景,所以我们专注正常流的交付,后期可以针对异常的案例来进行复盘,不断提高交付成功率,本节主要介绍我们设计的自动化交付流程、以及用到的k8s相关的机制

1.1 面向终态的交付

虚机应用典型的交付流程大概是这样的:申请机器-》部署环境-》部署代码-》绑定监控-》健康检查-》灰度上线,如果要对标容器则创建机器、部署环境、部署代码相当于完成了一个“虚机镜像”的交付,也是我们主要要自动化的流程

1.1.1 核心状态机

在云原生中通常都是基于面向终态的交付方式, 基于目标状态和当前状态由系统自动进行决策,我们根据现状定义了如下的状态机:

这里重点说下就绪状态,就绪状态表示应用的当前的部署环境、代码完成,并且健康检查都通过了即一个节点可以进行灰度引流了

同时如果一个应用的环境变更则会按照对应的安全频率来进行节点环境的变更,只需要变更节点的环境列表,系统会自动发现当前节点需要进行更新,进行状态机的转换;然后自动化系统会发现这个变更则就会进行检查并且自动化的进行环境的安装

1.1.2 故障转移

如果发现某个节点宕机后,则会由系统首先将系统设置为下线状态(IAAS平台还不支持这个事情), 然后会根据策略来进行决策是否自动进行修复,如果需要修复则系统会新创建一个节点然后执行上述流程,否则则会修改对应的副本数量

1.1.3 准入机制

为了保障稳定性我们在自动化的流程中加入准入机制,即在对应的阶段允许引入人工节点来进行决策,将控制权交给应用运维,并且提供相关的数据和策略辅助提高运维决策效率

1.1.4 任务列表

那如果如何确定一个节点处于某个状态下该做哪些任务呢?这里其实取决于两部分当前状态和目标状态,首先我们这里通过系统内部(k8s)里面当前的状态来进行计算以确定节点当前该处于哪个状态,每当进入到一个状态就会同时追加一个任务列表,controller则根据外部状态和任务列表进行自动化操作,并更新内部状态,从而不断的完成不同状态的切换,最终达到目标状态

1.1.5 异常流程

异常流程的处理可能是所有自动化系统里面最头痛的了,在我们的系统里面主要通过两种方式来解决:人工和自动化(好像特么的是废话),

首先来说自动化,当节点某些自动化任务无法进行时系统会通知运维,当前系统遇到无法处理的异常了,这时候运维会根据当前问题来修复某些不满足的条件,比如开通网络策略、部署Agent等等,当完成后只需要变更节点状态,后续就会自动化修复

当遇到无法通过上述自动化短时间来解决的时候,运行运维进行手工修复,并强制更新对应的状态,则系统会根据当前的状态进行后续的操作,比如检测到就绪之后就进行负载挂载等

1.2 kubernetes相关机制

那如何利用k8s的相关机制来实现上述交付流程呢,这里主要通道了webhook、finalizer、annotations几个机制

1.2.1 webhook

首先我们通过webhook再server更新的时候通过admission.Mutation机制来根据当前内部状态进行状态的决策,以确定接下来的自动化任务,在这环节我们实现了从部署环境-》部署代码-》就绪状态的转换

1.2.2 finalizer

在主机进行删除的时候,需要等待负载删除、暂停监控、删除虚机等流程全部结束后才能进行节点对象的删除,从而实现了节点信息的异步清理机制

2. 核心设计

2.1 核心对象设计

考虑到应用的环境操作和部署操作两个操作频率的差异性,我们这里参考k8s声明了两个上层控制器,即通过VMReplicaSet来实现程序运行环境的交付,而将部署操作交由VMDeployment来控制,同时两个控制在操作某个实例的时候都会先进行状态检测,然后在进行资源的锁定才能进行相关的操作,从而保障执行流程的稳定性

2.2 状态转换机制

下面我们会按照几个不同的场景来分别介绍下虚机状态的转换以及对应控制器的控制,我们有两个核心的设计理念:

1.人只负责环境配置的描述,由系统完成相关状态和自动化操作

2.状态的确定依赖于当前现状,同时人的决策高于一切

2.2.1 初始化

当检测副本数量发生变化VMReplicaSet首先会发送申请,确认当前是否要进行机器的创建,同时会创建对应的Server的Package配置,通过计算Package状态设置当前状态为Initializing,并同时创建部署环境的任务,然后等待环境部署的结果,同时会挂载Server的负载信息

等待环境部署完成后,控制器会自动检测状态并设置为Deploying,同时通过部署系统进行代码的部署,并将对象重新入队,直到状态部署完成

代码部署完成后,会进行状态检测,如果系统节点健康检查通过并且监控状态未发现异常,则会将节点设置为Ready状态,同时负载控制器和监控控制器都会对应的配置,至此完成虚机的初始化完成,后续如果环境不变,则代码部署只需要重复当前操作

2.2.2 有状态的下线

虚机通常是有状态的应用,如果要下线通常都是选择指定的节点,并标记为下线状态,同时结合finalizer和控制器完成对应负载和监控的同步操作,当所有的finalizer都释放后,最后进行对应节点的删除

2.2.3 故障转移机制

如果对应的节点宕机,则只需要加一个处理转换逻辑即可,如果是短时间可以恢复就只需要将对应的节点标记为UnKnown,同时监控和负载控制器进行对应的操作,然后等待重启后接收到对应的事件后将节点设置为Initializing, 然后系统会自动进行对应的检测逻辑,自动转换为Ready,监控和负载控制器监控自动执行相关逻辑,即可完成上线

如果节点不可修复只需要将状态设置为下线状态,然后对应的副本控制器检测到节点不足,就会自动调用IAAS系统进行自动创建,然后执行初始化流程即可

3. 未完待续

基于流程驱动的跟基于k8s的控制器在实现流程上其实并没有本质的差别,在云原生里面有很多种玩法,虚机应用的管理本质上就是复杂环境的管理。

如何管理复杂的环境,其实就是让环境可描述,系统自治,尽可能减少人的参与,人只参与影响稳定性的决策,而不参与任何关于流程驱动。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    114

    文章

    17638

    浏览量

    190188
  • 状态机
    +关注

    关注

    2

    文章

    497

    浏览量

    28842
  • 负载控制器
    +关注

    关注

    0

    文章

    4

    浏览量

    6528
  • kubernetes
    +关注

    关注

    0

    文章

    256

    浏览量

    9407
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高效管理Kubernetes集群的实用技巧

    作为一名经验丰富的运维工程师,我深知在日常的Kubernetes集群管理中,熟练掌握kubectl命令是提升工作效率的关键。今天,我将分享15个经过实战检验的kubectl实用技巧,帮助你像艺术家一样优雅地管理K8s集群。
    的头像 发表于 08-13 15:57 599次阅读

    生产环境中Kubernetes容器安全的最佳实践

    随着容器化技术的快速发展,Kubernetes已成为企业级容器编排的首选平台。然而,在享受Kubernetes带来的便利性和可扩展性的同时,安全问题也日益凸显。本文将从运维工程师的角度,深入探讨生产环境中Kubernetes容器
    的头像 发表于 07-14 11:09 477次阅读

    树莓派部署 Kubernetes:通过 UDM Pro 实现 BGP 负载均衡!

    。使用Cloudfleet等允许远程本地节点的托管Kubernetes服务,可以卸载这一责任。这种方法让树莓派能够将其资源专门用于运行工作负载,而不是消耗CPU和内存来处理控制平面任务
    的头像 发表于 06-25 18:00 729次阅读
    树莓派部署 <b class='flag-5'>Kubernetes</b>:通过 UDM Pro 实现 BGP 负载均衡!

    什么是运放的短和

    在设计运放电路的时候我们经常会接触到两个词,短和断,今天就来和大家分享下什么是运放的虛短和断。我们设运放的同相端电压为up,电流为ip,反相端电压是un,电流为in。在说短和
    的头像 发表于 05-16 19:33 1482次阅读
    什么是运放的<b class='flag-5'>虚</b>短和<b class='flag-5'>虚</b>断

    Kubernetes Helm入门指南

    Helm 是 Kubernetes 的包管理工具,它允许开发者和系统管理员通过定义、打包和部署应用程序来简化 Kubernetes 应用的管理
    的头像 发表于 04-30 13:42 2894次阅读
    <b class='flag-5'>Kubernetes</b> Helm入门指南

    Kubernetes管理工具Helm的安装和使用

    Helm 可以帮助我们管理 Kubernetes 应用程序 - Helm Charts 可以定义、安装和升级复杂的 Kubernetes 应用程序,Charts 包很容易创建、版本管理
    的头像 发表于 03-13 16:06 1915次阅读

    SV托管和IDC托管有什么区别

    SV托管和IDC托管在本质上没有区别。实际上,“SV托管”并不是一个普遍认可或广泛使用的术语,而“IDC托管”是行业内对服务器托管服务的一种
    的头像 发表于 03-07 10:05 631次阅读

    AI算法托管平台是什么

    AI算法托管平台是一种提供AI模型运行、管理和优化等服务的云端或边缘计算平台。下面,AI部落小编带您详细了解AI算法托管平台。
    的头像 发表于 03-06 10:22 833次阅读

    TECS OpenStack资源池残留导致网元异常的问题处理

    某运营商TECS资源池的一台主机内存故障,进行关机、内存更换操作,自动迁移到其他主机上,同时做了其他虚拟的手动迁移操作。后续在TECS上出现
    的头像 发表于 03-03 09:42 696次阅读
    TECS OpenStack资源池<b class='flag-5'>虚</b><b class='flag-5'>机</b>残留导致网元异常的问题处理

    机房托管费详细分析

    机房托管费是一个复杂而多变的话题,它受到多种因素的影响,以下是对机房托管费用的详细分析,主机推荐小编为您整理发布机房托管费详细分析。
    的头像 发表于 02-28 09:48 1005次阅读

    AI模型托管原理

    AI模型托管的核心在于将训练好的AI模型部署在云端或边缘服务器上,由第三方平台提供模型运行、管理和优化等服务。下面,AI部落小编带您了解AI模型托管的原理。
    的头像 发表于 02-26 10:31 910次阅读

    Kubernetes Pod常用管理命令详解

    Kubernetes Pod常用管理命令详解
    的头像 发表于 02-17 14:06 978次阅读
    <b class='flag-5'>Kubernetes</b> Pod常用<b class='flag-5'>管理</b>命令详解

    服务器托管有什么特定的优点和适用场景?

    在现代信息技术中,服务器托管是一个重要的概念,它涉及到将服务器硬件和数据管理托付给第三方服务提供商,以便提高系统的可靠性、稳定性和安全性。服务器托管主要有几种方式,每种方式都有其特定的优点和适用
    的头像 发表于 02-10 14:03 559次阅读

    MLOps托管服务怎么样

    MLOps托管服务以其卓越的性能和显著的优势,成为企业加速机器学习应用落地的理想选择。以下,是对MLOps托管服务优势的介绍,由AI部落小编整理。
    的头像 发表于 01-22 10:21 478次阅读

    使用 Flexus 云服务器 X 实例部署 Kubernetes 图形化管理平台

    Kubernetes 作为当今最流行的容器编排平台,随着云计算、微服务架构和 DevOps 文化的普及,Kubernetes 在自动化部署、扩展和管理容器化应用程序方面扮演着越来越重要的角色。未来
    的头像 发表于 01-21 16:14 552次阅读
    使用 Flexus 云服务器 X 实例部署 <b class='flag-5'>Kubernetes</b> 图形化<b class='flag-5'>管理</b>平台