0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从技术的角度谈谈对云计算数据中心DevSecOps运维模式中的安全性的理解

Linux阅码场 来源:lp 2019-04-03 15:31 次阅读

本文想从技术的角度谈谈我对云计算数据中心DevSecOps运维模式中的安全性的理解,和过去几年我在云服务业务连续性管理方面的探索。

现在公有云服务商都不约而同地转向DevSecOps模式。DevSecOps是DevOps的另一种实践,它将信息技术安全性作为软件开发所有阶段的一个基本点。安全性,不仅涉及各种层次的隔离和合规性检查,而且涉及从技术层面确保业务连续性。在ISO/IEC 27001信息安全管理体系中,“业务连续性管理”是安全管理中非常重要的一环,目的是为减少业务活动的中断,使关键业务过程免受主要故障或天灾的影响,并确保及时恢复。“业务连续性管理”是安全治理中的术语,把它转化到计算机产品中的术语,就是“可靠性,可用性和可维护性(RAS)”。

一、去中心化

每个云计算数据中心都有一些中心化的共享服务,比如防火墙、DNS、核心路由、负载均衡器、分布式存储等等。虽然IT基础架构在设计和代码执行充分考虑到了高可用和高通量,可是实际上,总是有一些例外。比如,我们在一次防火墙升级时,因为一个偶发的Bug, Peer 并没有接管所有的流量,结果导致了很多服务的非计划的Outage。

在这之后,将IT基础架构从中心化结构分解成众多的较小的故障域结构,成了我们在设计和改进云计算数据中心的关键考虑因素之一。我们云基础架构分布于几十个地区(Regions)。每个地区的数据中心又从物理上分隔为3个可用性域(Availability Domains),这些可用性域所有的基础设施都独立的。可用域彼此隔离,容错,并且几乎不可能同时失败。由于可用性域不共享基础设施(例如电源或冷却)或内部可用性域网络,因此区域内一个可用性域的故障不太可能影响同一区域内其他可用性域的客户。在每个可用性域里,我们又进一步去中心化,分组为多个故障域(Fault Domains)。故障域是一组硬件和基础架构。通过适当地利用故障域,我们的客户可以提高在Oracle Cloud Infrastructure上运行的应用程序的可用性。例如,客户如有两个Web服务器和一个集群数据库,我们会建议他们将一个Web服务器和一个数据库节点组合在一个故障域中,将另一半组分配到另一个故障域中。这可以确保任何一个故障的失败都不会导致应用程序中断。

除了上面这个故障域,我们还针对Oracle SaaS服务(Oracle的ERP、CRM、HCM等行业解决方案,目前有超过2.5万的企业客户)提出了具体的指标:任何组件的灾难事件都应无法导致该数据中心 10%的客户,或 100 个客户的服务中断。为此,我们团队几年前设计并实施一个去中心化的改进方案以实现这一目标。这是个以零停机时间为目标的基础架构优化方案,涉及了防火墙、DNS、负载均衡器、Web前端、存储、IMAP等等。

二、备份与容灾

备份与容灾是保证服务安全性和可用性绕不开的话题。虽然备份与容灾的成本很高,我们还是提供了针对各种场景的备份与容灾方案供客户自己选择。

备份数据使用率很低。在生产环境中,我接到的数据恢复请求平均每个季度不到千分之二,主要是顾客测试环境中的数据恢复。而真实的生产环境的SaaS服务数据恢复请求平均每个季度不到万分之二。为了这万分之二的使用概率,运维部门每周都会抽取一定比例的备份按照特定的安全的流程进行数据恢复测试和验证,以确保备份是有效的。

我还和我的同事们还开发了Oracle SaaS DR 的执行方案。客户如购买了这一服务,则可通过Oracle Site Guard 的Web GUI界面的简单几步操作,即可快速将生产环境从一个数据中心切换到另一个数据中心。蘑菇街技术服务总监赵成先生在他的文章《做容灾,冷备是不是个好方案》中提到了冷备的难点。我们的DR 方案在技术上重点就是解决了非计划的Ouage之后,数据同步、清除异常锁文件、负载均衡器更新、应用配置更新、使用Data Guard 切换数据库等方面的问题,以及主节点恢复后如何进行反向同步并自动切换到非计划的Ouage之前的配置。关于我们DR方案的RTO(Recovery Time Objective)和RPO(Recovery Point Objective),你可以Google查询“Disaster Recovery for Oracle SaaS Public Cloud Services ”,从官方正式的文档中得到。实际上,我们生产环境中验证的数据比对外公布的数据要好得多。

三、持续改进访问控制,在效率和安全中找到平衡点

我把访问控制的范围概括为:客户授权的特定的人、在指定的时间内、以验证过的安全方式、访问脱敏的内容,并尽可能地加密客户数据路过的所有通道和节点。

(1)、客户授权。我们根据客户的行业属性不同和数据安全性需求不同,定制了多个客户安全审计部门参的访问控制批准工作流。这个授权的程序涉及SRE工程师的国籍、第三方背景调查、客户数据保护相关的安全培训、笔记本电脑的硬盘加密状态等。访问授权的时效可能是一次性、可能是几天、也可能是1个月,根据行业特点和客户需求而定。

(2)、访问控制的细粒度。在技术的执行上,除了VPN和Bastion (又称Jumpbox) 外,我们还引入了Oracle Break Glass方案来让外部客户自己来批准和授权Oracle的SRE工程师对系统和服务的管理访问,提供应用层的额外的安全性。Break Glass访问是有时间限制的,它通过仅提供对Oracle支持人员的临时访问来保护客户的数据。我们还引入HSM来加强云服务环境中的数字密钥的管理。在新一代的Oracle SaaS服务中,任何工程师对数据库的SQL操作,会自动挂起并自动产生一个要求批准执行的SR,直到相关人员审查SQL语句安全性并批准后才会执行。

(3)、数据加密。除了这种受控访问之外,我们还使用Oracle的Transparent Data Encryption (TDE)和Database Vault对静态数据行保护和审计。客户可以控制TDE主加密密钥并管理其生命周期。

(4)、渗透测试、安全评估、修复和强化。另外,我们还周期性从技术的角度审查各个组件的认证和授权协议的安全性、传输层加密和网络隔离的安全性、数据访问控制的细粒度,并引用漏洞扫描、渗透测试和评估,对发现的潜在性弱点及时自动化的修复和强化方案。

四、从运维的角度持续验证和改进每个组件的可靠性、可用性和可维护性

在谈到可靠性时,大家常提到混沌工程(Chaos Engineering)。我个人觉得混沌工程是对于云服务商的服务消费者而言。云服务消费者往往由于缺少对低层技术的了解,所以需要引入Chaos Engineering触发服务器实例失效、网络故障、应用故障来使自己研发工程师递交的运行于公有云服务能够容忍故障同时仍然确保足够的服务质量。

对于公有云服务商而言,我们还得走专家模式,引入破坏性测试,从运维的角度,持续验证和改进每个组件的可靠性、可用性和可维护性,特别是可能性的故障的恢复的解决方案,从而提高系统在故障后可以花较少的时间将服务恢复到运行状态的能力。

我们通常是将整个服务的IT基础架构,分解为若干组件,再从以下七个维度来分析和改进每个组件恢复的解决方案。

(1)、单点故障,例如,硬件的各个组件、软件的各个进程、硬盘热拔插、坏盘是否会导致零I/O、Chatty Disk是否会导致零I/O、DISK Resilvering、系统启动盘、硬盘架(Enclosure)。

(2)、集群框架,例如,单个储存节点的CRASH、HANG、PANIC、手动切换集群、手动集群Failback、集群的Split Brain、集群的heartbeat 故障、高负荷下的集群接管操作、分布式锁失效测试、数据一致性验证失效测试。

(3)、共享服务,例如,如果有多条配置,则在DNS、NTP、AD、LDAP、NIS中添加或删除一个条目不应影响数据访问和管理接口的访问。

(4)、数据损坏,例如,包括触发Split Brain并观察是否存在数据损坏问题并找出数据服务恢复的解决方案,触发RAID损坏并观察是否存在数据损坏问题并找出数据服务恢复的方案。

(5)、基础架构服务故障。

(6)、管理和监控接口的可靠性。

(7)、Overlay 技术带来的性能和诊断的问题,以及服务恢复的解决方案。

正因为对每个组件相应的技术领域有了深入研究和充分的准备,对于升级的云服务性能和可用性问题(P1 Escalation),我所在的SRE团队基本上实现了“15分钟内响应并完成数据收集与分析、15分钟内给出解决方案”。

总之,云计算数据中心DevSecOps运维模式中的安全性是一个持续改进的过程,我们要充分考虑去中心化、备份与容灾、持续改进访问控制,并引入破坏性测试,提高系统在故障后快速恢复到运行状态的能力。

本文旨在简单阐述一下作为一个IT系统架构师,我对当下云计算数据中心DevSecOps运维模式中的"Sec"(安全)的理解,以及自己工作中的一些探索。其目的在于抛砖引玉,带动大家一起讨论如何提高云服务数据中心的安全性,确保业务连续性。其中有些观点不一定正确,欢迎批评指正。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    38

    文章

    7347

    浏览量

    135713
  • 数据中心
    +关注

    关注

    15

    文章

    4187

    浏览量

    70003
  • 去中心化
    +关注

    关注

    0

    文章

    69

    浏览量

    8882

原文标题:王录华:谈云计算数据中心DevSecOps运维模式中的安全性

文章出处:【微信号:LinuxDev,微信公众号:Linux阅码场】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    计算与大数据_1.3计算数据中心#硬声创作季

    计算数据中心
    Hello,World!
    发布于 :2022年10月26日 19:22:56

    [转帖]计算可使企业通过网络而不是数据中心获得计算能力

    7.18亿美元,私营部门服务器营收同期将从73亿美元增长至118亿美元。计算可使企业通过网络而不是数据中心获得计算能力,传统
    发表于 05-11 15:09

    2016年10月亚洲新加坡国际技术设备及大数据中心设备贸易展览会

    :主要展示计算平台构建技术计算适用芯片和软件平台开发、
    发表于 07-12 15:14

    2017年3月英国专业技术设备、 大数据中心设备 、云安全及智能物联网技术及设备贸易展览会

    Center World + Cloud Security+ Smart IOT )此展是当今世界欧洲地区唯一最专业国际技术设备、大数据中心技术设备、云
    发表于 09-14 09:06

    锐捷助互联网数据中心网络自动化、可视化

    设计模式等各个方面上,国内厂商已获得相应的重要突破,逐步技术跟随者转变为技术引领者。锐捷网络互联网系统部总经理吴吉朋指出,以锐捷为例,前几年在互联网
    发表于 01-25 09:42

    聚焦数据中心增长:MACOM新技术颠覆行业成本

    `伴随着互联网、计算、物联网等产业的发展,全球数据需求呈现爆发式增长。预计到2018-2019年,前五大计算供应商的投资总额将与五大电信
    发表于 07-04 10:38

    什么是计算

    以负担因此而产生的巨大成本,而计算则能帮您解除这一顾虑。 计算技术面临的问题 在其发展过程,最常见的问题一般与系统的稳定性、
    发表于 08-09 10:26

    计算技术特点

    进一步节省能源方面开支,又能保护了环境。10. 完善的机制在“”的另一端,有全世界最专业的团队来帮用户管理信息,有全世界最先进的数据中心来帮用户保存
    发表于 03-20 15:05

    走向绿色数据中心的7种手段

      计算数据中心涉及资源空间,电力,不间断电源等等因素。毫无疑问,数据中心对当地的生态系统造成巨大的压力。将数据中心变成环保的数据中心不是
    发表于 08-16 15:35

    计算环境下,UPS电源市场将发生巨大变化

    提供商必须立足用户需求,不断寻求技术上的突破。  计算数据中心建设掀起来了一阵热潮,数据中心建设的需求带动锂电池UPS市场快速增长,各位UPS生产厂商,新的风口又来了,你们能否站在风
    发表于 08-20 09:31

    国际数据中心计算产业展览会

    数据中心节能技术委员会、 中国体系产业创新战略联盟 及 雅式展览服务有限公司、深圳市六方金桥展览策划有限公司再一次联合主办数据中心
    发表于 09-12 11:21

    数据中心市场的十大趋势

    (IoT)等新技术的发展,按需访问的需求也在不断增长。用户希望无论本地设备存储还是云端访问数据,都能享受到同样的用户体验。数据中心需要提
    发表于 12-31 22:23

    什么是数据中心

    数据中心是企业用来容纳其关键业务应用程序和信息的物理设施。随着它们的发展,重要的是要长期考虑如何保持它们的可靠安全性。什么是数据中心数据中心
    发表于 09-15 06:46

    什么是计算

    为用户提供了更加灵活、高效和可靠的计算环境,同时也为开发者和企业提供了更加高效、安全的软件开发和部署方式。随着计算技术的不断发展,它将成为未来计算
    发表于 04-21 10:45

    浅谈云数据中心、智算数据中心、超算数据中心区别,分布式电源是趋势

    数据中心、智算数据中心、超算数据中心三者区别,分布式电源是趋势 大家都在聊云数据中心、智算数据中心、超
    的头像 发表于 11-29 14:20 820次阅读
    浅谈云<b class='flag-5'>数据中心</b>、智<b class='flag-5'>算数据中心</b>、超<b class='flag-5'>算数据中心</b>区别,分布式电源是趋势