0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

移动通信网络行业发生了一起重大事故

5G 来源:5G 作者:5G 2020-12-03 10:22 次阅读

行业观察

日前,移动通信网络行业发生了一起重大事故!

据外媒报道,欧洲电信运营商“巨头”沃达丰集团表示,其在德国的移动通信网络于当地时间11月23日下午13:50突然出现大面积故障,造成柏林、汉堡、慕尼黑、科隆、法兰克福和其他城市共计超过10万手机用户无法建立语音连接和数据连接(2G、3G、4G的数据和语音服务都受到宕机影响),直到17:00才恢复正常。

根据沃达丰集团最新一期财报,沃达丰德国子公司约有3000万移动通信用户。此次故障中,有多达超过10万用户无法打电话和移动上网,所谓“众口能铄金”,超过20万个睁到最大的愤怒圆眼和超过10万个张到不能再大的嘴巴,以“坏事传千里”之功力,使得该公司的品牌形象严重受损,一代巨头瞬间遭受几乎“香消玉殒”。

在这个移动通信就像是水和电甚至像是空气一样的时代,更令上述超过10万的受影响用户极其抓狂的是,从13:50到17:00一共长达190分钟(11400秒)的时间,业务才全部恢复。

此次严重故障是由什么因素导致的?沃达丰反馈,网络问题是由部署于慕尼黑、法兰克福、柏林三地的“failure of control equipment”造成的。“failure of control equipment”就是“控制设备宕机”。从“控制设备”一词,我们可以想到“控制面”,再进一步考虑到外媒所报道的此次故障所波及的地域之广大、所影响的用户之众多,可以判断是核心网控制面出了严重故障。

核心网,在2G、3G、4G网络中所扮演的角色,就是“大脑”。一个动物要是大脑死亡了,整个身体就都死亡了;同样类比地,网络的“大脑”——核心网挂了,整个网络就停摆了,所以造成了上述故障具有两大鲜明特点:一是波及的地域广大;二是整个故障存在的时间很长——按照电信业务可靠性计算公式以及“99.999%可靠性”这一基本要求,一年中的业务中断的时间加起来不得超过315秒,而这次一次就断了11400秒!

所以德国沃达丰这个事件,在5G新基建、5G+千行百业发展得如火如荼的当下,亟需及时地引起业界的深刻反思——①是否普遍足够重视5G核心网的可靠性?②万一5G核心网一旦出现了重大故障,能否让行业客户的业务“零”中断(比如5G+政务/制造/交通/金融/电力等要求7×24在线)?若不能,如何及时补救?

敲响了“5G+千行百业”的巨大警钟

这一起严重的事故,使得全球其他所有移动通信网络运营商在为德国沃达丰感到同情和惋惜的同时,也被吓出一身的冷汗,尤其是那些正在规模部署5G网络的数百家运营商更是深感“如履薄冰”:

一是由于核心网是移动通信网络与IT深度融合的第一站,软硬件解耦且软件运行于由通用硬件构成资源池的虚拟化核心网,其可靠性在德国沃达丰此次发生的重大事故中表现得甚为脆弱,说明除了硬件,软件能力更显重要。德国沃达丰和其他运营商虽然目前比较重视面向ToC领域的5G网络的可靠性,但是截至目前在相关方面的投资趋于谨慎(尤其是在对软件可靠性的投资方面),一旦某一天万一发生上述德国沃达丰之类的重大事故,这几年下大力在大众消费者心中建立起来的5G高端品牌形象很可能顷刻崩塌,极不利于后续5G ToC发展。所以,这个事件说明对于5G核心网可靠性的投资绝对不只是单纯的硬件投资,而应该持续投资于对软件可靠能力的增强。

二是更进一步地,在5G时代,移动通信网络所承载的将更多(公认是80%)是面向政企客户的ToB类业务,对于ToB领域而言,“保障5G网络可靠”是最基本的要求,是5G进入千行百业必须跨越的“门槛”,是“5G+千行百业”最为关键的前提,一旦5G核心网出现严重故障,带来的各方面损失都将是上述德国沃达丰事件的N倍(N→+∞)——5G(含B5G)将来会被用在电力、金融、政务、工业4.0(比如智能制造)、(网路辅助的)自动驾驶、远程医疗等关键领域,一旦5G核心网停摆,这些政企业务就会瞬间中断,由此造成的后果将难以想象,会给社会经济甚至国家安全带来重大损失。

截至目前,业界对于5G网络的“安全性”以及“安全防护能力提升”的公开讨论有很多,但几乎没有对于5G网络(尤其是面向ToB领域的5G核心网)“可靠性”的公开讨论,说明对于5G核心网的可靠性尚未引起普遍化的重视。所以,德国沃达丰事件对于5G时代所敲响的巨大警钟就是:对于事关商业、经济、社会和国家安全的5G新型基础设施的建设运营,除了要重视做好网络安全防护外,更需加强对于运行可靠性的深刻认识,全力避免因可靠性问题影响运行效率和安全性。所以由此可以说,安全性是建立在可靠性的基础之上的,不可靠才是最大的不安全!

构筑起5G核心网磐石泰山般可靠性

坚者如磐石,稳者如泰山。在上述的5G新型基础设施可靠性中,5G核心网的可靠性显得最为重要,因为它就是整个5G网络的“大脑”所在——5G网络最为核心且对5G确定性能力负责的正是5G核心网,在5G网络端到端的质量保障当中,5G核心网承担了对于全局资源的集中控制、调度和管理,负责管理全局的网络拓扑、所有的接入信息、所有的用户数据以及所有的行业业务需求;所以一旦5G核心网(其控制面集中部署于大区及省级数据中心)出现故障,受到影响的范围将会极大。

“如何保障5G核心网的绝对可靠”是一个巨大的系统工程问题,但是仍然遵循“可靠性”相关的基本理论。

可靠性(%)=-t÷(e的MTBF次方)。其中,t为观测的时间间隔,MTBF为平均故障间隔时间。可见,可靠性仅与MTBF有关,电信级可靠性要达到99.999%,意味着一年的业务中断时间不超过315 s,落实到系统上即“可用度”。

可用度(%)=MTBF÷(MTBF+MTTR)。其中MTTR为平均故障修复时间。可见,提高(5G核心网)可用度,就要:①增加MTBF,即提高系统的容错能力,保障长时间稳定运行;②减小MTTR,即在一旦突然出现故障之后,能够快速发现故障并且瞬间(秒级)排除故障。

综上,要保障5G核心网的绝对可靠,就要做到:尽量稳定运行、不出故障,而一旦发生故障能够瞬间精准定位故障并秒级排除故障。

很显然,这其中,最关键的就在于“能否秒级排除故障”。因为不怕一万、就怕万一。万一5G核心网出现重大故障,能否做到让用户/客户“零”感知?

目前,面向5G核心网可靠性,业界在网元级容灾(提升VNF可靠性)、单个数据中心(DC)内容灾(比如硬件/资源池/多可用区/等IT级容灾以及机房/机楼等非IT级容灾)、跨DC容灾方面均有解决方案。目前看来尚存在两大较显著的问题——软件能力不够高、跨DC容灾不够强。

(1)亟需更强软件能力

传统核心网设备采用先进电信计算平台ATCA硬件,通过硬件传感器检测及内部的软硬件耦合通知机制来保证故障检测的实时性和准确性(毫秒级)。在引入NFV对核心网进行软硬件解耦改造后,VNF的可靠性应不低于现有传统物理模块(功能)的可靠性。采用通用服务器后,应用层(软件)的可靠性不再依赖于底层构筑,VNF只能靠软件手段去检测是否出现故障,NFV云化网元通过软件机制实现故障检测为秒级,远低于传统核心网的毫秒级,所以从更好地保证整体网络的可靠性的角度,5G核心网亟需更加强大的软件能力,比如向无状态化、更强数据库、微服务、更鲁棒的VNF组网及部署架构等方向发展以便于弹性扩缩容并提升电信级服务可靠性与可用性。

(2)亟需解决跨DC容灾3大关键薄弱问题

“跨DC容灾”一直是业界一大难题。主要表现在以下几个方面。

● 跨DC的数据备份

要实现跨DC容灾,必须要实时进行用户上下文数据备份(比如存储用户签约数据、注册信息的UDM等主要数据库)。显然,这要求进行实时备份而且备份的数据越多越好以利于业务快速恢复。用户上下文数据变化快,使得备份难度大。业界目前采取的备份方式下,备份时间长(从而不利于一旦出现故障时备份到更多数据即不能保证数据备份的时效性与完整性)、数据量大(未经压缩)、对DC间链路的带宽要求很高(因为数据量大)。从而,现在亟需打造并部署能够对待备份数据进行压缩的解决方案,以在大幅降低DC间链路传输备份数据的带宽需求的同时,保证数据备份的时效性与完整性以保障业务恢复的“零”影响。

一旦5G核心网出现故障,就要瞬间运用备份到的数据去恢复,千万级甚至亿级用户的电信业务恢复,带来极大考验。主要体现在以下两方面。

● 找到备份数据

运用跨DC备份的数据去恢复用户的电信业务,第一步就是要找到用户的备份数据。所以可见,“能否快速找到”是关键之中的关键。

下图为5G核心网服务化架构,笔者在其中用红色框标准了5G核心网控制面两个极为重要的网元——控制层的AMF、数据层的UDM。

从上图,我们一眼就可以看出AMF的不可或缺性——是用户接入5G核心网的首个网元,是分组接入的一级关口,是提供5G网络服务的前提,在用户体验的保证上起着关键作用。从AMF的名称“接入和移动管理功能”更是能感受到其极端重要。

UDM则是5G SA网络用户的统一数据管理平台,主要用于存储用户的签约数据、注册信息,给AMF下发签约数据,存储用户当前服务的AMF地址等,提供用户签约数据访问、位置登记等功能。UDM一旦发生重大事故时,会导致大范围的业务中断,影响巨大。

在5G核心网出现故障后,当用跨DC备份的用户上下文数据去恢复用户的电信业务时,千万级乃至亿级数量的用户(将来“万物互联”后还可能是几十亿级的设备)同时接入AMF和UDM,势必有瞬间产生信令风暴的可能——如果在故障发生前备份了所有用户的上下文数据,则用户新接入时不用去UDM取签约数据,业务恢复时,信令就主要冲击在AMF上;否则,在业务恢复时,信令将冲击到UDM网元——由于UDM主要能力在于数据存储,而信令能力弱,从而很容易引发过载。

一旦由此出现信令风暴,将会导致网络瘫痪,从而引发更多问题,何谈“业务恢复”?电信业务有状态的特点,不同于IT业务的数据备份,还需要更新上下文相关的隧道、通道、链路层的多层网络信息,需要超越标准流程,更新周边网络的信令链路、路由通道等。目前,业界采用的是通用数据库,以海量广播报文寻找用户备份数据,会产生信令风暴。从而,现在亟需打造并部署能够避免路由广播、不会产生信令风暴的可实现“一步到位找到用户备份数据”的解决方案。

● 恢复数据状态

找到了用户的备份数据,接下来就是恢复数据状态从而恢复用户的电信业务。在这一个非常重要的环节中,更是不能出现故障,否则前面的环节全都会白做,功亏一篑。目前,业界的解决方案是从单VNF恢复数据,会出现CPU单点过载,容易出现二次故障。从而,现在亟需打造并部署能够从多个VNF恢复数据的方案——于其中,通过多个VNF的均衡处理来大幅降低单VNF压力。

深谋远虑未雨绸缪力保未来网络可靠

在5G时代,2G和3G将逐步减频退网,最终很快形成4G、5G长期共存的格局,共同服务于“万物智联”(比如基于4G LTENB-IoT),所以现在宜未雨绸缪,布局网络结构简化、网络资源可灵活动态共享、软件平滑演进的融合型核心网,并布局4G网络高可靠容灾与恢复方案,同时高度重视软件能力加固,增加预算大力持续投资核心网软件可靠能力,全力保障未来网络的高可靠。

责任编辑:xj

原文标题:反思!通信业重大事故

文章出处:【微信公众号:5G】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 通信
    +关注

    关注

    18

    文章

    5706

    浏览量

    134416
  • 沃达丰
    +关注

    关注

    0

    文章

    177

    浏览量

    18375
  • 5G
    5G
    +关注

    关注

    1340

    文章

    47811

    浏览量

    554413

原文标题:反思!通信业重大事故

文章出处:【微信号:angmobile,微信公众号:5G】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    讯维通信技术在跨区域企业通信网络整合中的应用案例

    讯维通信技术在跨区域企业通信网络整合中展现出卓越的应用效果。以下是具体的应用案例: 某大型跨国企业,因业务扩展需要,需要在全球范围内整合其通信网络。该企业面临着地域分散、网络结构复杂、
    的头像 发表于 04-19 16:30 157次阅读

    浅析3G通信网络技术在通信中的应用

    展望世界,面对未来,在这网络技术高速更新的时代,3G 通信网络的发展是通信技术充满了无限的可能性,当前国内3G 网络的发展还刚刚处于初始的起步阶段,而伴随着
    发表于 11-13 15:19 191次阅读

    基于CORTEX-M3的多机通信网络的设计与实现

    电子发烧友网站提供《基于CORTEX-M3的多机通信网络的设计与实现.pdf》资料免费下载
    发表于 11-08 09:47 0次下载
    基于CORTEX-M3的多机<b class='flag-5'>通信网络</b>的设计与实现

    中国移动联合华为等发布《下一代泛在实时通信网络需求、能力与架构理念白皮书》

    近日,在2023中国移动合作伙伴大会期间,中国移动和华为等产业伙伴联合发布了《下一代泛在实时通信网络需求、能力与架构理念白皮书》,定义了实时通信网络未来演进的目标。中国
    的头像 发表于 11-04 18:05 1333次阅读
    中国<b class='flag-5'>移动</b>联合华为等发布《下一代泛在实时<b class='flag-5'>通信网络</b>需求、能力与架构理念白皮书》

    直流系统中蓄电池的作用及充放电试验方案

    蓄电池组平时在电力系统中只是属于一个备用设备,但在事故状态下,蓄电池组却是直流负荷的唯一供给者,一旦蓄电池出问题,光伏电站发电系统将面临瘫痪甚至发生重大事故,造成重大损失。
    发表于 11-01 10:26 1899次阅读
    直流系统中蓄电池的作用及充放电试验方案

    基于CC2530的ZigBee通信网络的应用设计

    电子发烧友网站提供《基于CC2530的ZigBee通信网络的应用设计.pdf》资料免费下载
    发表于 10-26 09:34 1次下载
    基于CC2530的ZigBee<b class='flag-5'>通信网络</b>的应用设计

    为什么需要输电线路杆塔倾斜监测装置?

    输电线路杆塔倾斜监测装置实现对塔基松动、地质变化引起的塔基倾斜以及由于导线不均匀覆冰、脱冰等引起的塔头倾斜进行远程监测,防止倒塔、折塔等重大事故发生
    的头像 发表于 09-13 10:05 622次阅读
    为什么需要输电线路杆塔倾斜监测装置?

    小白科普-通信网中核心网、城域网、接入网

    通信网络个整体结构,大致包括:骨干网、核心网、城域网、接入网,其中接入网又分为无线接入和有线接入,以及承载网。 听起来很复杂,我们再分解来看看。 从最靠近用户端开始的是接入网。接入网,简单
    发表于 08-03 17:25

    通信网的三大组成 通信网的核心技术

    通信网络的三大组成包括下面三个部分:   网络节点:指通信网络中的所有设备或计算机节点,如计算机、路由器、交换机、集线器、调制解调器等。网络节点功能不同,但都具备
    发表于 05-06 15:10 2894次阅读

    通信网络技术载体主要包括 通信网络技术应用

     通信网络技术是指在通信网络中所应用的各种方法、技巧和工具,包括硬件、软件、协议、拓扑结构、传输介质等方面。通信网络技术的发展可以带来更稳定、更快速、更高效的通讯和数据传输,促进了全球的信息互联与互通。
    发表于 05-06 14:57 2022次阅读

    通信网络分为哪三种网络 通信网络设备有哪些

    通信网络指的是将多个计算机、设备和其他网络连接在一起,通过通信信道进行数据交换和共享资源的系统。通信网络可以是通过有线、无线或卫星等方式连接起来的计算机和设备的集合。
    发表于 05-06 09:17 5228次阅读

    现代通信网的分层结构

    传统通信网络由传输、交换、终端三大部分组成。其中传输与交换部分组成通信网络,传输部分为网络的链路(Link),交换部分为网络的节点(Node)等。
    发表于 05-04 15:16 3532次阅读

    通信网有什么作用

    通信最基本的形式是在点与点之间建立通信系统,但这不能称为通信网,只有将许多的通信系统(传输系统)通过交换系统按一定拓扑结构组合在一起才能称之
    发表于 05-04 14:55 1166次阅读

    通信网络的基础

    通信技术:通信技术是建立通信网络的基础,它包括传输介质、调制解调器、交换机、路由器等技术,它们的发展促进了通信网络的发展。
    发表于 05-04 14:34 1197次阅读

    通信网络的组成

    传统的通信网络(即电话交换的网络)是由传输、交换和终端三大部分组成。 传输:是传送信息的媒体 交换:主要是指交换机,是各种终端交换信息的中介体。 终端:是指用户使用的话机、手机、传真机和计算机等。
    发表于 05-04 14:28 2565次阅读