0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Cloudflare宕机!全球网络崩了

Simon观察 来源:电子发烧友网 作者:黄山明 2025-11-21 08:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/黄山明)前几天,全球多低遭遇网路异常,包括ChatGPT、Amazon、社交媒体平台X等在内大量网站都面临着无法访问的故障,数据显示,全球约有20%的互联网服务都出现了服务器错误提示。而这一切的原因在于互联网基础设施服务商Cloudflare又宕机了。

尽管Cloudflare随后表示,目前已修复问题。但对此已经造成的数十亿美元的损失,这次事件持续超三小时,影响范围极广,甚至波及用于监测网站状态的平台Downdetector本身,因其也依赖Cloudflare而一同宕机。

全球网络又崩了

11月18日晚间,Cloudflare的网络开始出现无法传输核心网络流量的重要故障,致使全球性服务中断,影响Cloudflare所有节点,导致约20%的网站出现问题,此时用户访问受影响网站时会出现“Internal Server Error”(500错误)或页面无法加载。

Cloudflare是一家提供关键互联网基础设施服务的公司,也是全球知名的网络安全与CDN服务商,其所支持的核心技术广泛支撑着当今各类在线服务体验。

所谓CDN即内容分发网络(Content Delivery Network),是一种已被普遍应用的把网站内容搬到离用户更近的地方的互联网技术。我们日常使用互联网,包括下载更新、网站浏览、在线听歌看电影,都用到了CDN。在CDN市场中,Cloudflare全球市场份额仅次于Akamai,位居第二。国内知名的CDN厂商有网宿、阿里云、华为云、百度云、腾讯云等。

而此次的全球性网络故障,据Cloudflare发言人表示,问题在于一个用于管理威胁流量、自动生成的配置文件引起的。同时声明称,目前没有证据表明存在网络攻击或恶意活动。

事件原因在于Cloudflare在更新ClickHouse数据库权限时,错误配置导致数据库向Bot Management系统的功能文件输出大量重复条目。导致该功能文件大小因此翻倍,超过了系统预设的200个特征上限。因此当更新后的文件分发到全球网络节点时,运行在服务器上的流量路由软件因无法处理超量数据而崩溃,触发全网级联故障。

并且问题文件每5分钟由数据库查询自动生成并全局传播,导致故障呈周期性波动,初期被误认为是DDoS攻击,最后让核心代理系统(FL/FL2)和依赖它的Workers KV、Access等服务相继瘫痪。

而此次事件之所以波及如此广泛,主要因为Cloudflare的架构是全站代理模式,即所有客户流量必须经过其边缘网络,即使源服务器完好,只要Cloudflare的中间层失效,用户就无法访问网站。而WAF是其默认启用的核心安全组件,让几乎所有付费和免费客户都受影响。

此外,Cloudflare自身的控制面板、API、状态页也依赖同一套基础设施,导致故障期间无法及时修复或通知用户,形成雪崩效应。

更讽刺的事,在Cloudflare发生故障初期,其官方状态页一直显示所有系统都处于正常状态。不过这并非Cloudflare刻意隐瞒,而是许多状态监测服务本身就依赖于Cloudflare的基础设施

不过由于大多数海外网站,如X、ChatGPT、Spotify等国际服务在中国大陆并不支持,因此内地普通用户直接感知不强。仅对部分外贸、跨境电商平台或者使用Cloudflare服务的跨国企业有一定影响。

避免数字基础设施过度集中,但似乎并没有其他选择

这种全球性的网络崩溃已经不是第一次了,2019年7月,Cloudflare软件的一个漏洞导致其部分网络耗尽全公司计算资源,致使全球数千家依赖其服务的网站最长宕机30分钟。

去年,网络安全公司CrowdStrike所使用的一项工具中的漏洞更是让全球的电脑系统大面积崩溃,引发数千次航班延误和取消,也让政府机构和大型企业的运营陷入混乱。

仅看近期,已经有数次大范围的网络宕机,如10月份国内的知乎网站宕机,原因虽然未披露,但报错为HTTP 525,该错误码为Cloudflare提出的非标准状态码。同月,AWS发生断联事件,主要是DynamoDB配置错误;10月末,Azure也发生故障,原因是租户配置错误,导致AFD节点无法正常加载。

网络中有个笑话,当初亚马逊云出现问题的时候,全网都在批判,但如今Cloudflare发生宕机事故,全网却冷冷清清,因为连进行批判的网站也因为宕机事故登不上去了。

有网络安全人士认为,这类事故凸显了互联网对少数几家基础设施提供商的过度依赖。许多机构的关键服务都依赖同一条路径,并且没有真正有效的备份,因此一旦出现问题就是大问题。

但对于中小开发者而言,即便明白这个道理,但似乎也没有太多的选择。甚至对于开发者而言,Cloudflare更像一个大善人,可以提供提供CDN加速、DDoS防护(可抵御2Gbps+攻击)、免费SSL、全球330 +节点覆盖,几乎无流量限制。

配置上仅需修改DNS即可启用,几分钟内完成全球安全防护,对开发者几乎零门槛。安全上,WAF、Bot 管理、速率限制等功能集成,无需额外配置。最重要的是成本够低,免费版足以保护小型网站,企业版月费20美元起,远低于自建防御成本。

当然,近几年国内的厂商如阿里云、腾讯云、华为云、七牛等在价格上已经有了优势,不过在功能上,国内厂商更侧重合规性,但国际节点覆盖弱于Cloudflare,最好的阿里云国际节点也在200个左右。

不过对于目标用户全在国内,且没有强安全需求的用户而言,选择国内云厂商也足够了。但对想要出海的开发者或者想要进行全球化布局的厂商而言,基本无法放弃Cloudflare。

因为几乎没有其他真正“免费+全球+抗 DDoS+WAF”的一体化方案,而伴随着近期各大网络基础设施的故障频发,未来这种事故可能将再次发生,但全球的开发者们似乎也没有其他更好的选择了。

只能说,对于普通开发者而言,关键业务上做降级预案,例如做一些备用域名直连源站,避免过度依赖 Turnstile/Workers 等非核心功能。而国内也需要出现一个“Cloudflare for China & Global South”的开源或国有主导项目。

政策上可以鼓励云厂商提供包含基础WAF+DDoS的开发者免费套餐,推动自主可控的边缘安全标准,例如基于RISC-V的安全网关。国内要打破依赖,不能仅靠国产芯片,更要打造开发者愿意用、用得起、离不开的下一代数字基建。

写在最后

随着AI大模型的发展,AI编程也成为了越来越多网络基础服务公司的选择,因为的确会带来降本增效。与此同时也带来了更多的岗位裁撤,例如AWS在今年7月份便裁员数百人,而亚马逊更是在10月裁员3万人,覆盖AWS、广告、设备等部门,最主要的原因是AI效率提升和成本优化。

Azure也在今年计划裁员1.5万人,包括云部门,微软表示AI战略优先,计划将资源集中于Copilot、Azure OpenAI服务等,裁撤低效硬件和边缘计算团队。

AI的发展带来极大的效率提升,但也带来了一个巨大的问题,AI降低了编写复杂系统的门槛,但也降低了对系统深层理解的要求,这就导致其编程的代码成为一个风险放大器

可以预见,随着AI编程的持续普及,未来包括Cloudflare在内的云厂商故障并不会消失,但形态会演变。可能会看到更多由AI决策链引发的、人类难以直观理解的故障。

真正的解决方案不是放弃AI,而是建立与AI时代相匹配的开发、测试和运维体系,在创新与稳定之间找到平衡点。同时,修复故障的主力军也将逐渐转向AI。

未来的运维模式,很可能是“AI vs AI”的场面,一个由AI管理的系统,遇到了由AI工作负载引发的独特问题,最终由另一个专门的AI诊断和修复。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    企业网络架构全景:从全球化互联到云边协同的演进之路

    前言在全球化与数字化转型的双重浪潮下,企业网络架构已不仅是支撑业务运营的基石,更是驱动企业出海、实现全球资源整合与业务协同的核心引擎。面对全球业务布局、应用云化与安全威胁等趋势,企业需
    的头像 发表于 11-24 13:37 852次阅读
    企业<b class='flag-5'>网络</b>架构全景:从<b class='flag-5'>全球</b>化互联到云边协同的演进之路

    今日看点:塞微电子拟收购光刻机企业;小米卢伟冰:敲定2026年内存供应,手机或全线涨价

    Cloudflare的软件服务全球数十万家企业,扮演着网站与终端用户之间的"缓冲器"角色,旨在保护客户网站免受大流量攻击导致瘫痪的威胁。   经过数小时故障后,网络安全公司Cloudflar
    发表于 11-19 10:33 1255次阅读

    网络研讨会回顾 | 当性能边界被打破:一场关于RFSoC未来的深度对话

    近日,瑞苏盈科(Enclustra)以“将RFSoCADC速率从5Gsps翻倍至10Gsps”为主题的全球网络研讨会圆满落幕。来自全球多个国家的客户代表、行业专家共同参与,围绕射频系统性能跃迁的技术
    的头像 发表于 10-20 13:04 522次阅读
    <b class='flag-5'>网络</b>研讨会回顾 | 当性能边界被打破:一场关于RFSoC未来的深度对话

    全球应用加速服务如何实现?网络服务推荐排行榜

    前言在数字化转型浪潮中,全球应用加速服务已成为企业提升用户体验、拓展国际市场的重要基础设施。通过内容分发网络(CDN)、边缘计算和云网融合技术,这些服务将内容缓存至离用户最近的节点,大幅降低延迟
    的头像 发表于 09-10 09:48 1594次阅读
    <b class='flag-5'>全球</b>应用加速服务如何实现?<b class='flag-5'>网络</b>服务推荐排行榜

    构建高效全球网络,助力企业业务出海

    前言在全球经济一体化浪潮中,出海已成为中国企业应对国内市场饱和与竞争加剧的必然选择,也是众多不确定性中为数不多的“确定性”。这一趋势在政策支持与技术驱动的双重推动下正不断加速。企业通过国际化布局
    的头像 发表于 09-03 10:03 939次阅读
    构建高效<b class='flag-5'>全球网络</b>,助力企业业务出海

    DEKRA德凯产品网络安全全球准入深圳研讨会顺利举行

    随着全球网络安全监管政策不断趋严,尤其是欧盟无线电设备指令(RED)的网络安全要求已于2025年8月1日正式强制实施,网络安全已经成为全球产品市场准入的关键门槛之一。如何在复杂多变的国
    的头像 发表于 08-28 15:50 472次阅读

    自动化测试如何绕过Cloudflare验证码?Python + Selenium 脚本实战指南!

    01什么是Cloudflare验证码Cloudflare提供网络工具,并提供一套全面的安全功能,以保护网站免受各种在线威胁。Cloudflare验证码是一种用于区分人类用户和自动化机器
    的头像 发表于 08-15 10:01 896次阅读
    自动化测试如何绕过<b class='flag-5'>Cloudflare</b>验证码?Python + Selenium 脚本实战指南!

    微软系统蓝屏事件警醒全球,中国加速国产操作系统布局

    Windows设备受到影响。然而,在这场全球网络混乱中,中国依旧一片岁月静好,未受到微软Windows系统停摆的波及。究其原因,是中国正逐渐摆脱对外国操作系统的依赖。在我国
    的头像 发表于 06-13 09:44 877次阅读
    微软系统蓝屏事件警醒<b class='flag-5'>全球</b>,中国加速国产操作系统布局

    自签名证书工具cfssl详解

    CFSSL(CloudFlare's PKI and TLS toolkit)由 CloudFlare 用go语言开发的一个开源工具,用于证书签名、验证和管理。
    的头像 发表于 06-11 16:30 534次阅读
    自签名证书工具cfssl详解

    跨境业务破局利器:动态IP如何重塑全球网络连接生态

    在跨境电商直播卡顿、海外社媒矩阵频繁封号、跨境支付通道受阻的场景中,你是否意识到这些问题的根源可能指向同一个技术盲区——IP地址管理?当企业将目光聚焦在供应链优化与营销策略时,网络底层的IP资源调配能力正在成为决定跨境业务生死存亡的隐形战线。
    的头像 发表于 05-08 18:08 661次阅读

    IPv6 开启网络新时代的强劲引擎

    在互联网技术迅猛发展的今天,IPv6作为新一代互联网协议,正以不可阻挡的势头引领全球网络进入一个全新的演进阶段,成为开启网络新时代的关键钥匙。IPv6部署现状:全球加速,中国领跑2024年,
    的头像 发表于 03-28 13:47 1023次阅读
    IPv6 开启<b class='flag-5'>网络</b>新时代的强劲引擎

    华为网络安全产品荣获BSI首批漏洞管理体系认证

    MWC25巴塞罗那期间,华为面向全球网络安全技术精英、行业客户、专家学者等举办了网络安全专题研讨会(全球),共同研讨网络安全数据治理、安全技术、SASE(安全访问服务边缘)、漏洞管理等
    的头像 发表于 03-11 09:34 758次阅读
    华为<b class='flag-5'>网络</b>安全产品荣获BSI首批漏洞管理体系认证

    恒讯科技分析:SD-WAN海外直播专线是如何部署的?

    SD-WAN海外直播专线的部署涉及多个步骤,主要包括需求分析、选择合适的SD-WAN服务商、全球网络节点选择、监控和优化部署等。以下是具体的部署步骤: 1、需求分析: 首先明确直播的规模、用户分布
    的头像 发表于 12-23 12:26 1240次阅读

    Cloudflare发布2024年度互联网流量趋势报告

    近日,内容分发网络服务商Cloudflare发布了其年度互联网流量趋势报告,揭示了2024年全球互联网流量的关键变化和持续趋势。 据报告显示,今年全球互联网流量实现了17.2%的同比增
    的头像 发表于 12-18 11:00 1284次阅读

    OpenAI就ChatGPT宕机事件致歉

    近日,全球领先的AI研究机构OpenAI遭遇了一次重大的服务中断事件,其备受欢迎的聊天机器人ChatGPT在全球范围内出现了宕机现象。与此同时,Sora及相关的API服务也受到了波及,无法正常运作
    的头像 发表于 12-16 09:47 1097次阅读