防火长城后的监控

Dotcom-Monitor 中国功能的技术 SRE 分析
Dotcom-Monitor Monitoring Locations in China

摘要

作为管理全球基础设施的站点可靠性工程师 (SRE),我们在为中国大陆用户提供服务时面临着独特的挑战。中国的防火长城创造了一个复杂的技术障碍网络,即使是最强大的国际网站也会变得缓慢、不可靠或完全无法访问。这项全面分析检查了 Dotcom-Monitor 在中国的监控功能,提供了有关性能模式、基础设施挑战和监控策略的技术见解,这些策略对于维护防火墙后的服务可靠性至关重要。

通过对 Dotcom-Monitor 在中国大陆的六个监控位置(北京、成都、广州、青岛、上海和深圳)的详细分析,我们探讨了防火长城的复杂过滤机制如何造成日常性能波动、DNS 解析问题和内容交付挑战,这些挑战需要专门的监控方法。这项技术深入探讨了每个 SRE 在监控托管在中国境外但为中国用户服务的网站时必须考虑的 10 个关键问题。

引言:中国互联网基础设施的技术现实

中国的互联网基础设施是一个与全球互联网截然不同的生态系统,这给负责国际服务交付的 SRE 带来了独特的挑战。中国防火长城,正式名称为金盾工程,代表了世界上最复杂的互联网审查和流量管理系统,采用多层过滤、检查和路由控制,直接影响网站性能和可靠性。

从技术角度来看,防火长城通过复杂的架构运行,包括 DNS纵、深度数据包检测 (DPI)、IP 地址阻止、URL 过滤、连接重置机制和 VPN 检测系统。这些系统不仅仅是二进制允许/拒绝过滤器,而是复杂的流量管理工具,它们会引入可变的延迟、数据包丢失和连接不稳定,这些都会根据流量模式、内容敏感性和政府政策执行情况在一天中波动。

对于 SRE 来说,这带来了不同于全球任何其他区域的监控挑战。在北美、欧洲或其他亚洲市场有效运行的传统监控方法无法捕捉到中国跨境互联网流量特有的细微性能下降和间歇性故障。Dotcom-Monitor 在中国大陆的存在提供了对这些性能模式的关键可见性,为 SRE 提供了了解、预测和减轻防火墙对其服务的影响所需的数据。

了解 Dotcom-Monitor 的中国基础设施

Dotcom 监视器在中国的监控位置
图 1:Dotcom-Monitor 在中国的战略监控位置,显示了防火长城后面的六个中国大陆位置和香港作为防火墙管辖范围之外的控制位置。

Dotcom-Monitor 在中国大陆的六个战略位置运行监控代理,每个位置都位于防火长城后面,并受到影响真实中国用户的相同筛选和路由约束的约束。这些地点包括北京(政治和技术中心)、上海(金融中心)、广州(制造业和贸易中心)、深圳(技术创新中心)、成都(西部区域中心)和青岛(东部沿海工业中心)。

这些监控点的战略分布提供了对中国多样化网络基础设施的全面覆盖,其中以中国电信和中国联通两大 ISP 为主。这些 ISP 在政府监督下运营,并实施的路由策略可能因地区而异,从而产生性能差异,需要多位置监控才能充分了解。

重要的是,Dotcom-Monitor 还在香港设有一个监控代理,该代理在防火长城的管辖范围之外运行。这为 SRE 提供了一个关键控制点,可以将防火长城对性能的影响与其他因素(如地理距离或一般网络拥塞)隔离开来。Hong Kong 代理是了解没有防火墙干扰的性能情况的基准,从而在出现性能问题时实现更准确的根本原因分析。

Dotcom-Monitor 的中国监控代理的技术架构旨在从中国互联网基础设施的受限环境中模拟真实用户行为。这些代理会受到影响实际中国用户的相同 DNS 解析问题、内容阻止和流量调整的影响,从而提供反映真实用户体验的真实性能数据,而不是理想化的网络条件。

1. 防火墙过滤:技术架构和性能影响

 

防火长城架构
图 2:中国防火墙的技术架构,显示了多层过滤方法,包括 DNS 中毒、IP 阻止、深度数据包检查、URL 过滤、连接重置机制和 VPN 检测。

Great Firewall 的过滤机制代表了有史以来在全国范围内部署的最复杂的流量管理系统之一。从 SRE 的角度来看,了解这些机制对于预测和诊断影响中国用户的性能问题至关重要。

多层过滤架构

长城防火墙采用多层方法进行流量过滤,该方法在网络堆栈的不同级别运行。在 DNS 级别,该系统实施了广泛的 DNS 中毒和欺骗,纵 DNS 缓存以包含被阻止域的错误 IP 地址这给 SRE 带来了根本性的挑战,因为 DNS 解析失败可能表现为网络连接问题,而不是故意阻止。

该系统还实施了全面的 IP 地址阻止,无论用于访问它们的域名如何,都阻止访问特定的 IP 范围。自 2022 年以来,这项技术变得越来越复杂,即使绕过 DNS 解析,防火墙现在也能够阻止直接 IP 访问对于管理 CDN 配置的 SRE,这意味着依赖于基于 IP 的访问的故障转移策略在中国可能无法可靠地工作。

在应用程序层,长城防火墙对未加密的流量执行深度数据包检测 (DPI),扫描敏感关键字、禁止的内容和特定协议模式。此检查过程引入了可变延迟,具体取决于流量、内容敏感性和检查算法的计算开销在高峰时段,当检测系统负载较重时,这可能会使响应时间增加数百毫秒。

性能影响量化

每日表现模式
图 3:每日性能波动模式,显示了防火长城对全天延迟和丢包率的巨大影响,美国中部标准时间凌晨 4 点到 6 点表现最佳,美国中部标准时间晚上 7 点到 9 点表现最差。

Dotcom-Monitor 的数据提供了防火长城性能影响的具体证据。在 Amazon.com 的比较测试中,广州的监测代理记录的平均响应时间为 30.4 秒,而纽约为 4.42 秒,香港为 2.76 秒这种巨大的差异表明,仅靠地理距离并不能解释中国用户所经历的性能下降。

性能影响因内容类型和目标而异。CDN 上托管的静态资产可能会遇到与动态 API 调用不同的筛选开销,并且某些域或 IP 范围可能会比其他域或 IP 范围受到更严格的检查。SRE 在为中国流量设置性能基准和警报阈值时必须考虑这种可变性。

2. DNS 解析问题:ISP 行为和系统故障

中国的 DNS 解析带来了独特的挑战,这些挑战远远超出了其他地区遇到的典型 DNS 问题。中国 ISP 表现出系统性的行为,这些行为可能导致解析失败、响应不一致和性能下降,从而直接影响用户体验。

DNS 和 CDN 数据
图 4:对 DNS 解析失败率、被阻止的第三方服务、CDN 性能比较以及中国监控的推荐 SLA 基线的综合分析。

特定于 ISP 的 DNS 行为模式

来自中国主要 DNS 基础设施提供商的研究显示,不同 ISP 和地区的 DNS 解析成功率存在显著差异中国的 DNS 解析器显示,IPv6 查询的失败率为 66%,IPv4 查询的失败率为 12.5%,远高于全球平均水平 [8]。这些故障不是随机的,而是遵循基于 ISP 基础设施、区域路由策略和政府过滤要求的可预测模式。

中国电信和中国联通这两家占主导地位的 ISP 实施了不同的 DNS 解析策略,这可能导致同一域查询的行为不一致。这种不一致对于管理全球负载均衡或地理路由的 SRE 来说尤其成问题,因为基于 DNS 的流量分配可能无法在不同的中国 ISP 之间可靠地工作

DNS 缓存中毒和纵

防火长城将系统性的 DNS 缓存中毒作为主要审查机制,纵 DNS 响应以将流量从被阻止的域重定向出去这种中毒不仅会影响明显被阻止的域,还会影响与被阻止的服务共享基础设施或 IP 范围的合法域。

对于 SRE,这会产生一个特别隐蔽的问题:DNS 解析可能从外部监控点似乎可以正常工作,但对于中国境内的用户来说,DNS 解析可能会失败或返回错误的结果。Dotcom-Monitor 位于中国的代理提供对这些 DNS纵事件的可见性,使 SRE 能够检测其域何时受到附带 DNS 中毒的影响。

3. CDN 和资产交付挑战:内容分发的复杂性

内容交付网络 (CDN) 在为中国用户提供服务时面临着独特的挑战,传统的全球 CDN 策略往往被证明是不够的或适得其反。了解这些挑战对于 SRE 为中国用户设计内容交付策略至关重要。

中国的全球 CDN 限制

没有中国大陆业务的全球 CDN 面临着无法通过传统优化技术克服的根本限制。即使 CDN 边缘节点位于香港或新加坡等地理位置邻近的位置,流量仍必须穿过防火长城才能到达中国用户,使其受到与直接源站连接相同的过滤、检查和限制机制

此限制对性能的影响是巨大的。研究表明,中国大陆以外的 CDN 边缘节点为中国用户提供的性能优势微乎其微,尽管地理位置接近,但响应时间通常保持在数百毫秒发生这种情况是因为 Great Firewall 的检查和过滤过程引入了延迟,这掩盖了缩短地理距离的好处。

阻止的第三方依赖项

SRE 面临的最重大挑战之一是新式 Web 应用程序中常用的第三方服务和依赖项的广泛阻塞。Google 服务,包括 Google Analytics、Google Fonts、Google Maps API 和 reCAPTCHA,在中国受到系统性屏蔽或严重限制来自 Facebook、Twitter 和 YouTube 的社交媒体小部件同样无法访问,网站依赖的许多开发和分析工具来实现功能和监控。

这种阻止会创建一个级联故障场景,即网站可能看起来加载了,但由于第三方资源加载失败而缺乏关键功能。从监控的角度来看,这意味着传统的正常运行时间检查可能会报告成功,而用户遇到功能损坏或严重降级的情况。Dotcom-Monitor 在中国的真实浏览器测试功能可以检测简单 HTTP 检查会错过的这些部分故障。

4. 准确的性能指标:了解真实的用户体验

要获得中国用户的准确性能指标,需要采用与全球其他地区截然不同的方法。中国互联网基础设施的独特特性意味着外部监控点无法提供中国境内实际用户体验的可靠指标。

延迟模式和基准建立

从中国到国际目的地的网络延迟遵循可预测但复杂的模式,这些模式根据一天中的时间、流量和防火长城处理开销而变化。ThousandEyes 的研究表明,从中国监控点到美国网站的延迟范围从低流量时段(中国标准时间凌晨 4 点到 6 点)的大约 150 毫秒到高峰时段(中国标准时间晚上 7 点到 9 点)的超过 300 毫秒不等

这些昼夜模式不仅仅是由于网络拥塞造成的,还反映了 Great Firewall 检查系统在高流量期间处理开销的增加。当流量较高时,筛选基础设施需要更多时间来处理和检查流量,从而造成可预测的性能下降,SRE 必须在其监控和警报策略中考虑这些损失。

数据包丢失和连接可靠性

从中国到国际目的地的丢包率明显高于典型的互联网标准,美国网站流量的常见丢失率为 6.9%,而美国国内流量的丢失率为 0.04%这种高丢包率并不表示网络基础设施存在问题,而是反映了 Great Firewall 的过滤和检查系统的正常运行。

5. 内容拦截和无法访问:检测和缓解策略

中国的内容阻止通过复杂的机制运行,这些机制可能导致完全无法访问、部分功能丢失或难以检测和诊断的间歇性故障。SRE 必须实施全面的监控策略,以便在这些问题影响用户体验之前识别这些问题。

静默阻塞机制

防火长城的阻止机制被设计为不透明的,没有向用户或监控系统提供内容被故意阻止的明确指示系统通常通过连接超时、DNS 解析失败或无限加载状态来显示阻止,而不是显示明确的阻止页面或错误消息,这些状态可能会被误认为是网络连接问题。

这种隐蔽的阻止方法给 SRE 带来了重大挑战,因为当内容被阻止时,可能不会触发传统的监控警报。当实际原因是内容过滤时,网站可能似乎遇到了网络问题或服务器问题。Dotcom-Monitor 位于中国的监控代理可以通过比较不同位置的性能和可访问性并识别与故意过滤一致的模式来检测这些阻止事件。

6. 监管和合规性监控:导航策略实施

中国的互联网法规造成了复杂的合规环境,直接影响网站的可访问性和性能。SRE 必须了解这些法规要求,并实施可以检测合规性相关中断的监控策略。

ICP 许可和域注册要求

互联网内容提供商 (ICP) 许可系统要求为中国用户提供服务的网站获得政府批准并向中国当局注册其域没有适当 ICP 许可的网站在应用强制机制时可能会遇到阻止、限制或其他性能下降的情况。

监控合规性相关问题需要了解许可状态和性能模式之间的关系。具有适当 ICP 许可的网站可能会遇到与不合规运行的网站不同的性能特征,并且许可状态的变化可能会触发突然的可访问性变化,这些变化表现为技术故障。

7. 本地 ISP 路由可变性:了解网络多样性

网络拓扑和监控仪表板
图 5:显示路由复杂性的跨境网络拓扑和显示中国所有 Dotcom 监控位置的实时状态的多维监控仪表板。

中国的互联网基础设施在不同 ISP 和地区之间表现出显著的路由差异,造成了性能差异,需要全面监控才能了解和优化。

ISP 基础架构差异

中国的互联网格局由中国电信和中国联通主导,但这些 ISP 实施不同的路由策略、基础设施投资和性能特征,这可能会显著影响用户体验这些 ISP 之间的技术差异不仅限于简单的容量差异,还包括路由首选项、国际连接策略和流量管理策略。

中国电信通常提供更好的国际连接和更低的海外目的地延迟,而中国联通可能提供卓越的国内性能,但更高的国际延迟这些差异意味着同一网站对不同 ISP 上的用户的性能可能截然不同,因此需要根据 ISP 特定的性能模式进行监控。

BGP 和路由控制限制

与大多数 ISP 对 BGP 路由决策拥有重大控制权的国际市场不同,中国 ISP 在政府监督下运营,这可能会限制其路由优化选项Dotcom-Monitor 的文档特别指出,他们“在我们在中国的数据中心无法控制 BGP(路由)”,因为“BGP 由政府实体控制”

政府对路由决策的这种控制意味着网络性能问题可能无法通过传统的技术优化方法解决。SRE 必须了解这些限制并实施监控策略,以检测与路由相关的性能问题,同时认识到解决方案可能需要策略级别的更改,而不是技术干预。

8. 提高用户支持和 SLA 准确性:数据驱动的服务管理

来自中国境内的准确监控对于为中国用户提供有效的用户支持和维护切合实际的服务水平协议 (SLA) 至关重要。中国互联网环境的独特性能特征需要专门的服务管理和客户支持方法。

SLA 定义和基线建立

由于防火长城背后的网络性能特征存在根本差异,为全球受众开发的传统 SLA 指标通常不适合中国用户由于过滤和检查系统引入的固有延迟和数据包丢失,在北美或欧洲很容易实现的响应时间目标在中国可能无法始终如一地实现。

SRE 必须建立特定于中国的 SLA 基准,以说明防火长城的正常运行,同时仍提供有意义的性能目标。这需要从中国的监测点收集大量历史数据,以了解典型的性能范围,并为不同类型的流量和内容建立现实的期望。

9. 第三方服务故障检测:依赖管理

现代 Web 应用程序在很大程度上依赖第三方服务来实现从分析和广告到支付处理和用户身份验证的各种功能。在中国的互联网环境中,这些依赖项会带来重大的可靠性风险,需要专门的监控方法。

全面的依赖关系映射

在中国进行有效监控需要全面映射所有第三方依赖项及其在中国境内的可访问性状态全球可靠的服务在中国可能会被完全阻止或严重降级,从而产生级联故障,即使核心基础设施仍然正常运行,也可能使应用程序无法使用。

随着阻塞模式的发展和新服务的引入,必须持续维护这种依赖关系映射。SRE 必须实施监控策略,以检测以前可访问的第三方服务何时被阻止或降级,从而允许快速实施替代解决方案。

10. 商业声誉保护:主动绩效管理

维护中国的商业声誉需要主动的性能管理,以防止问题影响用户体验,并表明对有效服务中国客户的承诺。

性能优化策略

为中国用户进行有效的性能优化需要了解中国互联网环境中的具体技术限制和机会如果不考虑防火长城对流量模式和内容交付的影响,传统的优化技术可能会无效或适得其反。

优化策略必须考虑中国互联网基础设施的独特特征,包括本地托管的重要性、对替代第三方服务的需求以及内容敏感性对性能的影响。SRE 必须实施全面的监控,以衡量优化工作的有效性,并确保更改确实改善了用户体验。

Dotcom-Monitor 在中国监控方面的技术优势

Dotcom-Monitor 的中国监控方法提供了多项技术优势,解决了防火长城后面监控的独特挑战。了解这些优势有助于 SRE 就监控策略和工具选择做出明智的决策。

真实的用户体验模拟

Dotcom-Monitor 在中国的监控代理受影响真实中国用户的相同过滤、路由和性能约束这种真实的环境提供的监控数据可以准确反映用户体验,而不是从外部监控点测量的理想化网络条件。

Dotcom-Monitor 的 EveryStep 脚本工具提供的真实浏览器测试功能允许对用户工作流进行全面测试,并检测简单 HTTP 监控会遗漏的问题。这包括测试对现代 Web 应用程序至关重要的 JavaScript 执行、第三方资源加载和复杂的用户交互。

全面的地理覆盖

中国大陆的 6 个监测点全面覆盖了中国多样化的网络基础设施和区域性能变化这种分布式监控方法使 SRE 能够了解不同 ISP、区域和网络条件的性能模式,而不是依赖来自单个位置的数据,这些数据可能无法代表更广泛的中国用户群。

SRE 的实施建议

基于对中国互联网环境和 Dotcom-Monitor 能力的技术分析,为 SRE 为中国用户实施监控策略提出了几项关键建议。

建立特定于中国的基线

SRE 必须建立特定于中国互联网环境的性能基线,而不是应用可能不适合中国环境的全球标准这些基准应考虑 Great Firewall 的正常运行,包括昼夜性能模式、典型丢包率和预期延迟范围。

实施多维度监控

在中国进行有效监控需要一种多维方法,包括多个地理位置、不同的 ISP、各种内容类型和完整的用户工作流程单点监控不足以理解中国互联网环境的复杂性能模式和故障模式特征。

制定针对中国的事件响应程序

中国用户的事件响应程序必须考虑到中国互联网环境中可用的独特技术限制和解决选项在其他地区可以通过传统技术手段快速解决的问题可能需要不同的方法,或者由于政策或基础设施的限制而根本无法解决。

结论:基于中国的监测的战略重要性

从中国境内监控网站性能不仅仅是一项技术上的技巧,而且是任何为中国用户服务的组织的战略必要条件。中国互联网环境的独特特性带来了性能和可靠性挑战,无法通过外部监控方法来理解或解决。

Dotcom-Monitor 在中国的综合监控基础设施为 SRE 提供了必要的可见性,以理解、预测和应对在防火长城后面为用户提供服务的复杂技术挑战。从造成日常性能波动的复杂过滤机制到可能导致间歇性故障的 DNS 解析问题,中国互联网环境的技术挑战需要专门的监控方法,以应对该市场的独特限制和机遇。

本分析中研究的十个关键领域(从防火长城过滤和 DNS 解析问题到 CDN 挑战和法规遵从性)表明了为中国用户维护可靠服务的复杂性。每个领域都需要特定的技术理解和监测策略,这些策略超越了传统的全球监测方法。

对于负责全球服务交付的 SRE 来说,实施全面的中国监控对于维护服务可靠性、提供有效的用户支持以及在全球最大和最重要的互联网市场之一保护商业声誉至关重要。对中国特定监控功能的投资在改善用户体验、降低支持成本和增强在中国市场的竞争地位方面取得了回报。

随着中国互联网环境的不断发展,新的法规、基础设施的发展和政策变化影响了服务交付,全面监控的重要性只会越来越大。如今实施稳健的中国监控策略的 SRE 将能够更好地适应未来的变化,并为中国用户保持卓越的服务。

防火长城背后的监控技术挑战是巨大的,但并非不可克服。借助正确的工具、策略和对技术环境的了解,SRE 可以成功应对这些挑战,并为中国各地的用户提供可靠、高性能的服务。Dotcom-Monitor 的中国监控功能为这项工作奠定了坚实的基础,提供了在这个复杂但至关重要的市场中取得成功所需的可见性和洞察力。

Facebook
Twitter
LinkedIn
电子邮件
打印