API 监控:定义、指标、类型及设置指南

快速定义

API 监控 是验证 API 端点的可用性、响应时间和数据正确性的持续自动化实践 —— 不仅确认端点有响应,还确认其返回正确的数据、正确的格式,并在可接受的延迟内,从用户和依赖系统的角度来看。

API 监控作为数字神经系统的编辑插图——互联数据节点、服务器机架、云平台和通过发光数据路径连接的地球仪,前景是半透明的仪表板面板。
API 是现代软件的连接组织。用户每次登录、提交付款或接收实时通知时,背后都会执行多个 API 调用——通常跨微服务、云提供商和第三方供应商。当这些调用失败或变慢时,影响立即显现:结账流程中断、用户被锁定、收入损失。

然而,大多数团队仅在客户报告时才发现 API 失败。没有主动监控,失败与调查之间的滞后通常以数十分钟计——这段时间足以暴露真正的收入和 SLA 风险,甚至在任何人收到警报之前。

本指南解释了什么是 API 监控、其工作原理、需要跟踪的指标、它如何区别于 API 测试和 APM 以及如何实施——为 DevOps 工程师、SRE 和 QA 团队提供制定明智生产决策所需的精准工具。

什么是 API 监控?

API 监控涵盖三个不同层次的验证,按特异性递增排序:

  • 可用性监控——端点可否访问?是否在超时前返回 HTTP 响应?
  • 性能监控——响应时间是多少?TTFB、DNS 解析或 TLS 握手是否引入延迟?
  • 有效载荷验证——响应体是否包含预期的数据结构?JSONPath 或 XPath 断言是否通过?
HTTP 200 陷阱。 HTTP 200 状态码并不保证正确性。上游依赖降级时,可能返回 200 状态,但数据为空、过时或格式错误。完整的 API 监控会验证响应有效载荷——不仅仅是状态码。这也是简单的正常运行时间检查器失败的原因,也是有效载荷断言能够捕捉仅有可用性监控无法识别的隐性失败的关键能力。

什么是 API 端点?

应用程序编程接口(API)是一套允许软件系统通信的协议和定义。API 端点是 API 接收请求并返回响应的特定 URL——这是 API 监控的观测单位。例如:

  • POST /v2/auth/token —— 令牌发放端点
  • GET /v2/orders/{id} —— 订单检索端点
  • POST /v2/payments/charge —— 支付处理端点

现代应用通常同时依赖数十个甚至数百个此类端点——内部微服务、第三方支付网关、身份验证提供商、运输 API 及 CRM 系统。API 监控确保对它们全部保持可见性。

API 监控的类型

并非所有 API 监控都是一样的。了解分类有助于团队构建符合架构和业务需求的覆盖。五个核心类型适用于几乎所有团队;特殊类型则适用于其特定条件。

核心类型

类型 验证内容 最适合
正常运行时间监控 端点可访问性;HTTP 响应代码;超时时间内响应 基础可用性 SLA;即时故障检测
性能监控 响应时间、TTFB、DNS 解析、TCP 握手、TLS 时间、吞吐量 延迟 SLA,P95/P99 目标,容量规划
有效载荷/验证监控 通过 JSONPath/XPath 断言响应体;架构正确性;字段值 捕捉 HTTP 200 ≠ 正确数据的隐性失败
合成监控 从全球位置定期执行模拟 API 调用,与真实流量无关 主动检测;地理覆盖;零流量时段
多步骤事务监控 链式 API 调用序列(如认证→查询→提交→确认);步骤间数据传递 电商流程,登录流程,订单工作流

专用类型

类型 验证内容 最适合
安全监控 认证失败、异常请求模式、证书过期、速率限制滥用、令牌重放 金融科技、医疗保健;处理 PII/PHI 的 API
合规相关检查 TLS 版本/密码验证、证书过期、安全头存在、权限强制测试 医疗、金融服务、受监管行业
真实用户监控(RUM) 实际用户的 API 交互;完整会话可见性;真实地理和设备差异 了解真实用户影响;验证合成检测结果
版本控制与弃用监控 API 版本采用率;版本变更后的错误激增;向后兼容性 同时管理多个 API 版本的团队
第三方/集成监控 外部 API 依赖(Stripe、Okta、Salesforce、Twilio);区分外部与内部故障 依赖第三方 API 进行关键工作流的任何应用

关于合规相关检查:这些提供特定技术控制的支持证据。框架合规(HIPAA、PCI DSS、SOC 2)需要超出监控本身的更广泛组织治理。

合成监控与真实用户监控(RUM)

并列插图:左侧显示机器人合成监控探针向全球 API 端点发送稳定定期检查;右侧显示真实用户向同一网络发送不规则爆发的 API 请求。 合成监控从受控地点持续执行定期检查。RUM 捕捉真实用户带来的设备、网络与行为的多样性。

两者均提供 API 性能数据,但视角根本不同:

合成监控 真实用户监控 (RUM)
触发方式 按照计划脚本执行检查(例如每 1 分钟一次) 生产环境中的实际用户请求
覆盖范围 24/7 运行——包括无真实用户时 仅在用户活跃发起请求时生成数据
发现模式 主动——在任何用户受影响之前捕捉故障 被动——用户受影响后才暴露问题
范围 公有和私有/内部 API(通过 Private Agent) 被真实用户/客户端访问的 API——主要是面向公众的,企业级 RUM 也能捕获被检测应用的内部 API 调用
使用场景 持续的可用性与性能验证 理解真实影响范围及用户体验
最佳实践:首选合成监控作为防线——它在用户之前捕捉故障。利用 RUM 验证实际影响,理解完整的用户体验。

关键 API 监控指标

追踪正确的指标是明智响应事故与警报疲劳之间的关键。以下是最重要的指标——附带准确基准及其含义。

指标 目标 / 基准 捕捉内容
可用性(正常运行时间 %) ≥ 99.9%(三9);对营收关键 API 为 99.99% 完全宕机、部分宕机、超时
总响应时间 简单端点 < 200ms;复杂操作 < 1s 服务器变慢、过载、部署回退
首字节时间 (TTFB) 理想 < 100ms;可接受 < 300ms 响应开始前的服务器处理延迟
P95 / P99 响应时间 端点基线 P95 的 2 倍触发警报;根据端点行为调整 影响最慢 1–5% 请求的尾部延迟
错误率 (4xx / 5xx) 生产环境 API < 0.1% 认证失败、错误输入处理、服务器错误
DNS 解析时间 同区域缓存查询 < 50ms;跨区域可超过 100ms DNS 传播问题、解析器故障
TLS 握手时间 < 100ms 证书配置错误、TLS 版本协商问题
有效载荷断言通过率 100%(任何失败均触发警报) 隐性失败:HTTP 200 响应但数据错误或缺失
吞吐量(请求/秒) 与历史基线比较 异常流量下降或峰值
证书过期(剩余天数) 30 天警报;7 天关键 即将过期的 TLS 证书

响应时间基准

优秀
< 100ms
用户几乎无感知
良好
100–200ms
适用于大多数用例
可接受
200–500ms
可容忍;需监控趋势
500ms–1s
需调查
> 1秒
明显影响转化;> 3秒为关键

API 监控如何工作?

了解技术机制有助于团队正确配置监控并准确解读结果。

核心监控循环

  1. 计划安排。 合成检查以配置的间隔(如每 1 分钟)从选定的全球监控地点运行。
  2. 发送请求。 监控代理向目标端点发送 HTTP 请求,包括 HTTP 方法(GET、POST、PUT、PATCH、DELETE)、请求头、认证凭据和请求体。
  3. 时间测量。 代理记录 DNS 解析时间、TCP 连接时间、TLS 握手时间、首字节时间 (TTFB) 和总响应时间,作为不同组成部分。
  4. 断言。 根据配置的断言评估响应——HTTP 状态码、响应时间阈值、响应头和通过 JSONPath(REST)或 XPath(SOAP)的有效载荷内容。
  5. 警报或通过。 任一断言失败或请求超时后,创建事件并根据通知规则发送警报。
  6. 记录。 保存所有结果(通过和失败),连同时间戳、响应数据和断言结果,用于历史趋势分析和 SLA 报告。
水平瀑布图显示 HTTP 请求的各阶段,彩色条叠加:DNS、TCP、TLS、服务器处理和主体传输,TTFB 脚注覆盖 DNS 到服务器处理。 HTTP 请求的组成阶段。TTFB 包括 DNS、TCP、TLS 和服务器处理,但不包括主体传输。主体传输慢而 TTFB 快通常是因为有效载荷大;TTFB 慢而主体快通常是服务器端处理慢。

多步骤 API 事务监控

五阶段 API 事务链:认证、产品查询、加入购物车、结账和支付确认,箭头显示步骤间传递令牌和会话ID。 真实用户旅程通常不是单一 API 调用。多步骤监控将调用串联并自动在步骤间传递动态值(令牌、会话ID、订单ID)。

单端点监控确认单个端点响应,但真实用户旅程是链式调用,每一步依赖前一步的输出。

举例电商结账流程:

  • 步骤 1POST /auth/token:认证用户;从响应体提取 access_token
  • 步骤 2GET /products/{id}:获取产品详情;将令牌注入 Authorization
  • 步骤 3POST /cart/add:添加商品;从响应提取 cart_id
  • 步骤 4POST /checkout/initiate:使用 cart_id 开始结账;提取 checkout_session_id
  • 步骤 5POST /payments/charge:处理支付;断言响应字段 order_status 等于 'confirmed'

单端点监控可能每一步都通过,但整个事务失败——例如步骤间会话数据传递错误,令牌中途过期,或支付 API 返回 HTTP 200 但有效载荷内有错误。多步骤监控将整个链作为一个监控任务执行,独立断言每个步骤,并自动在步骤间传递动态值。

Dotcom-Monitor 支持通过将顺序 API 调用链入单一监控任务,实现多步骤事务监控。步骤间的变量提取和注入自动完成,每步独立断言,能准确定位事务中断的具体步骤。

有效载荷验证:JSONPath 和 XPath 断言

有效载荷验证是监控区别于简单可用性 ping 的关键。断言表达方式因工具而异,但逻辑一致:

  • JSONPath 字段访问(REST): 访问 $.data.status —— 然后断言返回值等于 'active'
  • JSONPath 数组检查: 访问 $.items —— 断言数组长度大于 0
  • XPath 断言(SOAP): //order/status/text() —— 断言节点值等于 'confirmed'
  • 头部断言: 断言 Content-Type 头值等于 'application/json'
  • 响应时间断言: 断言总响应时间低于 500ms
关于 JSONPath 的兼容性提示。 不同实现(Jayway、Goessner、RFC 9535)语法有所差异。建议将断言表达为字段路径加独立条件,而不是依赖内联比较操作符,确保跨工具兼容。

认证监控

生产环境 API 需要认证。监控工具必须支持与真实 API 客户端相同的认证方式。生产级监控平台应支持的认证方案:

认证方式 描述 备注
OAuth 2.0 — 客户端凭证 机器对机器;客户端直接用凭证换令牌 服务器对服务器 API 监控最常见
OAuth 2.0 — 授权码 用户委托授权;通常与 PKCE 一起用于 SPA/移动应用 监控工具需自动处理令牌刷新
OAuth 2.0 — 资源所有者密码凭证 (ROPC) 直接用户名+密码交换——旧流程 仅在授权码不可行时使用
Bearer Token (JWT) 静态或动态刷新的令牌在 Authorization 短寿命 JWT 需自动刷新
API Key 静态密钥在头、查询参数或 Cookie 最简单监控;注意轮换事件
基本认证 Authorization 头中 Base64 编码的 username:password 遗留方案,企业和内部 API 常见
AWS 签名 v4 使用 AWS 凭证的 HMAC 签名请求 AWS API Gateway 端点必需
mTLS / 客户端证书 双向 TLS —— 双方均提供证书 零信任环境;证书过期监控关键
NTLM / Kerberos Windows/Active Directory 集成认证 企业内网 API;云原生栈较少见
自定义头 通过自定义请求头实现专有认证方案 非标准认证的通配方案

令牌过期是监控误报的主要原因。OAuth 2.0 访问令牌生命周期随实现和授权类型差异很大。用户委托令牌(授权码流程)通常有效 15 分钟到 1 小时。机器对机器令牌(客户端凭证流程)通常配置为更长时间——1 小时到 24 小时——以减少刷新开销。高安全环境可能强制 5 分钟。无论时间长短,不支持自动令牌刷新的监控工具将产生误报,或需手动轮换凭证,增加运营负担和宕机风险。

关于 OAuth 2.0 隐式授权(Implicit grant):该方式已被当前 OAuth 2.0 安全最佳实践(RFC 9700)弃用,不应在新系统中使用。如现有 API 使用隐式流程,强烈建议迁移到授权码 + PKCE。

API 监控的重要性:业务影响

API 不是基础设施抽象,它们是收入通路。故障带来财务、运营和合约影响。

未检测 API 故障的代价

缺乏主动监控,团队依赖客户报告发现故障。行业调查显示,客户报告的平均故障检测时间(MTTD)远超 30 分钟——投诉提交、调查、分类和升级所花时间窗口已过。合成监控以 1 分钟检查间隔的持续运行将检测时间缩短至 60 秒以内,提前定位根因,防止问题恶化。

收入计算公式简单:订单数量/分钟 × 平均订单价值 × 宕机分钟数。若平台处理 100 单/分钟,平均订单 50 美元,一次支付 API 宕机 5 分钟即损失潜在收入 2.5 万美元。可根据自身订单量和价值估算风险。

特定行业场景

  • 电商。峰值流量时结账 API 故障将阻止所有转化。支付授权 API 返回 HTTP 200 但状态拒绝,无警报,导致交易默默阻断数分钟。
  • 金融科技。交易处理 API 要求亚秒级延迟。持续超过 SLA 阈值的性能退化可导致 PCI DSS 处罚和审计问题。
  • 医疗保健。电子健康记录(EHR)集成 API 和远程医疗端点必须保持 HIPAA 合规。返回 HTTP 200 但患者数据不全的 API 是合规事件,不仅仅是性能问题。
  • SaaS / API 即产品。当 API 是计费产品时,宕机会触发合同 SLA 罚款和客户流失。监控提供纪录的正常运行时间证据以确保 SLA 遵守。
  • 企业 IT。跨部门的 CRM、ERP 和人力资源 API 集成。Salesforce API 降级可在不生成任何 500 错误日志的情况下默默破坏全组织销售流程。

第三方 API 风险

现代应用依赖无法控制的外部 API:支付网关(Stripe、PayPal、Braintree)、身份验证提供商(Okta、Auth0、AWS Cognito)、运输 API 和 CRM 系统。这些服务降级时,尽管自身基础设施健康,用户体验却如同应用故障。

监控第三方端点可帮助团队即时区分故障是否内部导致——否则区分需要较长调查时间。还可提供正式证据支持要求供应商遵守 SLA。

别再从客户那里得知 API 故障。

Dotcom-Monitor 的合成 API 监控在 60 秒内检测故障,并将警报直接发送至 PagerDuty、Slack 或 Microsoft Teams。从一个平台监控支付网关、身份验证提供商和内部 API。
免费试用 30 天 →   无需信用卡

API 监控与 API 测试的区别

两者均验证 API 行为,但在软件交付生命周期中用途不同。混淆会导致覆盖缺口。

维度 API 测试 API 监控
时间点 部署前——开发、QA、CI/CD 流水线 部署后——生产环境持续运行
环境 开发、预发布、受控测试环境 实时生产、真实基础设施、真实流量
触发 代码提交、构建、手动运行、PR 审查 定期(如每 1 分钟)、24/7 持续
目标 防止缺陷进入生产 检测生产环境中的失败及退化
覆盖 所有行为、边界情况、错误路径 关键路径、SLA 端点、用户旅程链
视角 自内向外:测试代码行为 自外向内:验证用户视角
输出 通过/失败报告;失败阻止部署 实时警报、正常运行时间 SLA 记录、事件历史

实务关系:API 测试 是开发阶段活动,API 监控是运营活动。测试在部署前捕捉缺陷,监控在部署后捕获失败、回归、性能退化及依赖问题——环境条件与受控测试环境不同。

成熟团队两者兼施——利用 Postman 集合导入 将开发测试转换为生产监控,无需重复定义请求。

API 监控与 APM

同一应用的两种视角:外向内合成监控使用全球外部探针,内部 APM 观察应用内层——API 代码、业务逻辑、数据访问、数据库、线程。 合成 API 监控观察客户视角,APM 观察代码行为,二者互补非替代。

这两种类别常被混淆。它们互补非同义。

合成 API 监控 APM(应用性能监控)
视角 外向内——从用户和合作伙伴视角验证 内向外——监视内部应用行为
捕捉内容 DNS 失败、网络路由问题、TLS 错误、CDN 路由失误、地理覆盖间隙 慢数据库查询、内存泄漏、代码异常、慢函数调用
运行时 24/7——即便无流量 仅在处理真实请求时
解答问题 “客户现在能调用这个 API 吗?” “请求到来时应用内部发生了什么?”

缩短 MTTR 的团队同时采用两种工具:APM 用于内部根因分析,合成 API 监控用于外部验证。日志和追踪回答“代码中出了什么问题?”,合成监控回答“客户现在能用这个 API 吗?”

API 协议:REST、SOAP、GraphQL、gRPC 和 WebSocket

每种 API 协议有不同的监控需求和故障模式。仅将所有 API 当作简单 HTTP GET 请求的监控工具将漏掉协议特异性问题。

REST API 监控

REST 是主流 API 协议。监控验证 HTTP 方法(GET、POST、PUT、PATCH、DELETE)、状态码、响应头和通过 JSONPath 断言的 JSON 响应体。关键要求:断言响应有效载荷字段值——非仅状态码;监控所有 HTTP 方法而非仅 GET(POST、PUT、DELETE 触发不同服务端逻辑及失败模式);各端点单独跟踪响应时间,非整体平均。

SOAP API 监控

SOAP API 使用 HTTP 传输 XML。监控需求:WSDL 导入以定义端点和架构;对 XML 响应元素的 XPath 断言;支持 SOAP 1.1 和 1.2 协议;为企业 SOAP 服务配置 WS-安全消息级安全。

GraphQL API 监控

GraphQL 的监控挑战在于:多数 GraphQL 服务器实现 即使存在部分错误或格式错误查询,仍返回 HTTP 200。HTTP 状态码不可靠。需要:

  • 发送指定查询载荷并断言响应中 data 对象
  • 检查响应体中的 errors 数组——标准 GraphQL 中每个响应有可选顶层 errors 字段,成功时为空或不存在,失败时填充。200 响应带非空 errors[] 表示 GraphQL 层请求失败但 HTTP 成功
  • 验证查询相关数据不变式:断言预期字段存在、非空且类型正确;部分系统将领域失败编码入数据对象,而非顶层错误数组
  • 监控查询复杂度和深度限制,提前发现性能退化防止超时

gRPC API 监控

gRPC 默认通过 HTTP/2 使用协议缓冲(Protocol Buffers),gRPC-Web 通过代理支持 HTTP/1.1 浏览器客户端。监控需求:导入 proto 文件定义服务与方法;支持协议缓冲消息的二进制编码/解码;用 gRPC 状态码(OK、UNAVAILABLE、DEADLINE_EXCEEDED 等)验证状态,非 HTTP 状态码;支持 Unary、服务器流、客户端流和双向流 RPC 类型。

WebSocket API 监控

WebSocket API 维持双向持久连接以实现实时数据。监控验证连接建立时间与握手成功率,消息传递延迟及有效载荷准确性,以及连接稳定性,包括断连后的重连行为。

公有 API 监控与内部 API 监控

等距数据中心建筑被半透明防火墙穹顶包围。穹顶外,监控探针环绕地球向公有 API 端点发送检测。穹顶内,Private Agent 连接内网微服务节点。 Private Agent 运行于您的网络内,主动发起到监控平台的出站连接——无需防火墙入站规则,为内部微服务带来与公有 API 同等的监控精度。

大多数 API 监控指南专注公有端点。但在微服务架构中,绝大多数关键调用是内部的——即服务间调用,未经过公共互联网。

公有 API 监控 内部 API 监控
覆盖内容 面向客户的端点、合作伙伴 API、第三方集成 内部微服务、私有 VPC、预发布环境、防火墙内 API
工作方式 来自全球位置的外部监控代理通过公网上传检测 部署于网络内部的 Private Agent 发起到监控平台的出站连接
防火墙要求 无——检测从外部发起 无需入站规则——代理仅发起出站连接
捕获问题 DNS 解析失败、CDN 路由错误、TLS 错误、地理可用性缺口 服务间故障、认证微服务延迟、数据库查询 API 退化
部署 免安装,立即生效 代理部署于本地或私有云(支持 Windows 和 Linux)

内部微服务 API 是级联故障的常见源头。认证服务降级或数据访问 API 缓慢会导致下游问题表现为前端故障,难以定位根因。内部 API 监控帮助团队区分故障发生在 API 层、下游微服务还是数据库。了解更多防火墙内 Private Agent 监控

API 监控最佳实践

这些做法降低平均检测时间(MTTD),提高警报精度,并确保监控覆盖与生产风险匹配。

  1. 关键端点使用 1 分钟间隔监控。支付、认证和核心数据 API,任何未检测的分钟都直接影响业务。低关键性端点可用 5 或 15 分钟间隔。
  2. 至少从 5 个地理分布位置运行检测。单一位置检测无法发现区域性 DNS 故障、CDN 配置错误或地理路由问题。至少覆盖北美、欧洲和亚太。
  3. 验证有效载荷内容,而非仅状态码。对每个关键端点配置 JSONPath 断言。最昂贵的隐性失败为返回 HTTP 200 但数据不完整、过时或格式错误的 API。
  4. 基于基线设定警报阈值,避免静态毫秒值。每个端点建立响应时间基线,警报阈值设为基线 P95 的 2 倍。静态阈值在流量高峰期易产生误报。
  5. 监控链路中包含认证环节。令牌过期、OAuth 刷新失败和证书轮换是 API 宕机主因。认证步骤监控可防止凭证相关失败引发连锁故障。
  6. 为关键用户旅程构建多步骤事务监控。登录流程、结账序列和数据提交工作流均为链式调用。单点端点监控无法捕捉数据传递或会话处理导致的步骤间失败。
  7. 将第三方 API 依赖监控作为独立监控。为 Stripe、Okta、Salesforce 等外部依赖创建专用监控,立即判断故障来源是内部还是外部。
  8. 导入 Postman 或 Insomnia 集合快速启动监控将现有 API 定义转换为 24/7 生产监控,无需重建请求结构。
  9. 集成部署后 API 检查到 CI/CD 流水线每次部署后运行合成 API 测试,失败时考虑自动回滚或在蓝绿/金丝雀发布中暂停流量,使用第二位置确认减少误报。
  10. 将警报路由至 PagerDuty、Slack 或 Microsoft Teams,并配置升级策略。仅邮件警报会产生成熟延迟。与事故管理工具原生集成,确保警报及时送达,有响应路径。

API 监控的挑战

即使设计完善的监控部署也会面临运营难题。预见问题助力设计绕过。

第三方 API 可见性

监控外部依赖可获取可用性和延迟数据,但无法暴露降级内部原因。Stripe 或 Okta 变慢时能确认和定位影响范围,但根因分析仍依赖供应商状态页和支持升级流程。

速率限制

监控代理计入 API 速率限制。合成请求总量计算公式为:位置 × 每小时检查次数 × 每次执行调用次数 × 确认重试次数。单端点监控:30 位置 × 60 检查/小时 = 1800 请求/小时。5 步事务监控同设置下为:30 × 60 × 5 = 9000 请求/小时。需将此纳入速率限制预算,特别是内部 API 速率限制更严格。确保必要时白名单监控供应商 IP。

认证复杂度

使用短生命令牌的 API 需监控工具自动处理令牌刷新。用户委托 OAuth 2.0 令牌(授权码流程)通常 15 分钟至 1 小时到期;机器流(客户端凭证)多为 1 至 24 小时;高安全要求可能是 5 分钟。基于证书的认证和轮换 API Key 也需精细凭证管理。

动态及非确定性响应

返回带时间戳数据、分页结果或随机排序数组的 API 难以用精确值断言。应使用验证结构、字段存在和类型的 JSONPath 表达式,而非每次变化的确切字段值。

警报疲劳

监控过度——大量端点 1 分钟间隔或阈值设置过严——会生成噪声,导致团队对真实警报麻木。应采用分层监控:关键路径 1 分钟,非关键端点 5 至 15 分钟。多地点确认警报前,避免瞬态误报。

协议多样性

REST、SOAP、GraphQL、gRPC 和 WebSocket 需要不同断言策略。仅支持 REST 的工具无法捕捉 SOAP 服务故障,且会错误地报告 GraphQL 错误为成功(因返回 HTTP 200)。

如何使用 Dotcom-Monitor 设置 API 监控

警报路由流程:失败的 API 端点带有警告图标,汇入中央监控中心,向四个目的地图标分发——电话、两个聊天平台和邮件,代表 PagerDuty、Slack、Microsoft Teams 和邮件渠道。 检测失败时,警报会路由至您已有的事件响应工具——非仅发送至无人查看的监控邮箱。

Dotcom-Monitor 提供 合成 API 监控,支持 REST、SOAP 和 GraphQL,覆盖 30+ 全球位置,支持 1 分钟检查间隔,多步骤事务支持,并原生集成 PagerDuty、Slack 和 Microsoft Teams。

步骤 1 — 定义端点和断言

  • 端点 URL: 需监控的 API 端点
  • HTTP 方法: GET、POST、PUT、PATCH 或 DELETE
  • 请求头: Content-TypeAuthorization 及任意必需自定义头
  • 请求体: POST/PUT 请求的 JSON 载荷
  • 认证: OAuth 2.0、Bearer Token、API Key、基本认证、mTLS、AWS 签名 v4、NTLM、Kerberos 或自定义头
  • 断言: HTTP 状态码、响应时间阈值、头部值、JSONPath/XPath 有效载荷断言

步骤 2 — 从 Postman 或 Insomnia 导入

若团队使用 Postman 或 Insomnia,可完全跳过手动配置端点:

  • Postman: 将集合导出为 v2.0 或 v2.1 JSON 并导入 Dotcom-Monitor。请求定义、头、体、环境变量及测试断言均被保留。
  • Insomnia: 将工作区导出为 Insomnia v4 JSON 文件并导入 Dotcom-Monitor。请求分组、认证配置和环境变量被保留。

两种导入格式将一次性开发测试转为持续调度的 24/7 生产监控,无需重新配置。

已用 Postman?距离全天候生产监控仅 5 分钟。

将现有 Postman 集合直接导入 Dotcom-Monitor。请求定义、头、环境变量和断言均保留——无须重新配置。
查看 Postman 导入操作 →

步骤 3 — 配置监控位置和频率

  • 检查频率: 1、3、5 或 15 分钟间隔,可基于关键程度为每个端点设置
  • 监控位置: 从北美、欧洲、亚太和南美 30+ 位置中选择
  • Private Agent: 对于内部或防火墙后 API,部署代理于本地或私有云(支持 Windows 和 Linux)。代理仅发起出站连接,无需防火墙入站规则。
  • 确认重试: 配置次级位置确认检查以消除瞬态网络误报,触发警报前确认

步骤 4 — 配置警报路由

  • PagerDuty: 将关键警报直接路由至值班排班,自动创建事件及升级
  • Slack / Microsoft Teams: 将带端点细节、错误类型和响应数据的警报消息发布到运维频道
  • 邮件、短信、电话: 配置联系人或团队的通知偏好
  • Webhook: 集成 OpsGenie、ServiceNow 或任意 HTTP 服务
  • 阈值配置: 为各指标设置警报条件——响应时间、错误率、断言失败率——并设定严重级别

步骤 5 — CI/CD 流水线集成

  • Dotcom-Monitor REST API: 通过 HTTP API 调用编程式创建、更新和触发监控任务,适用于任何 CI/CD 系统
  • GitHub Actions / Azure DevOps / Jenkins: 增加部署后步骤触发 Dotcom-Monitor 运行检查,等待结果,断言失败则使流水线失败
  • 预生产验证: 对预发布环境运行相同的合成检查,部署前捕捉回归,防止用户受影响

按行业划分的 API 监控用例

行业 需监控的关键 API 关键监控要求
电商 结账、支付授权、库存、运输、购物车管理 多步骤事务链;1 分钟间隔;对支付确认状态的有效载荷断言
金融科技 / 银行 交易处理、KYC/AML 验证、账户余额、外汇汇率、电汇 API 200ms 以下延迟 SLA;支持 PCI DSS 证据的合规检查;完整认证流程验证
医疗保健 EHR 集成(HL7 FHIR)、保险门户、远程医疗端点、患者预约 支持 HIPAA 证据的合规检查;数据完整性的有效载荷验证;99.99% 正常运行时间 SLA
SaaS 核心产品接口、Webhook 传递端点、合作商集成 API、认证 API API 即产品 SLA 遵守;Postman 导入确保开发到监控一致性;第三方依赖监控
企业 IT CRM、ERP、HRIS、身份验证提供商、内部工作流自动化 API 防火墙内 Private Agent;支持 NTLM/Kerberos 认证;跨部门 API 可见性
媒体 / 游戏 CDN 内容分发 API、认证、实时评分、社交功能 API 地域分布监控;WebSocket 连接监控;流量峰值检测

立即开始监控您的 API。

Dotcom-Monitor 提供覆盖 30+ 全球位置的合成 API 监控,1 分钟检查间隔,支持多步骤事务和原生 PagerDuty、Slack、Microsoft Teams 集成。设置不到 5 分钟,30 天试用无需信用卡。
开始免费 30 天试用 →

常见问题解答

API 监控和网站监控有什么区别?
网站监控验证网页的最终用户体验——渲染、加载时间、核心网页指标和视觉完整性。API监控验证支撑这些页面以及使用它们的应用程序的底层数据端点。它们是互补的:API监控识别问题源头;网站监控确认其对用户体验的影响。
我应该多久监控一次关键API?
影响收入的API——支付、身份验证、核心数据检索——应以1分钟间隔进行检查。这将检测时间缩短至60秒以内。非关键端点可以使用5分钟或15分钟间隔,以减少检查频率并保持在速率限制范围内。
什么是良好的API响应时间?
通用基准:优秀 1秒。 响应时间超过3秒会显著影响转化率和用户留存率。这些是起点——应为每个端点建立基线,并在偏离时发出警报,而不是应用通用阈值。
我可以监控防火墙后面的API吗?
是的。Private Agent——一个轻量级二进制文件,安装在您的网络内部——发起到监控平台的出站连接。不需要入站防火墙规则。这为内部微服务和私有API提供与公共端点相同的正常运行时间、性能和有效负载验证。
生产环境API监控需要支持哪些认证方法?
至少支持:OAuth 2.0(客户端凭证和授权码流程)、带自动 JWT 刷新的 Bearer Token、API 密钥和基本认证。对于企业环境:支持 AWS Signature v4、mTLS/客户端证书、NTLM、Kerberos 和自定义头部方案。仅支持基本认证和 API 密钥的工具在没有手动令牌管理的情况下将无法监控 OAuth 2.0 API。
API 监控如何处理 GraphQL?
大多数 GraphQL 服务器实现即使在查询失败或部分错误时也返回 HTTP 200 状态码。监控必须发送特定的查询负载并断言响应体 —— 而非状态码。检查是否存在或填充了顶层的 errors 数组,并验证响应中查询特定的数据不变量。一些系统将领域失败编码在 data 对象中,而不是填充 errors 数组,因此两个信号都很重要。
什么是多步骤API交易监控?
多步骤交易监控将顺序 API 调用链成单一监控器 — 复制真实用户工作流程,如登录 → 搜索 → 加入购物车 → 结账 → 付款确认。每一步的输出在下一步执行前都会被验证,动态值(访问令牌、会话 ID、订单 ID)会在步骤间自动提取和注入。这能捕捉单端点监控无法发现的集成故障。
如何将API监控集成到CI/CD管道中?
使用监控平台的 REST API 在每次部署后以编程方式触发检查运行。在 GitHub Actions、Azure DevOps 或 Jenkins 中,添加一个部署后管道步骤,调用监控 API,轮询检查结果,如果有任何断言失败则使管道失败。这在每次部署时创建了一个自动化的生产冒烟测试——在任何用户流量路由到新版本之前捕捉回归。
什么是TTFB及其对API监控的重要性?
首次字节时间(TTFB)衡量从发起 API 请求到接收 HTTP 响应的第一个字节所经过的时间。从合成监控客户端来看,这包括 DNS 解析、TCP 连接、TLS 握手和服务器端处理,但不包括传输完整响应体的时间。较高的总响应时间配合较低的 TTFB 指向较大的有效负载或传输缓慢;较高的 TTFB 指向服务器端处理缓慢或上游延迟——比仅凭总响应时间更能快速定位根本原因。
我应该使用多少个监测点?
至少使用5个地理分布的地点覆盖您的主要用户区域。对于全球应用,至少涵盖:北美东部、北美西部、西欧、亚太地区和南美。这可以检测到单一地点监控完全遗漏的区域CDN问题、DNS传播失败和地理路由异常。
Matthew Schmitz
About the Author
Matthew Schmitz
Dotcom-Monitor 负载与性能测试总监

作为 Dotcom-Monitor 的负载与性能测试总监,Matt 目前领导着一支由优秀工程师和开发人员组成的团队,共同为最严苛的企业需求打造先进的负载与性能测试解决方案。

Latest Web Performance Articles​

什么是应用性能监控 (APM)?

什么是应用性能监控(APM),以及仪器化、收集和关联如何工作,哪些指标重要,以及使APM在生产中有用的最佳实践

立即免费启动Dotcom-Monitor

无需信用卡