跳转到内容

观测与日志

只有文档站、官网、博客时,先开 Web Analytics,看访问趋势和页面表现。有 Worker 接口时,用 Workers Logs 和实时日志排查错误。有评论、表单、上传时,应用日志和安全事件要一起看。

产品指标不要只靠访问日志。业务事实写进 D1 / R2,指标再进指标分析产品。需要长期追溯时,再看日志推送、日志查询或外部日志平台。

最少记录这些字段:

  • event:稳定事件名,例如接口错误、评论创建。
  • request_id:串起前端、Worker、D1、R2 和队列任务。
  • ray_id:回查 Cloudflare 边缘请求和安全事件。
  • path:记录路由类型,不保存完整敏感查询参数。
  • status:HTTP 状态码或业务错误码。
  • duration_ms:判断慢请求和外部依赖耗时。
  • error_type:固定错误类别。

敏感内容不进日志:登录凭证、访问凭证、密钥、评论全文、邮件正文、完整查询参数、完整请求正文。

D1 读取额度异常时,先定位哪个路径、哪条查询、扫描了多少行,再补索引、改分页、减少后台全表筛选。Worker 响应偶发变慢时,看 duration_ms、外部 API 耗时、队列是否堆积,把爬取、AI、通知、导入拆到 Queues / Workflows。

R2 读取操作增长快时,看热点对象、公开下载路径和缓存效果。公开文件加缓存,私有下载继续走鉴权。AI 调用成本上涨时,看 AI Gateway 请求数、模型、缓存和错误,再加身份、限流、短输出和缓存。看不出原因时,先定位具体产品的用量维度、请求路径和错误类型,再决定是架构问题、查询问题还是套餐问题。

  • 几天前的问题已经查不到时,看 Workers Paid 的日志留存,或把必要日志导出。
  • 客户支持需要按用户、租户、订单追溯时,设计业务事件表。
  • 安全事件需要长期取证时,看日志推送、日志查询或企业日志能力。
  • 日志量开始接近免费额度时,先采样、减少字段、脱敏,再评估付费。
  • AI、上传、评论有开放入口时,先给入口加限流、Turnstile、WAF,再看日志。