跳转至

可靠性基建(重试/降级/熔断)

解决的问题

真实系统一定会失败:

  • 瞬时错误(超时、限流)
  • 工具不稳定
  • 上游宕机

可靠性基建是“横切能力”,不属于某一个模式,但能显著提升整体可用性。

三件套

  • Retry:失败重试 + backoff。
  • Fallback chain:尝试替代策略/替代提供方。
  • Circuit breaker:失败过多时短暂断路,避免雪崩。
flowchart TD
  C["调用依赖"] --> E{"出错?"}
  E -->|否| OK["成功返回"]
  E -->|是| R["重试/backoff"]
  R --> CB{"失败过多?"}
  CB -->|是| OPEN["熔断打开"]
  CB -->|否| C

本仓库对应代码

  • 实现:src/agent_patterns_lab/runtime/reliability.py
  • 测试:tests/test_reliability.py