多模型一拥而上时,真正要命的是密钥面过大别名漂移预算被一条慢请求吃光。把 OpenClaw 顶在最前、LiteLLM 管路由与熔断、回调只吐摘要,远程 Mac 上才能稳定签夜班。🔀

目录:痛点 · 矩阵 · 部署 · 排错 · 可引用 · FAQ

本文给一套在租用远程 Mac上可照抄的接线顺序:回环端口、别名与路由组、RPM 或 TPM 类预算、失败摘要回传与探针验收。编排侧令牌与重试可参考《LangGraph 工具节点与 OpenClaw 网关》;工具超时熔断模板见《JSON Schema 与重试》;把摘要并进大盘可对照《GenAI 可观测矩阵》购买页定价页公开入口免登录即可浏览节点与套餐。

痛点拆解

面过大。把供应商主密钥塞进代理环境变量,CI 与笔记本共用一份,吊销等于全员停摆。路由糊。客户端直写真实模型名,换供应方要改全仓库。预算盲。无冷却与分桶时单租户能把 TPM 顶满,噪声邻居拖垮 Apple Silicon 统一内存上的并发会话。

职责矩阵

负责 失败先看
OpenClaw 最小 scope 令牌、工具与上游分流 鉴权码与网关 trace
LiteLLM 别名、路由组、熔断预算 别名解析与限流计数
回调 结构化失败摘要外送 Webhook 与队列堆积

部署与配置

在远程节点建独立用户与可写根目录,launchd 写死回环端口,密钥文件权限六百,供应商密钥只进受控密钥链或短 TTL 派生键。在 LiteLLM 声明对外 model 别名并映射真实模型标识,用路由表表达主备或加权轮询,客户端只认稳定别名。OpenClaw 监听对公或内网缘侧,校验 Bearer 后转发到 LiteLLM 兼容路径,聊天与嵌入分桶以免互相抢 TPM。为别名配置 RPM、TPM、并发上限与冷却窗口,错误率超阈时半开放行小流量探针。启用 success 与 failure 回调,将供应方错误码、别名、耗时与截断消息写入只追加日志或带签名的 Webhook,默认不落用户原文。用合成请求对每条别名跑最小补全并比对主备切换曲线,通宵重放放在专用节点而非开发笔记本。

# 示意:模型别名 + 环境变量引用密钥(勿提交真实值) model_list: - model_name: prod-chat litellm_params: model: azure/gpt-4o-mini api_key: os.environ/AZURE_KEY_EAST router_settings: routing_strategy: simple-shuffle litellm_settings: callbacks: ["otel", "generic_api_callback"]

排错速查

  • 直连回环带同一 Authorization 复现,区分 OpenClaw 与 LiteLLM 哪一层返回四零一或四二九。
  • 别名解析失败时打印最终上游 model 字符串与配置哈希,确认热重载后仅单实例监听端口。
  • 预算误杀时检查是否全局桶;按租户或 API 键拆分并拉长冷却 jitter。
  • 回调风暴时给 Webhook 做队列与丢弃策略,探针与真实流量分通道。

可引用信息

  • 令牌按环境分桶且 TTL 短于值班周期,吊销只影响单桶,不把主密钥写进 compose 明文。
  • 回调载荷携带配置版本号与别名解析结果,事故复盘可钉到单次发布与单条路由。
  • 预算命中计数与 OpenTelemetry GenAI 跨度共用租户键,财务与可靠性看同一张切片。

FAQ

能否不用 OpenClaw 只留 LiteLLM?可以,但失去工具面与 Dashboard 最小权限收口,密钥面会变大。

多模型要几个进程?建议单 LiteLLM 进程集中路由,用别名隔离;高隔离需求再分池并配独立预算。

失败摘要合规吗?只送长度哈希与供应方子集,原文走单独审批流;详见上文矩阵文的可观测段落。🚀

公开页:定价购买帮助博客索引