目录:需求分层 · 路由策略 · 成本与SLA · FAQ · 转化
IDE、评测与 Agent 都希望「类 OpenAI」端点,但超时、工具与计费曲线各异。聚合层抹平形状差异后,若人机与批、多租户仍共用同一队列,批仍会饿死首包;缓存含糊触合规;无预算的 fallback 让财务见双重计费难下钻。下文给分层需求、延迟/并发/缓存/fallback对照、环境变量占位与远程 Mac 成本验收口径。延伸阅读:OpenClaw × LiteLLM、GenAI 可观测、M4 推理矩阵。购买与定价为公开页免登录。
翻车点:人机与 Agent 共用 inflight 致 p99 失控;微批过大吃满统一内存带宽;降级缺边际成本与原因码。
需求分层
先画像再路由:人机要紧首包、低会话并发、可解析错误体;工具 Agent 要高在途上限、熔断内重试、更长墙钟;离线批偏吞吐,可宽微批与便宜量化。每层写清最大排队秒数、连续失败阈值、是否强制流式与数据驻留,缓存才有合法依据。浸泡验收优先专用 Apple Silicon 远程节点:温控与后台守护会改队列,笔记本易掩盖。
路由策略
路由=别名 + 健康 + 熔断:健康需混超时比例、Token 顶格与内存压力;熔断按别名与租户隔离。粘滞热 KV 与无状态轮询须在评审写明。
| 模式 | 延迟取向 | 并发取向 | 缓存取向 | fallback 取向 |
|---|---|---|---|---|
| 直连供应方 HTTP | 链路跳数少;区域尾延迟脆弱。 | 按密钥突发限流;公平性弱。 | 多在供应方侧;本地去重有限。 | 手工改路由;易产生双花调用。 |
| 边缘 API 网关 | 略增解析与 TLS 开销;抖动更可控。 | 集中配额;需警惕分区热点。 | 幂等读友好;对话体落缓存风险高。 | 策略跳转需每层打成本标签。 |
| OpenAI 兼容聚合层 | 小幅解析税;批与就近可换吞吐。 | 跨别名更易公平;必须配分层池。 | 模板级缓存与 KV 提示若策略允许。 | 预算化降级链;每跳可审计。 |
| 本机 Metal 栈 | 本地 payload 极佳;远程工具引入抖动。 | 受统一内存上限约束;单租户突发友好。 | 进程内热复用好;跨机复用弱。 | 超内存包络后溢出到云端别名。 |
评审只抓表里最强两列,附实测分位并为每层定默认模式。
成本与SLA
成本=Token + 排队 rework + 坏完成返工。SLA 写明首包 p95、熔断前连续失败、区域降级 RTO;大盘按别名/租户/降级深度切片。远程验收并入机时、出口与空闲分钟,勿只看目录价。
可贴进 runbook 的验收片段:
- 每个别名写明供应方、区域、量化档与当前价目表下「每百万 Token 美元」。
- 批任务公布微批窗口与客户端断开时的取消规则。
- fallback 在调用备用模型之前发出原因码与估算边际成本上限。
下列占位请落在密钥管理或 CI 注入,勿写进 Git 历史明文。
# 网关与分层并发池
OPENAI_BASE_URL=${AGGREGATION_BASE_URL}
ROUTING_TIER_INTERACTIVE_MAX_INFLIGHT=${ROUTING_TIER_INTERACTIVE_MAX_INFLIGHT}
ROUTING_TIER_AGENT_MAX_INFLIGHT=${ROUTING_TIER_AGENT_MAX_INFLIGHT}
ROUTING_TIER_BATCH_MAX_INFLIGHT=${ROUTING_TIER_BATCH_MAX_INFLIGHT}
# 批大小与流式
COMPLETION_MICRO_BATCH_MS=${COMPLETION_MICRO_BATCH_MS}
COMPLETION_MAX_BATCH_TOKENS=${COMPLETION_MAX_BATCH_TOKENS}
STREAM_CHUNK_BYTES=${STREAM_CHUNK_BYTES}
# 缓存与 fallback
PROMPT_CACHE_MODE=${PROMPT_CACHE_MODE}
KV_CACHE_REUSE_POLICY=${KV_CACHE_REUSE_POLICY}
FALLBACK_MODEL_ALIAS_CHAIN=${FALLBACK_MODEL_ALIAS_CHAIN}
FALLBACK_MAX_EXTRA_SPEND_USD=${FALLBACK_MAX_EXTRA_SPEND_USD}
# 远程节点浸泡签核
REMOTE_MAC_SOAK_HOURS=${REMOTE_MAC_SOAK_HOURS}
REMOTE_MAC_NOTARIZED_CHECKLIST_ID=${REMOTE_MAC_NOTARIZED_CHECKLIST_ID}落地顺序:冻结路由与工具形态;分层池压测;轨迹带别名、降级深度、缓存与排队秒;熔断演练接值班;远程 Mac 重放并对齐 p95/p99 与财务清单。
FAQ
人机与 Agent 能共用一张路由表吗?不建议。应拆分池化、重试与失败包络,否则工具环路易吸干对话并发。
批越大一定越省钱吗?不一定。关注作废 Token、内存压力与预填队列再相信「更便宜的均价」。
为何强调远程 Mac 验收?稳定供电与网络形态更接近长期在线网关,合盖睡眠带来的排队抖动不会污染你的 SLA 曲线。
转化
放量前先钉证据:在专用 Mac mini M4 云节点上固定聚合、重放批与 Agent、归档 SLA。公开 购买、定价、帮助与 博客索引 均免登录;状态机同机可参 LangGraph 沙箱。