多模型並存時,路由是延遲、併發、快取與 fallback 的聯立題;再以批大小與遠端 SLA 把帳務與體驗釘在同一張表。📊

給 LLM/Agent 維運一張可掃描決策表:先分層需求,再選路由與成本驗收。實作可銜接《LiteLLM Proxy 與閘道路由》《OpenTelemetry GenAI 矩陣》《本機推理與批大小》

需求分層 · 路由策略 · 成本與 SLA · FAQ · 轉化

需求分層

互動層要低尾延遲與穩定錯誤形狀,宜小批次、嚴併發上限。工具層重結構化輸出與重試,需穩定請求識別與退避。離線層可拉高批與預填權杖,但須獨立預算以免擠壓互動。

  • 痛點一:供應商端點分散導致金鑰面與稽核欄位分裂。
  • 痛點二:同一節點混跑互動與離線,p99 被離線批次拖垮。
  • 痛點三:fallback 無序切換造成帳務與品質雙難以解釋。

路由策略

OpenAI 相容聚合層對外暴露 /v1/chat/completions,內部以別名映射多供應商;鑑權見 LiteLLM 實戰文。

部署形態 延遲 併發 快取 fallback
相容聚合層(單一出口) 多一跳,尾延遲靠逾時與連線池控管 集中併發與租戶預算,易配額 提示雜湊與工具結果鍵可統一 有序後備+熔斷,對齊帳務維度
本機推理 worker 無雲端 RTT,受批次與上下文限制 GPU/統一記憶體與執行緒硬上限 KV 命中看序列長度與量化 多為降量化或上下文,非換雲型號
遠端 Mac 節點(常駐代理+試跑) 加 RTT,時鐘與負載較筆電穩 常駐環境可重現併發曲線 代理與本機快取分層減鍵衝突 適合演練雲端後備與熔斷

落地步驟(≥5):(一)寫死租戶/環境/別名。(二)OPENAI_BASE_URL 指向 <AGG_BASE_URL>。(三)試跑調 <MAX_INFLIGHT> 與逾時。(四)互動/離線分隊列並設 <BATCH_TOKENS> 上限。(五)有序 fallback+熔斷視窗。(六)權杖計數與供應商請求識別寫入可觀測欄位。

# 可執行占位(依環境替換角括號內數值) export OPENAI_BASE_URL="<AGG_BASE_URL>/v1" export OPENAI_API_KEY="<PROXY_KEY>" export ROUTER_MAX_INFLIGHT="<MAX_INFLIGHT>" export CHAT_READ_TIMEOUT_SEC="<READ_TIMEOUT_SEC>" export PREFILL_BATCH_TOKENS="<BATCH_TOKENS>" # 本機 llama.cpp/Ollama 請另見倉庫內旗標對照表

可引用:每請求保存別名解析;記錄快取命中與鍵版本;fallback 次數與熔斷狀態入結構化日誌;遠端試跑涵蓋尖峰與閒時窗。

成本與 SLA

SLA 同時約束成功率尾延遲每請求成本上界,以分位數監控為主。遠端驗收含:無睡眠中斷、日誌可輪替、計費欄位抽樣對齊、單路由關閉後熔斷恢復時間。

FAQ

相容層會成為瓶頸嗎?連線池、串流與水平擴展可緩解;多數瓶頸在上游。

快取洩漏風險?鍵含租戶與版本,敏感提示勿全文入鍵;雜湊+TTL。

為何獨立試跑節點?與開發機解耦才穩定成本與延遲分佈,見觀測矩陣長跑建議。

轉化

staging 驗收通過後,將常駐環境搬到專用 Apple Silicon 遠端主機,試跑結果即可對齊生產 SLO。免登入可瀏覽定價購買頁;細節見說明中心首頁。🚀

小結:聚合層收斂端點;表格式比較延遲/併發/快取/fallback;再以批大小與遠端驗收把成本與 SLA 變成可勾選交付物。