給 LLM/Agent 維運一張可掃描決策表:先分層需求,再選路由與成本驗收。實作可銜接《LiteLLM Proxy 與閘道路由》、《OpenTelemetry GenAI 矩陣》、《本機推理與批大小》。
需求分層 · 路由策略 · 成本與 SLA · FAQ · 轉化
需求分層
互動層要低尾延遲與穩定錯誤形狀,宜小批次、嚴併發上限。工具層重結構化輸出與重試,需穩定請求識別與退避。離線層可拉高批與預填權杖,但須獨立預算以免擠壓互動。
- 痛點一:供應商端點分散導致金鑰面與稽核欄位分裂。
- 痛點二:同一節點混跑互動與離線,p99 被離線批次拖垮。
- 痛點三:fallback 無序切換造成帳務與品質雙難以解釋。
路由策略
以 OpenAI 相容聚合層對外暴露 /v1/chat/completions,內部以別名映射多供應商;鑑權見 LiteLLM 實戰文。
| 部署形態 | 延遲 | 併發 | 快取 | fallback |
|---|---|---|---|---|
| 相容聚合層(單一出口) | 多一跳,尾延遲靠逾時與連線池控管 | 集中併發與租戶預算,易配額 | 提示雜湊與工具結果鍵可統一 | 有序後備+熔斷,對齊帳務維度 |
| 本機推理 worker | 無雲端 RTT,受批次與上下文限制 | GPU/統一記憶體與執行緒硬上限 | KV 命中看序列長度與量化 | 多為降量化或上下文,非換雲型號 |
| 遠端 Mac 節點(常駐代理+試跑) | 加 RTT,時鐘與負載較筆電穩 | 常駐環境可重現併發曲線 | 代理與本機快取分層減鍵衝突 | 適合演練雲端後備與熔斷 |
落地步驟(≥5):(一)寫死租戶/環境/別名。(二)OPENAI_BASE_URL 指向 <AGG_BASE_URL>。(三)試跑調 <MAX_INFLIGHT> 與逾時。(四)互動/離線分隊列並設 <BATCH_TOKENS> 上限。(五)有序 fallback+熔斷視窗。(六)權杖計數與供應商請求識別寫入可觀測欄位。
# 可執行占位(依環境替換角括號內數值)
export OPENAI_BASE_URL="<AGG_BASE_URL>/v1"
export OPENAI_API_KEY="<PROXY_KEY>"
export ROUTER_MAX_INFLIGHT="<MAX_INFLIGHT>"
export CHAT_READ_TIMEOUT_SEC="<READ_TIMEOUT_SEC>"
export PREFILL_BATCH_TOKENS="<BATCH_TOKENS>"
# 本機 llama.cpp/Ollama 請另見倉庫內旗標對照表可引用:每請求保存別名解析;記錄快取命中與鍵版本;fallback 次數與熔斷狀態入結構化日誌;遠端試跑涵蓋尖峰與閒時窗。
成本與 SLA
SLA 同時約束成功率、尾延遲、每請求成本上界,以分位數監控為主。遠端驗收含:無睡眠中斷、日誌可輪替、計費欄位抽樣對齊、單路由關閉後熔斷恢復時間。
FAQ
相容層會成為瓶頸嗎?連線池、串流與水平擴展可緩解;多數瓶頸在上游。
快取洩漏風險?鍵含租戶與版本,敏感提示勿全文入鍵;雜湊+TTL。
為何獨立試跑節點?與開發機解耦才穩定成本與延遲分佈,見觀測矩陣長跑建議。
轉化
staging 驗收通過後,將常駐環境搬到專用 Apple Silicon 遠端主機,試跑結果即可對齊生產 SLO。免登入可瀏覽定價、購買頁;細節見說明中心與首頁。🚀
小結:聚合層收斂端點;表格式比較延遲/併發/快取/fallback;再以批大小與遠端驗收把成本與 SLA 變成可勾選交付物。