併讀Keep-Alive 槽位與 KV 預算稿、多模型路由成本稿與Agno × Agents SDK 編排稿:本篇把前端會話與後端推理夾在閘道之間。
導覽:痛點 · 對照表 · 部署 · 路由 · 觀測 · 驗收清單 · FAQ
痛點拆解
- 直連分叉:每名使用者各帶基底網址,金鑰口徑、模型別名與配額難重現。
- 槽位失衡:併發超過 Ollama 處理上限,首字節延遲拉長且記憶體尖峰穿頂。
- 成本失控:會話權杖與駐留時長無熔斷,月底帳單與容量規劃對不齊。
場景對照矩陣
| 主軸 | 直連 Ollama | 經閘道相容路由 |
|---|---|---|
| 出口 | 多端點分叉 | 單一相容路徑 |
| 鑑權 | 共用金鑰 | 短效權杖分檔 |
| 槽位 | 全域共享 | 按別名分池 |
| 熔斷 | 缺位 | 視窗計數加冷卻 |
| 觀測 | 散落各端 | 統一相關識別 |
部署步驟
- 安裝 Ollama,以 OLLAMA_NUM_PARALLEL 限定併發槽位、OLLAMA_KEEP_ALIVE 控制駐留視窗。
- OpenWebUI 接 OpenAI 相容介面,base_url 指向本機閘道而非直連。
- 閘道分檔權杖:管理員、評測、終端使用者三層作用域並限縮檔案權限。
- 對齊模型別名映射:將 mini-instruct、mini-coder、mini-vision 收斂至統一識別。
- launchd 常駐閘道與健康探針,外網僅留管理通道,前端會話走回環。
另在部署前以 doctor 巡檢權限與埠占用,避免會話初始化時權杖簽發與模型熱載相互競爭。
OLLAMA_NUM_PARALLEL=4
OLLAMA_KEEP_ALIVE=15m
gateway_token_window_s=60
connect_timeout_ms=800
first_byte_timeout_ms=12000路由與熔斷
路由按模型別名與租戶分池,連線、首字節、整體請求三段逾時各設硬頂;權杖滾動視窗六十秒、預算觸閾即熔斷並回冷卻提示。失敗一律寫脫敏摘要信封,避免提示詞與上游本文外洩。
觀測
記錄相關識別、模型別名、輸入與輸出權杖、首字節延遲、會話時長五項欄位;採樣分層,告警合併至單一通道;儀表趨勢另稿交叉,避免多副本噪聲與計數重複。建議將令牌成本與駐留時長雙鍵入庫,便於月度容量回顧與單租戶分攤。
遠端節點驗收清單
- 槽位:併發十時 p95 首字節 ≤2.4 秒。
- KV:單一駐留模型工作集 ≤16 吉位元組。
- 熔斷:超預算自動冷卻 ≥30 秒。
- 觀測:相關識別百分百對齊請求。
- 帳務:權杖快照按租戶可導出。
- 容量:併發加倍時記憶體餘裕大於兩成。
FAQ
直接用 OpenWebUI 預設?建議補閘道,多用戶後權杖、成本與稽核皆需收斂。Ollama 併發要開多大?看模型大小與 KV 預算,自二槽起壓測,盯 p95 與工作集。非用相容路徑不可?採相容路徑可平滑換 LiteLLM、vLLM 類聚合而不動前端。令牌怎樣輪替?儀表簽發短效權杖,分檔到使用者組,並排程到期前重簽。
可引用:滾動權杖窗六十秒示意;三段逾時拆分連線、首字節與整體;併發十時首字節閾值二點四秒;駐留工作集十六吉位元組基線;熔斷冷卻不少於三十秒;別名映射一表收斂前端。
結尾路徑:在隔離雲端 Mac mini M4 節點上同時跑前端會話、Ollama 後端與閘道,把多用戶演練變成可簽核交付。