OpenWebUI 放在 Ollama 前置,用 OpenAI 相容路徑 收斂多用戶會話、權杖與成本;本篇以對照表加驗收清單,鎖定併發槽位API 路由鑑權令牌熔斷成本閾值。📋

併讀Keep-Alive 槽位與 KV 預算稿多模型路由成本稿Agno × Agents SDK 編排稿:本篇把前端會話後端推理夾在閘道之間。

導覽:痛點 · 對照表 · 部署 · 路由 · 觀測 · 驗收清單 · FAQ

痛點拆解

  1. 直連分叉:每名使用者各帶基底網址,金鑰口徑、模型別名與配額難重現。
  2. 槽位失衡:併發超過 Ollama 處理上限,首字節延遲拉長且記憶體尖峰穿頂。
  3. 成本失控:會話權杖與駐留時長無熔斷,月底帳單與容量規劃對不齊。

場景對照矩陣

主軸直連 Ollama經閘道相容路由
出口多端點分叉單一相容路徑
鑑權共用金鑰短效權杖分檔
槽位全域共享按別名分池
熔斷缺位視窗計數加冷卻
觀測散落各端統一相關識別

部署步驟

  1. 安裝 Ollama,以 OLLAMA_NUM_PARALLEL 限定併發槽位、OLLAMA_KEEP_ALIVE 控制駐留視窗。
  2. OpenWebUI 接 OpenAI 相容介面,base_url 指向本機閘道而非直連。
  3. 閘道分檔權杖:管理員、評測、終端使用者三層作用域並限縮檔案權限。
  4. 對齊模型別名映射:將 mini-instruct、mini-coder、mini-vision 收斂至統一識別。
  5. launchd 常駐閘道與健康探針,外網僅留管理通道,前端會話走回環。

另在部署前以 doctor 巡檢權限與埠占用,避免會話初始化時權杖簽發與模型熱載相互競爭。

OLLAMA_NUM_PARALLEL=4 OLLAMA_KEEP_ALIVE=15m gateway_token_window_s=60 connect_timeout_ms=800 first_byte_timeout_ms=12000

路由與熔斷

路由按模型別名租戶分池,連線首字節整體請求三段逾時各設硬頂;權杖滾動視窗六十秒、預算觸閾即熔斷並回冷卻提示。失敗一律寫脫敏摘要信封,避免提示詞與上游本文外洩。

觀測

記錄相關識別、模型別名、輸入與輸出權杖、首字節延遲、會話時長五項欄位;採樣分層,告警合併至單一通道;儀表趨勢另稿交叉,避免多副本噪聲與計數重複。建議將令牌成本與駐留時長雙鍵入庫,便於月度容量回顧與單租戶分攤。

遠端節點驗收清單

  • 槽位:併發十時 p95 首字節 ≤2.4 秒。
  • KV:單一駐留模型工作集 ≤16 吉位元組。
  • 熔斷:超預算自動冷卻 ≥30 秒。
  • 觀測:相關識別百分百對齊請求。
  • 帳務:權杖快照按租戶可導出。
  • 容量:併發加倍時記憶體餘裕大於兩成。

FAQ

直接用 OpenWebUI 預設?建議補閘道,多用戶後權杖、成本與稽核皆需收斂。Ollama 併發要開多大?看模型大小與 KV 預算,自二槽起壓測,盯 p95 與工作集。非用相容路徑不可?採相容路徑可平滑換 LiteLLM、vLLM 類聚合而不動前端。令牌怎樣輪替?儀表簽發短效權杖,分檔到使用者組,並排程到期前重簽。

可引用:滾動權杖窗六十秒示意;三段逾時拆分連線、首字節與整體;併發十時首字節閾值二點四秒;駐留工作集十六吉位元組基線;熔斷冷卻不少於三十秒;別名映射一表收斂前端。

結尾路徑:在隔離雲端 Mac mini M4 節點上同時跑前端會話、Ollama 後端與閘道,把多用戶演練變成可簽核交付。

免登入:定價購買部落格首頁說明