2026 Mac 本機 LLM 決策矩陣：OpenWebUI 多用戶會話併發、Ollama OpenAI 相容路由與遠端節點成本驗收清單

把 OpenWebUI 放在 Ollama 前置，用 OpenAI 相容路徑 收斂多用戶會話、權杖與成本；本篇以對照表加驗收清單，鎖定併發槽位、API 路由、鑑權令牌、熔斷與成本閾值。📋

併讀Keep-Alive 槽位與 KV 預算稿、多模型路由成本稿與Agno × Agents SDK 編排稿：本篇把前端會話與後端推理夾在閘道之間。

導覽：痛點 · 對照表 · 部署 · 路由 · 觀測 · 驗收清單 · FAQ

痛點拆解

直連分叉：每名使用者各帶基底網址，金鑰口徑、模型別名與配額難重現。
槽位失衡：併發超過 Ollama 處理上限，首字節延遲拉長且記憶體尖峰穿頂。
成本失控：會話權杖與駐留時長無熔斷，月底帳單與容量規劃對不齊。

場景對照矩陣

主軸	直連 Ollama	經閘道相容路由
出口	多端點分叉	單一相容路徑
鑑權	共用金鑰	短效權杖分檔
槽位	全域共享	按別名分池
熔斷	缺位	視窗計數加冷卻
觀測	散落各端	統一相關識別

部署步驟

安裝 Ollama，以 OLLAMA_NUM_PARALLEL 限定併發槽位、OLLAMA_KEEP_ALIVE 控制駐留視窗。
OpenWebUI 接 OpenAI 相容介面，base_url 指向本機閘道而非直連。
閘道分檔權杖：管理員、評測、終端使用者三層作用域並限縮檔案權限。
對齊模型別名映射：將 mini-instruct、mini-coder、mini-vision 收斂至統一識別。
launchd 常駐閘道與健康探針，外網僅留管理通道，前端會話走回環。

另在部署前以 doctor 巡檢權限與埠占用，避免會話初始化時權杖簽發與模型熱載相互競爭。

OLLAMA_NUM_PARALLEL=4
OLLAMA_KEEP_ALIVE=15m
gateway_token_window_s=60
connect_timeout_ms=800
first_byte_timeout_ms=12000

路由與熔斷

路由按模型別名與租戶分池，連線、首字節、整體請求三段逾時各設硬頂；權杖滾動視窗六十秒、預算觸閾即熔斷並回冷卻提示。失敗一律寫脫敏摘要信封，避免提示詞與上游本文外洩。

觀測

記錄相關識別、模型別名、輸入與輸出權杖、首字節延遲、會話時長五項欄位；採樣分層，告警合併至單一通道；儀表趨勢另稿交叉，避免多副本噪聲與計數重複。建議將令牌成本與駐留時長雙鍵入庫，便於月度容量回顧與單租戶分攤。

遠端節點驗收清單

槽位：併發十時 p95 首字節 ≤2.4 秒。
KV：單一駐留模型工作集 ≤16 吉位元組。
熔斷：超預算自動冷卻 ≥30 秒。
觀測：相關識別百分百對齊請求。
帳務：權杖快照按租戶可導出。
容量：併發加倍時記憶體餘裕大於兩成。

FAQ

直接用 OpenWebUI 預設？建議補閘道，多用戶後權杖、成本與稽核皆需收斂。Ollama 併發要開多大？看模型大小與 KV 預算，自二槽起壓測，盯 p95 與工作集。非用相容路徑不可？採相容路徑可平滑換 LiteLLM、vLLM 類聚合而不動前端。令牌怎樣輪替？儀表簽發短效權杖，分檔到使用者組，並排程到期前重簽。

可引用：滾動權杖窗六十秒示意；三段逾時拆分連線、首字節與整體；併發十時首字節閾值二點四秒；駐留工作集十六吉位元組基線；熔斷冷卻不少於三十秒；別名映射一表收斂前端。

結尾路徑：在隔離雲端 Mac mini M4 節點上同時跑前端會話、Ollama 後端與閘道，把多用戶演練變成可簽核交付。

免登入：定價、購買、部落格、首頁、說明。

2026 年 Mac 本機 LLM 決策矩陣：OpenWebUI 多用戶會話併發、Ollama OpenAI 相容路由與遠端節點成本驗收清單

痛點拆解

場景對照矩陣

部署步驟

路由與熔斷

觀測

遠端節點驗收清單

FAQ

把 OpenWebUI 與 Ollama 路由搬到隔離雲端 Mac