本机同时跑开放网页界面与开放人工智能兼容客户端时,须把并发槽位、接口路由、鉴权令牌与熔断成本阈值拆成可验收条目;下文含对照表、步骤与远程机时清单。💻🚀
对照 · 部署 · 路由 · 观测 · 步骤 · 验收 · 可引用 · 问答
痛点:① 多用户并发打满隐式槽位排队雪崩;② 兼容与原生别名不一致空流;③ 长寿命令牌难吊销;④ 缺机时与令牌双阈值则账稳两失。
工程上常见误配是把鉴权与限流混写在同一中间件里,排障时难分是令牌失效还是槽位打满;应先在数据面分池再挂大盘,路由日志带租户标识与模型对外名利对账。
拓扑对照矩阵(直连 vs 网关前置)
部署:进程拓扑与并发槽位
推理守护与界面分用户或分端口,防长轮询占满上下文槽。为每类客户端设在途上限与排队深度,越界返回短可重试错误。关睡眠与无关索引。
路由:兼容前缀与模型别名
网关登记补全与嵌入前缀,禁穿透到 Ollama 未登记路径。对外名与内部名一对一;多模型各配超时与最大输出令牌防慢拖快。
观测:令牌、熔断与成本阈值
令牌存哈希设存活时间与刷新窗,吊销写拒绝列表同步网关。半开熔断:五秒错率越阈开路三十秒再试。成本盯每小时机时与每分钟上游令牌,先降级后拒流。
落地步骤(六步)
- 画数据面:浏览器、网关、推理,标端口与用户。
- 界面与自动化各配限流与在途上限,记尾延迟分位。
- 发别名表与白名单前缀,跑兼容探针。
- 接短期令牌与拒绝列表,演练吊销与滚动。
- 接熔断与双阈值,打印越阈原因码。
- 租远程苹果硅浸泡八小时,对比本机趋势后签字。
curl -sS -H "Authorization: Bearer 短期" 网关/v1/models远程节点成本验收清单
- □ 压测下槽位曲线无爬升泄漏。
- □ 别名表与客户端哈希一致。
- □ 吊销后一分钟内全拒旧令牌。
- □ 熔断错误体短且含可重试标志。
- □ 双阈值告警到人。
可引用信息
- 在途与排队须分置,否则误判容量。
- 半开窗自三十秒起再收紧。
- 对外承诺须租赁专用机全链复跑。
常见问题
共用管理员令牌? 否;按人按服务发最小短期令牌并记审计。
只盯令牌? 小模型狂刷仍占满算力与内存,须双阈值。
与可观测文? 彼篇重轨迹;本篇重入口会话经济,可串读。
转化