目录:痛点 · 事件循环 · 检索批与内存 · 熔断表 · 观测 · 成本 · 矩阵 · 步骤 · 问答
可观测字段对齐《GenAI 可观测矩阵》;分块配额见《本地 RAG 矩阵》;索引峰值见《向量索引对照》。购买与定价免登录。
痛点拆解
循环阻塞。同步 HTTP 或重解析跑在主循环,尾延迟集体变差却像模型慢。
内存断崖。嵌入批或节点批单调大不量常驻,挤占键值与页缓存,交换后雪崩。
成本幻觉。只算令牌单价,漏租金、慢工具空转与断路冷却墙钟,财务不买单。
事件循环配置
每进程一种 asyncio 策略写清;Workflows 步骤非阻塞,文件与子进程进执行器;信号量限并发,防检索饿死编排。嵌入与推理争统一内存时用闸门串行 GPU 路径,勿把 nest_asyncio 笔记本实验带进生产。
检索批大小与内存
M4 上嵌入批、节点批与 top_k 联动扫描,见交换即回退一档定合同;预留约一成五余量给系统与键值;索引根放快盘并记峰值常驻。混排管道目录可对《Haystack 远程 Mac》。
超时熔断表
表贴事件图旁;客户端总时限略高于服务端,拿结构化失败不悬挂。
| 阶段 | 墙钟 | 断路 |
|---|---|---|
| 读多 HTTP 工具 | 八至十二秒。 | 三连超时开断,冷三十秒半开。 |
| 子进程工具 | 树限加二十秒狗。 | 非零即停,禁静默重试。 |
| 首令牌 | 预填与总帽分设。 | 预填越线先查基建。 |
| 向量查询 | 中位延迟二至四倍。 | 九五分越闸先半开。 |
观测指标
跨度键:工作流名、步骤、工具名、检索批、缓存命中、令牌、队列深度、断路状态;计数超时次数与断路分钟。键名与离线评测号一致才能一板通三边。
成本阈值
浸泡前冻结每百万令牌美元、小时租金、出站、慢工具空显卡分;九五分越线无产品签字即失败。并发口径可对《LM Studio 与 llama.cpp》。
决策矩阵
| 画像 | 本地 M4 | 远程节点 |
|---|---|---|
| 交互编排 | 短链低并发够。 | 稳电演示可选。 |
| 通宵扫参 | 睡眠界面扭尾延迟。 | 无人浸泡利签核。 |
| 并行评测 | 统一内存易挤爆。 | 独占核隔离队列。 |
# 占位勿入库
export WORKFLOW_MAX_CONCURRENCY=2
export RETRIEVAL_BATCH_SIZE=32
export EMBED_BATCH_SIZE=16
export HTTP_TOOL_TIMEOUT_S=10
export VECTOR_QUERY_TIMEOUT_S=4
export BREAKER_THRESHOLD=3
export BREAKER_COOLDOWN_S=30
export P95_LATENCY_MS_MAX=4500
export REMOTE_SOAK_MIN_HOURS=4HowTo:六步验收
- 循环契约。策略、执行器、最大并发、禁阻清单。
- 扫批三元组。锁最后无交换的嵌入批、节点批、召回深度。
- 接熔断表。工具、子进程、首令牌、向量四段对齐。
- 发跨度。合成流验键名与采样率。
- 算闸门。令牌租金出站空转合一通过线。
- 远程浸泡。环境索引哈希一致,连跑四小时存档。
机时实践见《租赁实践》;网关预算见《LiteLLM 路由》。
常见问题
同循环?单进程单循环,GPU 路径串行,禁阻塞式软件开发工具包挂事件线程。
批一劳永逸?换权重或重建索引须重扫并更新合同哈希。
可引用:一成五余量;冷却分钟进墙钟;浸泡包含清单哈希与九五分截图。