LlamaIndex Workflows 把 RAG 与 Agent 画成事件图,线上却常栽在 asyncio 循环阻塞、检索批顶穿 统一内存,以及 工具超时成本阈值各说各话。下文 Article 讲取舍,HowTo 给远程浸泡清单。💻🚀

目录:痛点 · 事件循环 · 检索批与内存 · 熔断表 · 观测 · 成本 · 矩阵 · 步骤 · 问答

可观测字段对齐《GenAI 可观测矩阵》;分块配额见《本地 RAG 矩阵》;索引峰值见《向量索引对照》购买定价免登录。

痛点拆解

循环阻塞。同步 HTTP 或重解析跑在主循环,尾延迟集体变差却像模型慢。

内存断崖。嵌入批或节点批单调大不量常驻,挤占键值与页缓存,交换后雪崩。

成本幻觉。只算令牌单价,漏租金、慢工具空转与断路冷却墙钟,财务不买单。

事件循环配置

每进程一种 asyncio 策略写清;Workflows 步骤非阻塞,文件与子进程进执行器;信号量限并发,防检索饿死编排。嵌入与推理争统一内存时用闸门串行 GPU 路径,勿把 nest_asyncio 笔记本实验带进生产。

检索批大小与内存

M4 上嵌入批、节点批与 top_k 联动扫描,见交换即回退一档定合同;预留约一成五余量给系统与键值;索引根放快盘并记峰值常驻。混排管道目录可对《Haystack 远程 Mac》

超时熔断表

表贴事件图旁;客户端总时限略高于服务端,拿结构化失败不悬挂。

阶段 墙钟 断路
读多 HTTP 工具 八至十二秒。 三连超时开断,冷三十秒半开。
子进程工具 树限加二十秒狗。 非零即停,禁静默重试。
首令牌 预填与总帽分设。 预填越线先查基建。
向量查询 中位延迟二至四倍。 九五分越闸先半开。

观测指标

跨度键:工作流名步骤工具名检索批缓存命中、令牌、队列深度断路状态;计数超时次数与断路分钟。键名与离线评测号一致才能一板通三边。

成本阈值

浸泡前冻结每百万令牌美元小时租金出站、慢工具空显卡分;九五分越线无产品签字即失败。并发口径可对《LM Studio 与 llama.cpp》

决策矩阵

画像 本地 M4 远程节点
交互编排 短链低并发够。 稳电演示可选。
通宵扫参 睡眠界面扭尾延迟。 无人浸泡利签核。
并行评测 统一内存易挤爆。 独占核隔离队列。
# 占位勿入库 export WORKFLOW_MAX_CONCURRENCY=2 export RETRIEVAL_BATCH_SIZE=32 export EMBED_BATCH_SIZE=16 export HTTP_TOOL_TIMEOUT_S=10 export VECTOR_QUERY_TIMEOUT_S=4 export BREAKER_THRESHOLD=3 export BREAKER_COOLDOWN_S=30 export P95_LATENCY_MS_MAX=4500 export REMOTE_SOAK_MIN_HOURS=4

HowTo:六步验收

  1. 循环契约。策略、执行器、最大并发、禁阻清单。
  2. 扫批三元组。锁最后无交换的嵌入批、节点批、召回深度。
  3. 接熔断表。工具、子进程、首令牌、向量四段对齐。
  4. 发跨度。合成流验键名与采样率。
  5. 算闸门。令牌租金出站空转合一通过线。
  6. 远程浸泡。环境索引哈希一致,连跑四小时存档。

机时实践见《租赁实践》;网关预算见《LiteLLM 路由》

常见问题

同循环?单进程单循环,GPU 路径串行,禁阻塞式软件开发工具包挂事件线程。

批一劳永逸?换权重或重建索引须重扫并更新合同哈希。

可引用:一成五余量;冷却分钟进墙钟;浸泡包含清单哈希与九五分截图。

公开页:定价购买帮助博客。通宵签核请用租用远程 Mac专用节点,本机留设计评审。