本篇導覽: 痛點 · 事件迴圈配置 · 檢索批大小與記憶體 · 逾時熔斷表 · 觀測指標 · 成本閾值 · 決策矩陣 · HowTo 步驟 · 常見問答
對齊 GenAI 可觀測性矩陣 與 本機 RAG 配額矩陣;混用管線時參考 Haystack 遠端 HowTo 與 向量索引驗收筆記,避免 ingest 與線上契約脫鉤。
M4 類 Agent 堆疊的典型痛點
1. 迴圈阻塞。在主 asyncio 迴圈上執行同步 HTTP 工具或重 CPU 剖析器,會讓所有 workflow 步驟一起變慢;監控上常只見尾延遲惡化,而難以直接對應到單一工具錯誤。
2. 記憶體斷崖。在未量測常駐集大小的情況下提高檢索批或子節點扇出,會吃掉 LLM 仍須保留給 KV 成長的統一記憶體預算。
3. 成本樂觀。報價時只列模型牌價、忽略每小時租金、等待慢工具時的閒置 GPU 分鐘,以及熔斷冷卻反覆拉長的牆鐘,都會讓遠端演練與財務預期脫節。
事件迴圈配置
每行程單一 asyncio 政策並入 runbook;Workflows 步驟非阻塞,檔案 IO/子程序/重 CPU 剖析走執行器,並以訊號量限制併發,避免檢索尖峰餓死編排。嵌入與推論若同解譯器,GPU 呼叫應共用序列化閘門;勿讓 notebook 的 nest_asyncio 實驗洩漏到服務進入點。
檢索批大小與記憶體
嵌入批、節點批 與 top_k 一併掃描至峰值 RSS 觸及交換或壓縮警訊後回退一檔,凍結為契約;預留約 15% 統一記憶體給系統與 LLM/分詞器帳本,索引採 mmap 友善版面並記錄每次掃描的峰值供跨週比對。
逾時熔斷表
將熔斷階梯貼在 workflow 圖旁邊。客戶端截止時間應僅略高於伺服端上限,讓呼叫端穩定收到結構化失敗而非無限期懸掛。
| 階段 | 建議起始熔斷 | 熔斷規則 |
|---|---|---|
| HTTP 工具 | 讀取為主的 API:牆鐘約 8–12 秒。 | 連續 3 次逾時後開啟熔斷,冷卻 30 秒。 |
| 子程序工具 | 程序樹上限外加約 20 秒看門狗。 | 非零退出碼即失敗閉合;無預算識別碼則禁止靜默重試。 |
| LLM 首 token | 依模型的 prefill 預算,與總生成分開計。 | prefill 越線視為基礎設施問題,而非單純「提示寫不好」。 |
| 向量查詢 | 約為目前批大小下中位分片延遲的 2–4 倍。 | 若 p95 持續高於閘門,先降載或半開熔斷並記錄漂移原因。 |
觀測指標
Span 屬性鍵建議包含 workflow_name、step_id、tool_name、retrieval_batch、cache_hit、token 與 queue_depth、breaker_state;計數器涵蓋逾時、熔斷開啟與冷卻分鐘數,並可與離線評測 ID join。
成本閾值
放大流量前固定:每百萬 token 美元、每小時租金、artifact 出站與慢工具等待下的 閒置 GPU 分鐘;p95 端到端越線且無新服務目標簽核則演練失敗。驗收包並列租金×浸泡時長與 API 支出;多 workflow 共用模型時對照 llama.cpp/Ollama 推理矩陣。
決策矩陣
| 情境 | 優先本機 M4 筆電 | 租用遠端 Mac mini 級節點 |
|---|---|---|
| 互動式設計 | 短 trace、人在迴路、併發低。 | 可選;需要穩定供電對外 demo 時再租。 |
| 徹夜參數掃描 | 風險高:睡眠、溫控降頻與 GUI 爭用會扭曲尾延遲。 | 建議;無人值守浸泡較符合財務簽核敘事。 |
| 平行離線評測 | 受統一記憶體與共享 CPU 限制。 | 專用核心與記憶體可隔離批次佇列。 |
# 示意環境旋鈕——機密請勿入庫
export WORKFLOW_MAX_CONCURRENCY=2
export RETRIEVAL_BATCH_SIZE=32
export EMBED_BATCH_SIZE=16
export HTTP_TOOL_TIMEOUT_S=10
export VECTOR_QUERY_TIMEOUT_S=4
export BREAKER_THRESHOLD=3
export BREAKER_COOLDOWN_S=30
export P95_LATENCY_MS_MAX=4500
export REMOTE_SOAK_MIN_HOURS=4HowTo 步驟
- 宣告迴圈契約。記錄 asyncio 政策、執行器池與每行程最大併發 workflow 數。
- 剖析批組合。在 M4 上掃描檢索與嵌入批,取樣 RSS 直至找到最後一組穩定三元組。
- 接上熔斷。依上表為工具、子程序、首 token 與向量呼叫設定逾時,並對齊客戶端截止時間。
- 輸出 span。釘選屬性鍵與熔斷/逾時/token 相關計數器。
- 對照成本閘門。計算每百萬 token 美元加租金與出站;任一閘門越線則關閉放行。
- 遠端 Mac 浸泡。鏡像清單與環境到租用節點,連續至少四小時並封存雜湊與驗收包。
敘事背景見 自由工作者租用實戰。徹夜掃描搬離桌面時,請 租用遠端 Mac 以穩定熱與牆鐘完成簽核級演練。
常見問答
嵌入與 Workflows 共用迴圈?單一 asyncio 迴圈並序列化 GPU 呼叫;避免阻塞式 SDK 直接跑在主迴圈。
有通用安全批大小嗎?無;最後一組綠燈量測值即遠端契約。
小結:先穩 asyncio,再在統一記憶體上為檢索批劃界,公布逾時與熔斷階梯,以 GenAI 觀測欄位支撐儀表板,並以租金加 token 的成本閘門約束演練;最後以遠端 Mac 長跑浸泡完成誠實的簽核交付。