本篇目錄
本文將Agno(輕量 Python 執行面)與OpenAI Agents SDK(官方 handoff/工具生命週期)置於同一驗收座標,涵蓋遠端 Mac 連線與重試成本。觀測對齊《GenAI 可觀測性矩陣》;連線行為併讀《Keep-Alive 與併發驗收》;閘道契約見《PydanticAI 閘道綱要》。
痛點拆解:
- 槽位未入 runbook:多協程同打 API/本機指令,句柄與執行緒池先飽和。
- 流式與 UI 脫鉤:軟上限與 chunk 間隔未監控,背壓不同步引發重試風暴。
- 遠端複製本機假設:未量 TLS 與連線重用率,SLA 無法簽核。
運行時選型
Agno利於快速迭代與自管路由;逾時、取消與併發須自建規約。OpenAI Agents SDK利於對齊官方範式與 handoff;釘版與自架後端適配成本較高。實務上可 SDK 對外、內部輕量執行器承載工具沙箱。
| 維度 | Agno(本機 M4 常態) | OpenAI Agents SDK |
|---|---|---|
| 工具併發槽位 | 信號量自管;顯式上限並計在飛數 | 執行緒池預設須覆寫並對齊外部配額 |
| 流式 token 預算 | 自管中止條件;易接任意後端 | 串流事件對齊官方;客戶端硬夾 max 與取消 |
| Handoff/多代理 | 模組組合;邊界靠程式碼 | 內建敘述;利於跨團隊 |
| 遠端驗收重心 | 閘道逾時與自訂日誌欄位 | 金鑰、區域端點與帳單儀表 |
| 指標 | 建議閾值(M4 16GB 級起點) | 超標時優先動作 |
|---|---|---|
| 在飛工具(單進程) | >4 逾 2 分鐘 | 降槽位、序列化 I/O 工具、加分段逾時 |
| 流式軟上限(decode) | 逾基線 2.5 倍 且無取消 | 下調 max output、二段摘要生成 |
| chunk 間隔 p95 | 劣化 >35% 逾 5 分鐘 | 查閘道 idle、keep-alive、上游池 |
| 遠端浸泡 | 簽核前 <90 分鐘 穩態窗 | 延長浸泡並歸檔關聯編號 |
記憶體 headroom
每增一穩定槽,長上下文與工具中間結果共享統一記憶體。啟動時預留約18% 給系統與快取(同機跑嵌入時酌增),並登記單工具峰值 RSS。寧可閘道排隊,勿讓槽位與流式窗同滿,以免 swap 使 p99 不可比。
觀測指標
至少:run_id、tool.name、tool.in_flight、stream.first_token_ms、stream.cancelled、http.conn_reuse_ratio;錯誤映射可重試與否。對齊 OTel GenAI 欄位後可分離模型與工具延遲;重試勿與飽和槽對撞。
落地五步驟(可併入 CI 乾跑)
- 釘選 Python/SDK/Agno 版號入鎖檔;遠端映像雜湊一致。
- 每工具宣告槽位、wall-clock 與連線逾時,禁無界阻塞。
- 流式軟上限與取消傳播到上游,防殭屍生成。
- 跑 90 分鐘浸泡:記 p95、p99、在飛數與記憶體曲線。
- 產簽核頁:閾值表、儀表截圖、關聯編號歸檔。
可引用:起始槽位 4;系統保留約 18%;浸泡 ≥90 分鐘;chunk 警報窗 5 分鐘。
結語:選型確定後,請將上述閾值寫入儀表板與 on-call runbook;上線前務必完成購買頁方案比對與節點規格確認,再將浸泡日誌附於變更單以利稽核。
小結:先定運行時與契約,再為工具與流式上硬預算並補齊觀測;遠端成本方可簽核。長浸泡與升級對照建議用專用 Mac mini M4 雲端節點隔離桌面。