目次:詰まり · イベントループ設定 · 検索バッチサイズとメモリ · タイムアウト遮断表 · 観測指標 · コスト閾値 · 意思決定マトリクス · HowTo · 補足
可観測性・ローカル RAG・索引比較と併読し凍結してください。
運用で詰まる三つ
一同期 HTTP や重いパーサがループを塞ぎ尾部だけ伸びます。二バッチと子ノード過多で KV とメモリが衝突します。三単価だけ見て課金と遮断冷却を落とすと検収が楽観化します。
イベントループ設定
asyncio 方針を一プロセス一つで固定し、Workflows手順は非ブロッキングへ。入出力と子プロセスは実行器、同時実行はセマフォで上限。埋め込みはゲート裏で直列、nest_asyncio は本番から隔離します。
検索バッチサイズとメモリ
埋め込みバッチ・ノード取得・上位件数を同時掃引しピーク常駐を記録、スワップ手前で一段戻して凍結。統合メモリは約十五パーセント空け、混線時はHaystack 手順と整合します。
タイムアウト遮断表
秒数・連敗・冷却をグラフ横に正典化し、期限はサーバ上限直上で構造化失敗へ。
| 段階 | 初期ヒューズ | 遮断ルール |
|---|---|---|
| HTTP ツール | 読み取り八〜十二秒 | 三回連続タイムアウトで開き三十秒冷却 |
| 子プロセス | 木深さ+二十秒番犬 | 非ゼロ終了は黙再試行なし |
| 初回トークン | プレフィルと総枠を分離 | プレフィル越えは基盤異常扱い |
| ベクトル | 中央値の二〜四倍 | p95 が閾値超えなら半開 |
観測指標
手順名・ツール名・検索バッチ・キャッシュ・トークン・待ち行列・遮断状態を固定キーで。タイムアウト率・遮断分・冷却分を数え評価 ID と一枚に結びます。
コスト閾値
百万トークンあたりドル・時間課金・出口・低速時アイドル分を事前上限。p95 端到端がゲート越えなら承認なし失敗。推論比較はllama.cpp と Ollamaへ。
意思決定マトリクス
| プロファイル | 手元 M4 | 専用リモート Mac |
|---|---|---|
| 短い試行 | 低同時で可 | 熱安定が要なら任意 |
| 夜間スイープ | 睡眠と GUI で尾部歪み | 無人ソーク向き |
| 並列評価 | メモリ集中 | コア隔離しやすい |
# env 例
export WORKFLOW_MAX_CONCURRENCY=2
export RETRIEVAL_BATCH_SIZE=32
export EMBED_BATCH_SIZE=16
export HTTP_TOOL_TIMEOUT_S=10
export VECTOR_QUERY_TIMEOUT_S=4
export BREAKER_THRESHOLD=3
export BREAKER_COOLDOWN_S=30
export P95_LATENCY_MS_MAX=4500
export REMOTE_SOAK_MIN_HOURS=4HowTo(六段)
- ループ契約 方針・実行器・同時実行を文書化
- バッチ掃引 最後に緑だった組を M4 で凍結
- 遮断結線 表を各段階へ割当
- 計装 遮断・タイムアウト・トークンを同鍵名
- コスト合否 課金+トークン+出口で判定
- リモートソーク 四時間以上を専用で鏡像しハッシュ添付
レンタル体験談参照。長時間はリモート Macへ寄せると尾部と承認資料が揃います。
補足
要約:ループ固定・バッチ実測・遮断表・観測・コスト閾値を揃え、専用リモート Mac で長時間検収へ。