LlamaIndex Workflowsは RAG とエージェントをイベントグラフ化しますが、障害の多くはasyncioのブロッキング、M4統合メモリを圧する検索バッチ、財務とズレたツールタイムアウトです。リモート Macへ写せる検収型を示します。

目次:詰まり · イベントループ設定 · 検索バッチサイズとメモリ · タイムアウト遮断表 · 観測指標 · コスト閾値 · 意思決定マトリクス · HowTo · 補足

可観測性ローカル RAG索引比較と併読し凍結してください。

運用で詰まる三つ

同期 HTTP や重いパーサがループを塞ぎ尾部だけ伸びます。バッチと子ノード過多で KV とメモリが衝突します。単価だけ見て課金と遮断冷却を落とすと検収が楽観化します。

イベントループ設定

asyncio 方針を一プロセス一つで固定し、Workflows手順は非ブロッキングへ。入出力と子プロセスは実行器、同時実行はセマフォで上限。埋め込みはゲート裏で直列、nest_asyncio は本番から隔離します。

検索バッチサイズとメモリ

埋め込みバッチノード取得上位件数を同時掃引しピーク常駐を記録、スワップ手前で一段戻して凍結。統合メモリは約十五パーセント空け、混線時はHaystack 手順と整合します。

タイムアウト遮断表

秒数・連敗・冷却をグラフ横に正典化し、期限はサーバ上限直上で構造化失敗へ。

段階 初期ヒューズ 遮断ルール
HTTP ツール 読み取り八〜十二秒 三回連続タイムアウトで開き三十秒冷却
子プロセス 木深さ+二十秒番犬 非ゼロ終了は黙再試行なし
初回トークン プレフィルと総枠を分離 プレフィル越えは基盤異常扱い
ベクトル 中央値の二〜四倍 p95 が閾値超えなら半開

観測指標

手順名・ツール名・検索バッチ・キャッシュ・トークン・待ち行列・遮断状態を固定キーで。タイムアウト率・遮断分・冷却分を数え評価 ID と一枚に結びます。

コスト閾値

百万トークンあたりドル・時間課金・出口・低速時アイドル分を事前上限。p95 端到端がゲート越えなら承認なし失敗。推論比較はllama.cpp と Ollamaへ。

意思決定マトリクス

プロファイル 手元 M4 専用リモート Mac
短い試行 低同時で可 熱安定が要なら任意
夜間スイープ 睡眠と GUI で尾部歪み 無人ソーク向き
並列評価 メモリ集中 コア隔離しやすい
# env 例 export WORKFLOW_MAX_CONCURRENCY=2 export RETRIEVAL_BATCH_SIZE=32 export EMBED_BATCH_SIZE=16 export HTTP_TOOL_TIMEOUT_S=10 export VECTOR_QUERY_TIMEOUT_S=4 export BREAKER_THRESHOLD=3 export BREAKER_COOLDOWN_S=30 export P95_LATENCY_MS_MAX=4500 export REMOTE_SOAK_MIN_HOURS=4

HowTo(六段)

  1. ループ契約 方針・実行器・同時実行を文書化
  2. バッチ掃引 最後に緑だった組を M4 で凍結
  3. 遮断結線 表を各段階へ割当
  4. 計装 遮断・タイムアウト・トークンを同鍵名
  5. コスト合否 課金+トークン+出口で判定
  6. リモートソーク 四時間以上を専用で鏡像しハッシュ添付

レンタル体験談参照。長時間はリモート Macへ寄せると尾部と承認資料が揃います。

補足

料金購入ブログヘルプログイン不要です。

要約:ループ固定・バッチ実測・遮断表・観測・コスト閾値を揃え、専用リモート Mac で長時間検収へ。