LiteLLM 集約稿 とは異なり、本稿は CrewAI の編排(同一ゲートウェイ身分・ツールのバイパス防止)です。認可は LangGraph ツール稿、Schema/再試行は JSON Schema 稿、観測は GenAI 可観測性、多モデルは ルーティングコスト と照合。Haystack は検索寄り、CrewAI は並行と扇出が主題なので計測を分けます。
環境と依存関係 · ゲートウェイと CrewAI の統合手順 · 予算とサーキットブレーカー(遮断)パラメータ · よくあるエラー
環境と依存関係
Python 3.11 と venv/ロックで crewai・openai を固定。launchd で OpenClaw を常駐し、~/llm-edge 等に .env とトークンを 0600、ログはローテーション。ベクトルやローカル推論と同居する場合はメモリとディスクを見て Crew と索引を分離。Dashboard でテナント別短寿命 Bearer と失効の監査を残します。
ゲートウェイと CrewAI の統合手順
1)Dashboard でモデル別名・ツール URL プレフィックス(必要なら IP)を許可。2)OPENAI_API_KEY をゲートウェイトークンにし、base_url を https://<ゲートウェイ>/v1 等へ。上流鍵は埋め込まない。3)Tool の基底はゲートウェイ経由、Authorization と X-Request-ID でログ突合。4)Crew に seed または実行 ID を付けリプレイ可能に。5)単一エージェントのスモーク後に複数エージェントへ拡張し、遅延とエラー率を見てから本番スケジュールへ。
# シェル例:OpenAI 互換出口をゲートウェイのみにする
export OPENAI_API_KEY="$OC_TOKEN"
export OPENAI_BASE_URL="https://<ゲートウェイ>/v1"
python -c "import os; assert os.environ['OPENAI_BASE_URL'].startswith('https://')"予算とサーキットブレーカー(遮断)パラメータ
ゲートウェイで 最大並行・RPM・エラー率サーキットを同時に。p95 と上流容量に合わせ閾値を決め、セマフォ等で同時 Crew 数を抑え、Task に execution_timeout。遮断時は推奨バックオフ秒を構造化出力へ。Haystack 稿 は検索タイムアウト寄り、Crew は並行・扇出が主題なので指標は分けて読みます。
| パラメータ軸 | ゲートウェイ側の目安 | CrewAI アプリ側 |
|---|---|---|
| 並行 | テナントごとの最大 in-flight、必要ならモデル別プール | 同時 Crew 数の上限、ツール扇出の並行上限 |
| レート | RPM/TPM と突発トークンバケット | タスクキューとバックオフ、忙しきリトライの回避 |
| サーキット | エラー率ウィンドウ+最短オープン時間 | Task タイムアウトの段階化、遮断時はスタック全文ではなく要約 |
よくあるエラー
実務 FAQ(先頭 FAQPage と対応)。
401 でゲートウェイに痕跡なし? base_url のスラッシュ/パス重複、または Authorization 欠落。ノードで curl により /v1/models を再現。
サーキット多発で CPU 低い? 503 や読み取りタイムアウト比率が原因のことが多い。エラー率を見てからフォールバックや Task タイムアウトを調整。
ツールが内網直結? 出口をゲートウェイに統一し、CI で基底 URL を検査。
要約が長い/機密混入? 種別・再試行・ハッシュ・ステップ名のみ。プロンプト全文は書かない。
小結:ゲートウェイが認可と出口を統一し、CrewAI は役割とタスク分解に専念します。予算とサーキットを層で分ければ、マルチエージェントの失敗は観測・突合・再試行まで一気通貫で扱えます。
公開ページ(ログイン不要):料金、購入、ヘルプ、ホーム、ブログ一覧。専用 Apple Silicon リモートで試すなら購入で構成選定→料金で予算→検収。