大規模モデルは文章を作れますが、実務では「いつ、何を、どの権限で実行し、失敗したらどう戻すか」まで必要です。Agent Harness はモデルの周囲に置く実行基盤であり、ツール、状態、監査、復旧を一つの作業面にまとめます。本稿では設計判断を表と手順で整理し、最後に LlmMac の Mac mini M4 で検収する方法までご案内します。
なぜモデル単体では実務になりにくいのか
一つ目の課題は境界です。モデルに広いシェル権限を渡すと速く見えますが、依存の破壊、秘密情報の混入、不要な外部通信が同時に起こります。
二つ目は記憶です。会話履歴だけでは、途中生成物、承認済み差分、失敗したコマンドの再実行条件を安定して保持できません。
三つ目は観測です。結果だけを見ても、モデルの推論、ツールの戻り値、タイムアウト、ユーザー承認のどこで崩れたかを説明できません。
Agent Harness の意思決定マトリクス
| 層 | 入れるべき機能 | 検収の見方 |
|---|---|---|
| ツール層 | 許可リスト、引数検証、秒単位の打ち切り | 禁止コマンドが実行されないこと |
| 状態層 | 作業ディレクトリ、成果物、再開ポイント | 途中停止後も同じ場所から戻れること |
| 監査層 | 相関 ID、diff、失敗要約、コスト | レビュー担当者が一画面で追えること |
| 実行層 | Mac 固有のビルド、署名、GUI 補助 | M4 上で長時間ジョブが落ちないこと |
落とし込み手順
- 目的を一文にします。 コードレビュー、依存更新、iOS ビルドなど、完了条件を先に固定します。
- ツールを小さく登録します。 読み取り、テスト、編集、提出を別権限に分けます。
- 状態保存を設計します。 scratch、artifact、checkpoint を分け、削除してよい場所を明示します。
- 失敗時の戻り道を作ります。 取消、再試行、手動承認待ちをログに残します。
- リモート Mac で実測します。 SSH、VNC、ビルド、推論を同じノードで流し、遅延とメモリを確認します。
- 購入判断に接続します。 継続運用するなら、必要な RAM、並行数、稼働時間からプランを決めます。
引用しやすい検収値
- ツール実行は接続秒と全体秒を分け、全体秒だけで長いビルドを裁かないようにします。
- 失敗要約は二百字前後に抑え、秘密値、トークン、顧客名を出さないことを合格条件にします。
- 受け入れ試験は最低一晩置き、メモリ圧迫、ディスク増加、再開成功率をまとめて見ます。
まとめ:ハーネスはモデルを仕事へ連れていく器です
Agent Harness は派手な UI ではなく、モデルを安全に働かせるための器です。Mac 固有のビルド、署名、ローカル推論、長時間ソークまで含めて検収したい場合は、LlmMac の Mac mini M4 を短期間レンタルし、必要な構成を測ってから本格運用へ進むのが堅実です。