大規模モデルは文章を作れますが、実務では「いつ、何を、どの権限で実行し、失敗したらどう戻すか」まで必要です。Agent Harness はモデルの周囲に置く実行基盤であり、ツール、状態、監査、復旧を一つの作業面にまとめます。本稿では設計判断を表と手順で整理し、最後に LlmMac の Mac mini M4 で検収する方法までご案内します。

なぜモデル単体では実務になりにくいのか

一つ目の課題は境界です。モデルに広いシェル権限を渡すと速く見えますが、依存の破壊、秘密情報の混入、不要な外部通信が同時に起こります。

二つ目は記憶です。会話履歴だけでは、途中生成物、承認済み差分、失敗したコマンドの再実行条件を安定して保持できません。

三つ目は観測です。結果だけを見ても、モデルの推論、ツールの戻り値、タイムアウト、ユーザー承認のどこで崩れたかを説明できません。

Agent Harness の意思決定マトリクス

入れるべき機能 検収の見方
ツール層 許可リスト、引数検証、秒単位の打ち切り 禁止コマンドが実行されないこと
状態層 作業ディレクトリ、成果物、再開ポイント 途中停止後も同じ場所から戻れること
監査層 相関 ID、diff、失敗要約、コスト レビュー担当者が一画面で追えること
実行層 Mac 固有のビルド、署名、GUI 補助 M4 上で長時間ジョブが落ちないこと

落とし込み手順

  1. 目的を一文にします。 コードレビュー、依存更新、iOS ビルドなど、完了条件を先に固定します。
  2. ツールを小さく登録します。 読み取り、テスト、編集、提出を別権限に分けます。
  3. 状態保存を設計します。 scratch、artifact、checkpoint を分け、削除してよい場所を明示します。
  4. 失敗時の戻り道を作ります。 取消、再試行、手動承認待ちをログに残します。
  5. リモート Mac で実測します。 SSH、VNC、ビルド、推論を同じノードで流し、遅延とメモリを確認します。
  6. 購入判断に接続します。 継続運用するなら、必要な RAM、並行数、稼働時間からプランを決めます。

引用しやすい検収値

  • ツール実行は接続秒と全体秒を分け、全体秒だけで長いビルドを裁かないようにします。
  • 失敗要約は二百字前後に抑え、秘密値、トークン、顧客名を出さないことを合格条件にします。
  • 受け入れ試験は最低一晩置き、メモリ圧迫、ディスク増加、再開成功率をまとめて見ます。

まとめ:ハーネスはモデルを仕事へ連れていく器です

Agent Harness は派手な UI ではなく、モデルを安全に働かせるための器です。Mac 固有のビルド、署名、ローカル推論、長時間ソークまで含めて検収したい場合は、LlmMac の Mac mini M4 を短期間レンタルし、必要な構成を測ってから本格運用へ進むのが堅実です。