目次:ランタイム選定 · メモリ headroom · 観測指標 · 対照表としきい値 · リモート検収
M4 統合メモリ上の「複数ツール同時」「ストリーム読み」「生成打ち切り」はフレームワークと一体です。アグノーとオープンエーアイ・エージェント・エスディーケーを並べ、ローカルで揃えた値をリモート Mac の承認資料へ写します。併読:可観測性・多モデル費用・ツールすきーま。
ランタイム選定
アグノーは非同期パイプラインと型付き中心で、同時ツールをセマフォ等で明示しやすいです。オープンエーアイ・エージェント・エスディーケーは Runner とイベントで世代・ハンドオフを揃えやすく観測寄りです。M4 では「契約スロット数」とストリーム境界(ターン/セッション)を表に書き、実装変更時のみ行更新とします。
メモリ headroom
重み常駐に加え、ツールワーカーごとのヒープと推論ストリームのバッファが瞬間的に伸びます。七・七ビリオン級の量子化モデルを載せる前提なら、フレームワークと並行枠用に統合メモリ空きをおおよそ四〜六ギビバイト残すと第一トークンが安定しやすいです。空きが三ギビバイト未満に落ちる運用では、契約スロットを半分へ下げるか、重いツールを別プロセスへ逃がす契約を先に表へ書きます。
観測指標
第一トークン・ツール往復の第九五分位、拒否率、打ち切り率、ターン毎積算トークンを同一ダッシュボードへ。オーペンテレメトリー稿と分担し、費用はコスト表へ。
対照表としきい値
量子化・最長文脈・契約スロットを変えたら行ごと更新します。
| 観点 | アグノー | オープンエーアイ・エージェント・エスディーケー | 検収メモ |
|---|---|---|---|
| ツール並行 | セマフォで本数をコードに近い | Runner 設計でイベント順を固定しやすい | 契約本数を超えたら拒否で測る |
| ストリーミング | アプリ側でチャンク集約 | 公式イベントにトレースを寄せやすい | ターン毎 max と積算をログ化 |
| オーケストレーション | マルチエージェントの型が近い | ハンドオフ記述がそのまま図になる | 境界名をリモートにも複写 |
| リモート費用 | 手元と同じ並行を載せ替え前提 | クラウド推理併用で往復が増えやすい | 往復第九五分位と時給を同欄 |
しきい値(M4 ローカル目安)
- 同時ツール:通常負荷で二〜四本、ピーク試験で最大八本まで。第一トークン第九五分位の悪化はベース比一割以内。
- トークン予算:ターン毎の生成上限を四〇九六から走査し、打ち切り発生率二パーセント未満を維持。
- 往復:同一サブネットでツール第九五分位三〇〇ミリ秒未満、跨ぎ VPN では八〇〇ミリ秒未満を合格線。
リモートノード費用の検収チェックリスト
- 固定:モデル指紋とランタイム版と契約スロットを表に凍結。
- 管線:エスエスエイチ終端と仮想私設網ホップの秒を記録。
- 負荷:六百秒で短問とストリーム混在、第九五分位と拒否率を残す。
- 経理:時給レンタと償却購入を一行で承認袋へ。ツール境界はすきーま稿と整合。
料金・購入・ヘルプ・テックブログはログイン不要の公開ページです。
締め。ランタイムを選んだら headroom と指標を同じ欄に残し、リモートでは往復と時給を同袋へ。購入の公開面でノード構成を確定してください。