DSPy はプロンプトをコード化しますが、凍結オフライン評価と指標ゲートなしではホールドアウトで崩れます。本稿は Apple Silicon の目安上限と、レンタルしたリモート Mac での時間課金検収だけに絞ります。
構成:詰まり · マトリクス · フロー · 上限 · 検収 · FAQ
計装名は GenAI 可観測性稿、バッチ前提は MLX-LM/Transformers 稿、検索混在は ローカル RAG 稿 と照合します。LangGraph/LiteLLM 専題とは切り分け、本稿は オフライン退行防止 と レンタルコスト承認 に集中します。
詰まりやすい点
1. 開発スライス過学習でコンパイルは良く見えるがホールドアウトで落ちる。2. 単発ノートは GUI と熱で再現性がない。3. API 単価だけでは時間課金とやり直しが抜ける。
意思決定マトリクス
| 成果物 | 役割 | 目安ゲート |
|---|---|---|
| 署名/テレプロンプタ | 型付きプロンプトプログラム | JSON 妥当率 99% 超 |
| コンパイル | 教師付き探索 | ラウンド上限・教師は予算 ID 付きのみ |
| ホールドアウト JSONL | マニフェスト付き | 一次スコア ±1.5% 以内 |
| 制約 | 方針検査 | ハード 0、ソフト 0.5% 未満 |
| リモートソーク | 専用ノード反復 | p95 内・時間課金と突合 |
レビューは上から順に。マニフェストハッシュが CI と一致するか確認してから制約と遅延を読みます。失敗時は指標・スライス・想定金額を一枚のチケットにまとめます。
評価フロー(六段)
1 マニフェスト凍結(SHA256・行数・ライセンス)。2 署名をリポジトリへ。3 シード固定でコンパイル予算内。4 Metal で出荷想定の量子化・文脈長。5 単一 JSON に集約。6 同一ジョブをリモートで 4h ソークし p95 と空き分を記録。レポートに git と同じ版を付けます。
リソース上限(目安・M4)
- 空き UMA 18% 以上
- プリフィル合計 75% 以内に並列抑制
- GPU 平均 92% 超が続くなら換気と停止
- SSD 60 GB を重みとログに
EVAL_SEED=20260420
MANIFEST_SHA256=${MANIFEST_SHA256}
DSPY_MAX_TEACHER_ROUNDS=${DSPY_MAX_TEACHER_ROUNDS}
P95_MS_MAX=${P95_MS_MAX}
SOAK_HOURS=${SOAK_HOURS}
HOURLY_JPY=${HOURLY_JPY}コスト検収チェックリスト
- 時間課金・ソーク・空きをトークン費と同じ表で
- チップ・UMA・macOS を本番計画と一致
- 外向き転送は見積と上限アラート
- 再試行はオフラインと同じ・教師の黒字増禁止
- JSON・ハッシュ・緩和承認を同梱
FAQ
PR 毎にコンパイル? 夜間か手動へ。PR は凍結プロンプトの高速回帰のみ。
ローカル速いがリモート遅い? スリープと IDE 共有が原因です。専用ノードで尾部を受け入れます。
遅延だけゲート超え? 停止か閾値再交渉。黙って広げません。