DSPy 編譯／優化是否應在每次 CI commit 執行？

不建議。將編譯與教師呼叫重的流程放在排程或手動流水線；CI 僅對凍結提示重播離線集並受嚴格 CPU 與牆鐘預算約束，合併才快且可重現。

為何本機 Metal 表現優於遠端時仍要以遠端為準？

筆電易節流、與 GUI 共用統一記憶體且可能睡眠。遠端專用節點較接近持續 tokens／小時與尾延遲的驗收來源；差異請用記憶體壓力與行程數對照追蹤。

主管摘要應含哪些指標？

主任務分數、最差約束違規率、p95 端到端延遲、含租金的每百萬 token 美元、以及離線評測集清單雜湊。

離線門檻與上線後追蹤如何銜接？

離線門檻在發版前阻擋退化；上線後以追蹤與日誌證明漂移。評測 run_id 與權杖會計欄位應與可觀測綱要一致以便關聯。

2026 Mac 本機 LLM 決策矩陣：DSPy 提示優化、離線評測集與遠端節點成本驗收

離線評測集與門檻先於「再調一版提示」：DSPy 把簽名與優化寫進程式，但若沒有凍結資料與資源上限，本機跑得動不代表遠端節點在成本與尾延遲上可簽核。

下列矩陣與清單與《OpenTelemetry GenAI 可觀測性》、《MLX-LM 與 Transformers 批次與 KV》、《本機 RAG 分塊與向量配額》銜接：前者對齊評測 run_id 與權杖欄位，後兩者約束統一記憶體與離線吞吐假設。全文聚焦提示程式、離線集與驗收，不重複多代理編排或聚合代理層主題。

決策矩陣 · 離線集清單 · 指標門檻 · 資源上限 · 評測流程 · 遠端成本 · FAQ

決策矩陣：何時編譯提示、何時只重播凍結集

依團隊階段選擇「教師／優化預算」與 CI 負載；編譯昂貴，應與合併節奏解耦。

情境	建議做法	產出物
探索期：簽名與評分器仍在變	本機或小隊列手動編譯；每輪保存提示版本與種子	實驗日誌＋候選提示 hash
準備凍結：要對外承諾品質	凍結離線 train／val／holdout；主線只接受「重播評測」PR	manifest＋單一 JSON 評測報告
交付期：需成本簽核	在與生產同晶片代次的遠端 Mac 重放相同 harness	tokens／h、$/M tokens、浸泡日誌
RAG／檢索增強評測	索引與 LLM 分開計價；離線集注明檢索版本	檢索子集＋生成子集雙門檻

離線評測集與可審計清單

每個 split 具 manifest.json：SHA256、列數、授權、建立時間與產生腳本 commit。
欄位含輸入、參考答案或評分器所需欄位；敏感欄位以雜湊或長度替代入庫。
holdout 僅在發版前解鎖，日常 CI 不得寫入新標註污染該集。
與 RAG 共用語料時，檢索快照版本寫入同一 manifest（見本機 RAG 矩陣之索引段落）。

指標門檻（範例，請以產品線校準）

門檻應相對於上一個已發行基線，並同時約束品質與穩態成本。

指標	建議門檻型態	說明
主任務分數（如準確率／勝率）	≥ 基線 − 0.5 個百分點	統計檢驗樣本足夠時再收緊
硬性約束違規率（格式／長度／禁詞）	≤ 基線 × 1.2 且絕對 ≤ 2%	取較嚴者；安全類請另設零容錯桶
p95 端到端延遲	≤ 基線 + 10% 或 + 固定毫秒上限	互動與批次分表
每百萬 token 估算成本（含租金分攤）	≤ 財務核准上限	遠端重放後再填

Apple Silicon 本機資源上限（驗收起點）

下列為試跑與 CI 重播用的數量級占位，請依機型與同機負載實測調整；與批次／KV 文一致時較易對齊。

資源	建議觀察閾值	超標時動作
統一記憶體壓力	不重複進入紅色「壓力」區連續超過 5 分鐘	降 batch、縮上下文或拆評測時段
交換檔	穩態 < 512MB（試跑機）	關閉非必要 GUI／背景同步
單進程 CPU	CI 重播單次牆鐘 < 20 分鐘（依集大小調整）	縮子樣本 smoke + 每夜全量
熱節流	長評測期不應持續觸發明顯降頻	改遠端專用節點或改善散熱環境

可執行評測流程（建議順序）

（一）匯出 manifest 並由審核腳本拒絕未登錄檔案。（二）固定模型權重、tokenizer、量化與 OMP_NUM_THREADS 等環境變數。（三）執行 harness：逐例寫分數、聚合、違規計數、prefill／decode 分段延遲。（四）比對門檻；失敗則附 diff 與種子。（五）將評測 run_id、模型版本、清單雜湊寫入可觀測欄位（見可觀測性矩陣）。

# 概念占位：離線重播（依你的 harness 替換）
export EVAL_SEED=42
export MANIFEST_SHA256=$(shasum -a 256 manifests/holdout.jsonl | awk '{print $1}')
python -m my_eval.run --split holdout --report reports/eval_${MANIFEST_SHA256:0:8}.json
# 報告應含：aggregate、per_bucket、p95_latency、constraint_violation_rate、tokens_total

遠端節點成本驗收清單（AI 開發向 Mac）

與本機相同的模型檔案校驗和、Python／MLX 或 PyTorch 次版本與環境變數。
浸泡至少 2～4 小時連續跑代表性佇列；期間禁止睡眠、並記錄背景更新是否關閉。
統計穩態 tokens_per_hour、p95 延遲與 OOM／重試次數；與本機曲線對照解釋差異。
將每小時租金、出站流量費與儲存快照費列入「每百萬 token」試算，供財務勾選。
產出單一簽核附件：報告 JSON＋成本表＋浸泡日誌連結。

FAQ

編譯／優化要不要進 CI？建議否，或僅在夜間流水線；日間 CI 只做凍結提示與離線重播以保證合併速度。

離線分數上升但延遲變差怎麼辦？將延遲與成本納入同一套門檻；產品可接受較慢時需同步更新預算與 SLO。

為何要獨立遠端 Mac？筆電多工與溫度會扭曲尾延遲與 tokens／h；專用遠端節點較接近「可簽核」的持續負載。

若你要把 DSPy 評測與浸泡固化在專用 Apple Silicon 遠端環境，可先免登入瀏覽定價與購買頁選型 AI 開發向遠端 Mac；細節見說明中心與首頁。

小結：凍結離線集與門檻後，DSPy 才有可比較的優化閉環；再以資源上限與遠端成本清單把「本機跑得動」推進到「節點上可簽核」。

2026 年 Mac 本機 LLM 決策矩陣：DSPy 提示優化與離線評測集、指標閾值與遠端節點成本驗收清單