下列矩陣與清單與《OpenTelemetry GenAI 可觀測性》、《MLX-LM 與 Transformers 批次與 KV》、《本機 RAG 分塊與向量配額》銜接:前者對齊評測 run_id 與權杖欄位,後兩者約束統一記憶體與離線吞吐假設。全文聚焦提示程式、離線集與驗收,不重複多代理編排或聚合代理層主題。
決策矩陣 · 離線集清單 · 指標門檻 · 資源上限 · 評測流程 · 遠端成本 · FAQ
決策矩陣:何時編譯提示、何時只重播凍結集
依團隊階段選擇「教師/優化預算」與 CI 負載;編譯昂貴,應與合併節奏解耦。
| 情境 | 建議做法 | 產出物 |
|---|---|---|
| 探索期:簽名與評分器仍在變 | 本機或小隊列手動編譯;每輪保存提示版本與種子 | 實驗日誌+候選提示 hash |
| 準備凍結:要對外承諾品質 | 凍結離線 train/val/holdout;主線只接受「重播評測」PR | manifest+單一 JSON 評測報告 |
| 交付期:需成本簽核 | 在與生產同晶片代次的遠端 Mac 重放相同 harness | tokens/h、$/M tokens、浸泡日誌 |
| RAG/檢索增強評測 | 索引與 LLM 分開計價;離線集注明檢索版本 | 檢索子集+生成子集雙門檻 |
離線評測集與可審計清單
- 每個 split 具
manifest.json:SHA256、列數、授權、建立時間與產生腳本 commit。 - 欄位含輸入、參考答案或評分器所需欄位;敏感欄位以雜湊或長度替代入庫。
- holdout 僅在發版前解鎖,日常 CI 不得寫入新標註污染該集。
- 與 RAG 共用語料時,檢索快照版本寫入同一 manifest(見本機 RAG 矩陣之索引段落)。
指標門檻(範例,請以產品線校準)
門檻應相對於上一個已發行基線,並同時約束品質與穩態成本。
| 指標 | 建議門檻型態 | 說明 |
|---|---|---|
| 主任務分數(如準確率/勝率) | ≥ 基線 − 0.5 個百分點 | 統計檢驗樣本足夠時再收緊 |
| 硬性約束違規率(格式/長度/禁詞) | ≤ 基線 × 1.2 且絕對 ≤ 2% | 取較嚴者;安全類請另設零容錯桶 |
| p95 端到端延遲 | ≤ 基線 + 10% 或 + 固定毫秒上限 | 互動與批次分表 |
| 每百萬 token 估算成本(含租金分攤) | ≤ 財務核准上限 | 遠端重放後再填 |
Apple Silicon 本機資源上限(驗收起點)
下列為試跑與 CI 重播用的數量級占位,請依機型與同機負載實測調整;與批次/KV 文一致時較易對齊。
| 資源 | 建議觀察閾值 | 超標時動作 |
|---|---|---|
| 統一記憶體壓力 | 不重複進入紅色「壓力」區連續超過 5 分鐘 | 降 batch、縮上下文或拆評測時段 |
| 交換檔 | 穩態 < 512MB(試跑機) | 關閉非必要 GUI/背景同步 |
| 單進程 CPU | CI 重播單次牆鐘 < 20 分鐘(依集大小調整) | 縮子樣本 smoke + 每夜全量 |
| 熱節流 | 長評測期不應持續觸發明顯降頻 | 改遠端專用節點或改善散熱環境 |
可執行評測流程(建議順序)
(一)匯出 manifest 並由審核腳本拒絕未登錄檔案。(二)固定模型權重、tokenizer、量化與 OMP_NUM_THREADS 等環境變數。(三)執行 harness:逐例寫分數、聚合、違規計數、prefill/decode 分段延遲。(四)比對門檻;失敗則附 diff 與種子。(五)將評測 run_id、模型版本、清單雜湊寫入可觀測欄位(見可觀測性矩陣)。
# 概念占位:離線重播(依你的 harness 替換)
export EVAL_SEED=42
export MANIFEST_SHA256=$(shasum -a 256 manifests/holdout.jsonl | awk '{print $1}')
python -m my_eval.run --split holdout --report reports/eval_${MANIFEST_SHA256:0:8}.json
# 報告應含:aggregate、per_bucket、p95_latency、constraint_violation_rate、tokens_total遠端節點成本驗收清單(AI 開發向 Mac)
- 與本機相同的模型檔案校驗和、Python/MLX 或 PyTorch 次版本與環境變數。
- 浸泡至少 2~4 小時連續跑代表性佇列;期間禁止睡眠、並記錄背景更新是否關閉。
- 統計穩態
tokens_per_hour、p95 延遲與 OOM/重試次數;與本機曲線對照解釋差異。 - 將每小時租金、出站流量費與儲存快照費列入「每百萬 token」試算,供財務勾選。
- 產出單一簽核附件:報告 JSON+成本表+浸泡日誌連結。
FAQ
編譯/優化要不要進 CI?建議否,或僅在夜間流水線;日間 CI 只做凍結提示與離線重播以保證合併速度。
離線分數上升但延遲變差怎麼辦?將延遲與成本納入同一套門檻;產品可接受較慢時需同步更新預算與 SLO。
為何要獨立遠端 Mac?筆電多工與溫度會扭曲尾延遲與 tokens/h;專用遠端節點較接近「可簽核」的持續負載。
若你要把 DSPy 評測與浸泡固化在專用 Apple Silicon 遠端環境,可先免登入瀏覽定價與購買頁選型 AI 開發向遠端 Mac;細節見說明中心與首頁。
小結:凍結離線集與門檻後,DSPy 才有可比較的優化閉環;再以資源上限與遠端成本清單把「本機跑得動」推進到「節點上可簽核」。