離線評測集與門檻先於「再調一版提示」:DSPy 把簽名與優化寫進程式,但若沒有凍結資料與資源上限,本機跑得動不代表遠端節點在成本與尾延遲上可簽核。

下列矩陣與清單與《OpenTelemetry GenAI 可觀測性》《MLX-LM 與 Transformers 批次與 KV》《本機 RAG 分塊與向量配額》銜接:前者對齊評測 run_id 與權杖欄位,後兩者約束統一記憶體與離線吞吐假設。全文聚焦提示程式、離線集與驗收,不重複多代理編排或聚合代理層主題。

決策矩陣 · 離線集清單 · 指標門檻 · 資源上限 · 評測流程 · 遠端成本 · FAQ

決策矩陣:何時編譯提示、何時只重播凍結集

依團隊階段選擇「教師/優化預算」與 CI 負載;編譯昂貴,應與合併節奏解耦。

情境 建議做法 產出物
探索期:簽名與評分器仍在變 本機或小隊列手動編譯;每輪保存提示版本與種子 實驗日誌+候選提示 hash
準備凍結:要對外承諾品質 凍結離線 train/val/holdout;主線只接受「重播評測」PR manifest+單一 JSON 評測報告
交付期:需成本簽核 在與生產同晶片代次的遠端 Mac 重放相同 harness tokens/h、$/M tokens、浸泡日誌
RAG/檢索增強評測 索引與 LLM 分開計價;離線集注明檢索版本 檢索子集+生成子集雙門檻

離線評測集與可審計清單

  • 每個 split 具 manifest.json:SHA256、列數、授權、建立時間與產生腳本 commit。
  • 欄位含輸入、參考答案或評分器所需欄位;敏感欄位以雜湊或長度替代入庫。
  • holdout 僅在發版前解鎖,日常 CI 不得寫入新標註污染該集。
  • 與 RAG 共用語料時,檢索快照版本寫入同一 manifest(見本機 RAG 矩陣之索引段落)。

指標門檻(範例,請以產品線校準)

門檻應相對於上一個已發行基線,並同時約束品質與穩態成本。

指標 建議門檻型態 說明
主任務分數(如準確率/勝率) ≥ 基線 − 0.5 個百分點 統計檢驗樣本足夠時再收緊
硬性約束違規率(格式/長度/禁詞) ≤ 基線 × 1.2 且絕對 ≤ 2% 取較嚴者;安全類請另設零容錯桶
p95 端到端延遲 ≤ 基線 + 10% 或 + 固定毫秒上限 互動與批次分表
每百萬 token 估算成本(含租金分攤) ≤ 財務核准上限 遠端重放後再填

Apple Silicon 本機資源上限(驗收起點)

下列為試跑與 CI 重播用的數量級占位,請依機型與同機負載實測調整;與批次/KV 文一致時較易對齊。

資源 建議觀察閾值 超標時動作
統一記憶體壓力 不重複進入紅色「壓力」區連續超過 5 分鐘 降 batch、縮上下文或拆評測時段
交換檔 穩態 < 512MB(試跑機) 關閉非必要 GUI/背景同步
單進程 CPU CI 重播單次牆鐘 < 20 分鐘(依集大小調整) 縮子樣本 smoke + 每夜全量
熱節流 長評測期不應持續觸發明顯降頻 改遠端專用節點或改善散熱環境

可執行評測流程(建議順序)

(一)匯出 manifest 並由審核腳本拒絕未登錄檔案。(二)固定模型權重、tokenizer、量化與 OMP_NUM_THREADS 等環境變數。(三)執行 harness:逐例寫分數、聚合、違規計數、prefill/decode 分段延遲。(四)比對門檻;失敗則附 diff 與種子。(五)將評測 run_id、模型版本、清單雜湊寫入可觀測欄位(見可觀測性矩陣)。

# 概念占位:離線重播(依你的 harness 替換) export EVAL_SEED=42 export MANIFEST_SHA256=$(shasum -a 256 manifests/holdout.jsonl | awk '{print $1}') python -m my_eval.run --split holdout --report reports/eval_${MANIFEST_SHA256:0:8}.json # 報告應含:aggregate、per_bucket、p95_latency、constraint_violation_rate、tokens_total

遠端節點成本驗收清單(AI 開發向 Mac)

  • 與本機相同的模型檔案校驗和、Python/MLX 或 PyTorch 次版本與環境變數。
  • 浸泡至少 2~4 小時連續跑代表性佇列;期間禁止睡眠、並記錄背景更新是否關閉。
  • 統計穩態 tokens_per_hour、p95 延遲與 OOM/重試次數;與本機曲線對照解釋差異。
  • 將每小時租金、出站流量費與儲存快照費列入「每百萬 token」試算,供財務勾選。
  • 產出單一簽核附件:報告 JSON+成本表+浸泡日誌連結。

FAQ

編譯/優化要不要進 CI?建議否,或僅在夜間流水線;日間 CI 只做凍結提示與離線重播以保證合併速度。

離線分數上升但延遲變差怎麼辦?將延遲與成本納入同一套門檻;產品可接受較慢時需同步更新預算與 SLO。

為何要獨立遠端 Mac?筆電多工與溫度會扭曲尾延遲與 tokens/h;專用遠端節點較接近「可簽核」的持續負載。

若你要把 DSPy 評測與浸泡固化在專用 Apple Silicon 遠端環境,可先免登入瀏覽定價購買頁選型 AI 開發向遠端 Mac;細節見說明中心首頁

小結:凍結離線集與門檻後,DSPy 才有可比較的優化閉環;再以資源上限與遠端成本清單把「本機跑得動」推進到「節點上可簽核」。