下游配額請併讀Mac 向量索引:USearch、FAISS、sqlite-vec 決策矩陣;入庫經濟學對齊本機 RAG 分塊、嵌入批次與向量配額矩陣;匯出延遲直方圖時欄位命名可參OpenTelemetry GenAI 可觀測性矩陣。
本文導覽:決策矩陣 · 模型格式轉換 · 執行緒數 · 記憶體峰值 · 批推理佇列 · 遠端驗收
決策矩陣(CLIP 對 SigLIP 對執行路徑)
依工作形狀選列,將儲格視為假設:須以凍結前處理與相同張量跨執行驗證。
| 聚焦 | CLIP 式 ViT+文字塔 | SigLIP 式訓練訊號 | 向量維度契約 | M4 級矽晶起批建議 |
|---|---|---|---|---|
| 互動檢索/重排 | 工具鏈成熟、ONNX 動物園廣、餘弦流程可預期。 | 標註嘈雜、細緻文對圖比傳統榜單更重要時。 | 凍結輸出維(如 512/768)並文件化 L2 後再點積。 | 尾延遲敏感先批=1,執行緒掃完再微升批。 |
| 離線目錄入庫 | 營運已標準化 CLIP 檢查點與舊索引時首選。 | 標籤雜訊高、試點評估中 sigmoid 訓練降假鄰居時。 | int8/float 量化表須與 ANN 後端一致。 | 掃 8/16/32 patch/批,盯 RSS 尖峰而非僅平均。 |
| ONNX Runtime Core ML EP | 圖乾淨轉換、欲神經引擎覆蓋又不想全改 Swift 時預設。 | 同路徑;留意 attention/LayerNorm 子圖不支援與回退。 | 池化影像頭與文字頭是否串接或雙寫須審計。 | EP 升級後重算安全批:融合改變緩衝生命週期。 |
模型格式轉換
將 PyTorch→ONNX 當第一份契約,ONNX→Core ML 或直出 Core ML 為第二份。記錄匯出器版本、opset、可變長文字的 dynamic axes 與轉接層。備小型 golden 張量包:ONNX CPU logit 與 Core ML EP logit 餘弦距須低於約定 ε 再上線。運算子無法下降時記子圖名,在改寫、部分 CPU 與換檢查點間選最便宜路徑。
執行緒數
Intra-op 自接近 Apple Silicon 效能核心數起試;p95 惡化而吞吐幾乎不動則下調。Inter-op 在 HTTP worker 已多工時保守,過度訂閱表現在尾延遲而非平均圖表。遠端重播須在日誌寫死執行緒上限與批大小對。
記憶體峰值
量測解碼與 resize 階段的常駐集尖峰,非僅暖機後穩態。大批影像張量疊 token 緩衝會在統一記憶體上尖刺。預留 macOS 檔案快取與監控代理 headroom;浸泡中若持續換頁視為失敗。尖峰須與 RAG 配額文對齊,避免生成與檢索共用無聲預算線。
批推理佇列
拆線上與離線佇列,避免入庫突波餓死使用者重排。公布最大深度、等待 SLO 與卸載策略(例如先捨低優先分片)。HTTP 層反壓取代無界記憶體緩衝;毒訊息寫入 DLQ 並帶模型版次以便轉換修復後重播不汙染索引。
遠端節點成本驗收清單
財務應看到與維運相同的產物。於租用主機擴時數前先勾下列項。
- 將 ONNX/Core ML 成品與校驗和存物件儲存並綁租戶 ID。
- 以生產批曲線跑六小時浸泡,記錄每小時影像數與錯誤計數。
- 排程器牆鐘對帳單分鐘(含冷啟動窗)。
- 每筆任務附 OTel:批、執行緒、裝置、佇列等待。
- 僅當無持續換頁且 p95 落在本機所存表內才簽核。
- 可引用門檻:遠端驗證時 token 上限與短邊與本機基準誤差 ≤1%。
- 可引用門檻:每批階段至少一筆 RSS 尖峰進夜間圖表。
- 可引用門檻:浸泡期 Core ML 無法解釋的回退警告數為零,否則重開轉換。
FAQ
維度愈低愈省?若量化或 ANN 參數拉低召回,維度只是與索引團隊的契約,未必省錢。
SigLIP 要先跑 CPU 對齊嗎?可短測,但主力應放在實際出貨的 EP,驗收才貼近真實。