做檢索增強生成的 Mac 開發者在雲端小維向量與本機通用嵌入多語向量間取捨:前者帳面清楚、後者尾延遲常較穩,但須把批大小、維度、量化表與財務口徑對齊。下文附對照表、閾值與浸泡步驟。📐
併讀配額矩陣、向量索引矩陣、多模態嵌入筆記與工作流程成本稿。
導覽:延遲與費用 · 痛點 · 對照表 · 成本閾值 · 批掃描 · 快取鍵 · 失敗回退 · 問答
延遲與費用口徑
典型代號含小型文字嵌入第三代與通用嵌入多語第三代經中間表示與執行提供者落蘋果晶片;雲端併計往返佇列階梯計價輸出維度,本機併計租時尖峰記憶體暖機攤每百萬片段;延遲須同報尾百分位數與平均數。🔁
痛點拆解
- 維度契約漂移:索引端若假設舊維度,新模型一上線近鄰即失真。
- 批大小與記憶體:執行提供者融合改寫緩衝生命週期,表上安全批須隨版次重算。
- 稽核與回退:供應商限流或子圖不支援時,若無熔斷鍵與雲端後備,管線會靜默餓死。
路徑對照表(雲端小維對本機多語)
表內為常見假設,請以自有片段集重算。
| 聚焦 | 雲端小維向量 | 本機通用嵌入多語向量 | 維度量化 |
|---|---|---|---|
| 互動檢索 | 網路尾延遲主導;小批次帳務簡。 | 暖機後尾延遲較穩;預留編譯快取。 | 雲端可壓維;本機常高維。 |
| 離線入庫 | 配額與重試限制吞吐。 | 記憶體與執行緒上限限制吞吐。 | 八位整數須與近鄰後端一致。 |
| 執行堆疊 | 相容客戶端直連端點。 | 中間表示經執行提供者落硬體。 | 回退中央處理器須降批記旗標。 |
成本閾值與簽核紅線
| 指標 | 建議黃線 | 建議紅線 | 簽核動作 |
|---|---|---|---|
| 每百萬片段總成本 | 較上季中位高一成 | 高二成 | 覆核維度量化。 |
| 尾延遲九十五百分位 | 大於等級目標一點二倍 | 大於兩倍 | 降批或切雲端後備。 |
| 常駐集尖峰 | 達可用記憶體八成 | 持續換頁 | 停加批回滾版次。 |
批大小掃描方法(可執行)
- 釘選長度上界與分詞器版次入設定檔。
- 批自一至三十二掃至尾延遲觸紅線;每格數百呼叫。
- 固定執行緒與執行提供者旗標勿偷換。
- 記吞吐尾延遲常駐集輸出工單表。
- 於遠端租用迷你主機重放階梯對齊本機後簽核。
- 勝出批寫運行手冊並綁校驗和。
# 快取鍵欄位示例(偽程式,實作請內嵌於索引寫入前)
key = f"{model_sha}|dim={out_dim}|q={quant}|norm={l2_flag}|lang={locale}"快取鍵與索引一致性
鍵含版次、維度、量化、正規化、語言;索引檔名與中繼資料同欄,防離線線上契約分叉。💡
失敗回退
- 限流:降批退避後改雲端小維並標降級窗。
- 子圖不支援:記名暫改中央處理器或重匯中間表示。
- 品質漂移:雙錨未過凍結發布回滾索引。
常見問答
維度愈高愈貴?雲端看階梯權杖,本機看記憶體租時,換算每百萬片段再比。量化?先浮點定餘弦上界再收斂八位整數。遠端節點?隔離睡眠背景索引利財務簽核。
將勝出批閾值鍵寫入手冊;對齊大語言模型套餐請用站內購買說明頁並續用上文內鏈閉環檢索增強生成。