RAG 工程师在 text-embedding-3-small(按令牌与维计费)与 bge-m3(ONNX / Core ML EP 上吃批与带宽)之间选型,要同时看清延迟账单与隐私边界。下文给红线表、对照矩阵、可抄的批扫描与缓存键,并强调用远程 M4 租用机泡基准再对外承诺。📊
延迟费用 · 矩阵 · 批扫描 · 缓存 · 回退 · 步骤 · 可引用 · 问答
痛点:① 降维省费未重训阈值召回塌;② 导出换合并算子延迟分布变;③ 本机合盖与索引让 P95 不可复现;④ 同一缓存键未带分词器修订导致冷热版本混写。
延迟与费用:成本红线
云按令牌与维,适合首迁与小流量试错;本地按机时与内存尖峰,适合万级以上重复嵌入与强合规。下表常数为示意,请用你方供应商单价与机时租金替换后再过会签。
决策矩阵
批大小扫描
目标是在不 OOM前提下把吞吐推到丙线以内;若尾延迟抖动大,宁可牺牲峰值吞吐换稳态。远程机上跑时要关节能小憩并暂时排除大文件索引任务。
- 锁分块器与最大长,抽代表文本含短标题与长段尾,量建议不少于三千条。
- 批从一倍增至 OOM 或越丙线,前一档为生产上限并留一成余量。
- 每档预热五十条再采两百轮记 P95 与 RSS 峰。
- 同权重比 CoreML EP 与 CPU EP,记录首包与全批尾包。
- 最优批写入编排,CI 用固定种子子集做 nightly 回归防算子漂移。
for B in [1,2,4,8,16,32]:
warmup(B); log(B, p95_ms, rss_peak)缓存键
键含模型、导出哈希短码、维、L2 标志、分词器修订、块校验;读写同命名空间,避免「写进 A 空间、读走 B 空间」的幽灵 miss。热路径命中则跳过远端计费;把 miss 原因拆成版本不匹配与冷启动两类,仪表盘上对齐甲线才容易和财务对账。
失败回退
- Core ML 失败降 CPU 会话并记 unsupported op。
- 限速抖动退避后改本地只读路径。
- 触戊线则减半批或串行写索引。
落地步骤
一 定稿分块维与库 schema。二 跑批扫描锁 EP 与批。三 上缓存与 miss 指标。四 默认本地熔断走云 small。五 在远程 M4 专用机复跑全量关睡眠。六 归档矩阵红线与直方图。
可引用
- Matryoshka:索引查询同维并重跑验收集。
- INT8:先比 FP32 命中率再切。
- 报告同框机时单价与令牌单价利签核。
常见问题
必上 Core ML? 否,算子缺则 CPU EP 更快闭环。
云地混向量? 分集合或全量重嵌,禁跨空间硬融。
为何强调远程租用节点? 专用 M4 温控与后台进程可控,延迟直方图才可与对客 SLA对齐;开发笔记本基线只能做趋势不能签字。
转化