RAG 工程师在 text-embedding-3-small(按令牌与维计费)与 bge-m3ONNX / Core ML EP 上吃批与带宽)之间选型,要同时看清延迟账单与隐私边界。下文给红线表对照矩阵、可抄的批扫描缓存键,并强调用远程 M4 租用机泡基准再对外承诺。📊

内链:RAG 分块配额索引矩阵多模态嵌入

延迟费用 · 矩阵 · 批扫描 · 缓存 · 回退 · 步骤 · 可引用 · 问答

痛点:① 降维省费未重训阈值召回塌;② 导出换合并算子延迟分布变;③ 本机合盖与索引让 P95 不可复现;④ 同一缓存键未带分词器修订导致冷热版本混写。

延迟与费用:成本红线

云按令牌与维,适合首迁与小流量试错;本地按机时与内存尖峰,适合万级以上重复嵌入与强合规。下表常数为示意,请用你方供应商单价机时租金替换后再过会签。

线 触发 动作
日嵌入令牌费大于同规格 M4 机时一点五倍热路径本地化加磁盘缓存
批一端到端 P95 超两百毫秒升批换 EP 或 Matryoshka 截断
建索引内存峰超统一内存八成限并发写或分片嵌入

决策矩阵

云端 small 本地 bge-m3
一五三六默认可 Matryoshka 截一零二四多域改维要重导
RTT 限速用异步队列大批吃 NE 或 GPU EP 要扫阶梯
量化黑盒控维与截断INT8 先对齐 FP32 命中率再开
验收令牌曲线与错率机时 P95 与 OOM 边界

批大小扫描

目标是在不 OOM前提下把吞吐推到丙线以内;若尾延迟抖动大,宁可牺牲峰值吞吐换稳态。远程机上跑时要关节能小憩并暂时排除大文件索引任务。

  1. 分块器与最大长,抽代表文本含短标题与长段尾,量建议不少于三千条。
  2. 批从一倍增至 OOM 或越丙线,前一档为生产上限并留一成余量。
  3. 每档预热五十条再采两百轮记 P95 与 RSS 峰。
  4. 同权重比 CoreML EPCPU EP,记录首包与全批尾包。
  5. 最优批写入编排,CI 用固定种子子集做 nightly 回归防算子漂移。
for B in [1,2,4,8,16,32]: warmup(B); log(B, p95_ms, rss_peak)

缓存键

键含模型导出哈希短码L2 标志分词器修订块校验;读写同命名空间,避免「写进 A 空间、读走 B 空间」的幽灵 miss。热路径命中则跳过远端计费;把 miss 原因拆成版本不匹配与冷启动两类,仪表盘上对齐甲线才容易和财务对账。

失败回退

  • Core ML 失败降 CPU 会话并记 unsupported op。
  • 限速抖动退避后改本地只读路径。
  • 戊线则减半批或串行写索引。

落地步骤

定稿分块维与库 schema。 跑批扫描锁 EP 与批。 上缓存与 miss 指标。 默认本地熔断走云 small。远程 M4 专用机复跑全量关睡眠。 归档矩阵红线与直方图。

可引用

  • Matryoshka:索引查询同维并重跑验收集。
  • INT8:先比 FP32 命中率再切。
  • 报告同框机时单价令牌单价利签核。

常见问题

必上 Core ML? 否,算子缺则 CPU EP 更快闭环。

云地混向量? 分集合或全量重嵌,禁跨空间硬融。

为何强调远程租用节点? 专用 M4 温控与后台进程可控,延迟直方图才可与对客 SLA对齐;开发笔记本基线只能做趋势不能签字。

转化

大模型与嵌入同机看 LLM 套餐定价帮助;向量链跟 RAG 配额索引矩阵