Matryoshka 截断维是否影响召回？

会改变几何；应用同一截断做索引与查询，并在验收集上重算 nDCG 与 MRR，不可只省维不调阈值。

Core ML EP 与 ONNX CPU 哪个更稳？

算子覆盖决定成败；先跑官方或社区已验 mlir 链，若遇 UnsupportedOp 再回 CPU 或换合并算子导出。

为何要用远程租用节点做基准？

笔记本热节流与后台索引会拉偏延迟；专用租赁机更接近对客机时与温控，便于和账单对齐。

2026 Mac 嵌入模型决策矩阵：text-embedding-3-small、bge-m3、ONNX、CoreML

RAG 工程师在 text-embedding-3-small（按令牌与维计费）与 bge-m3（ONNX / Core ML EP 上吃批与带宽）之间选型，要同时看清延迟账单与隐私边界。下文给红线表、对照矩阵、可抄的批扫描与缓存键，并强调用远程 M4 租用机泡基准再对外承诺。📊

内链：RAG 分块配额、索引矩阵、多模态嵌入。

延迟费用 · 矩阵 · 批扫描 · 缓存 · 回退 · 步骤 · 可引用 · 问答

痛点：① 降维省费未重训阈值召回塌；② 导出换合并算子延迟分布变；③ 本机合盖与索引让 P95 不可复现；④ 同一缓存键未带分词器修订导致冷热版本混写。

延迟与费用：成本红线

云按令牌与维，适合首迁与小流量试错；本地按机时与内存尖峰，适合万级以上重复嵌入与强合规。下表常数为示意，请用你方供应商单价与机时租金替换后再过会签。

线	触发	动作
甲	日嵌入令牌费大于同规格 M4 机时一点五倍	热路径本地化加磁盘缓存
丙	批一端到端 P95 超两百毫秒	升批换 EP 或 Matryoshka 截断
戊	建索引内存峰超统一内存八成	限并发写或分片嵌入

决策矩阵

项	云端 small	本地 bge-m3
维	一五三六默认可 Matryoshka 截	一零二四多域改维要重导
批	RTT 限速用异步队列	大批吃 NE 或 GPU EP 要扫阶梯
量化	黑盒控维与截断	INT8 先对齐 FP32 命中率再开
验收	令牌曲线与错率	机时 P95 与 OOM 边界

批大小扫描

目标是在不 OOM前提下把吞吐推到丙线以内；若尾延迟抖动大，宁可牺牲峰值吞吐换稳态。远程机上跑时要关节能小憩并暂时排除大文件索引任务。

锁分块器与最大长，抽代表文本含短标题与长段尾，量建议不少于三千条。
批从一倍增至 OOM 或越丙线，前一档为生产上限并留一成余量。
每档预热五十条再采两百轮记 P95 与 RSS 峰。
同权重比 CoreML EP 与 CPU EP，记录首包与全批尾包。
最优批写入编排，CI 用固定种子子集做 nightly 回归防算子漂移。

for B in [1,2,4,8,16,32]:
  warmup(B); log(B, p95_ms, rss_peak)

缓存键

键含模型、导出哈希短码、维、L2 标志、分词器修订、块校验；读写同命名空间，避免「写进 A 空间、读走 B 空间」的幽灵 miss。热路径命中则跳过远端计费；把 miss 原因拆成版本不匹配与冷启动两类，仪表盘上对齐甲线才容易和财务对账。

失败回退

Core ML 失败降 CPU 会话并记 unsupported op。
限速抖动退避后改本地只读路径。
触戊线则减半批或串行写索引。

落地步骤

一定稿分块维与库 schema。二跑批扫描锁 EP 与批。三上缓存与 miss 指标。四默认本地熔断走云 small。五在远程 M4 专用机复跑全量关睡眠。六归档矩阵红线与直方图。

可引用

Matryoshka：索引查询同维并重跑验收集。
INT8：先比 FP32 命中率再切。
报告同框机时单价与令牌单价利签核。

常见问题

必上 Core ML？ 否，算子缺则 CPU EP 更快闭环。

云地混向量？ 分集合或全量重嵌，禁跨空间硬融。

为何强调远程租用节点？ 专用 M4 温控与后台进程可控，延迟直方图才可与对客 SLA对齐；开发笔记本基线只能做趋势不能签字。

转化

大模型与嵌入同机看 LLM 套餐定价、帮助；向量链跟 RAG 配额、索引矩阵。

2026年 Mac 本地嵌入模型决策矩阵：OpenAI text-embedding-3-small 与本地 bge-m3 ONNX CoreML EP 的批大小、维度成本与远程节点验收清单