目录:痛点 · 总览矩阵 · 模型格式转换 · 线程数 · 内存峰值 · 批推理队列 · 远程验收
分块与向量配额见《本地 RAG 分块与向量配额矩阵》;索引进阶见《USearch / FAISS / sqlite-vec 检索矩阵》;同机语音批窗口见《MLX Audio 批处理管线矩阵》。首页、套餐、购买、帮助公开免登录。
三类痛点先对齐口径
1 PyTorch→ONNX→Core ML 若动态轴与容差未锁,检索分数尺会漂移。2 解码与算子并行时 OpenMP 叠乘超物理核,毛刺易被误判为模型劣化。3 只看吞吐不看队列尾延迟,按小时计费的远程机会吃沉默机时。
总览矩阵(M4、图文嵌入服务视角)
| 维度 | CLIP 家族 | SigLIP 家族 |
|---|---|---|
| 典型向量维 | 常见 512 / 768,以 checkpoint 为准。 | 常见 256–1152,以导出日志钉死。 |
| ONNX 起步批 | CPU EP 4–16 试扫;Core ML EP 先单批再倍增。 | 更重,2–8 起扫,看每步毫秒。 |
| Core ML | 常换得更低单样本延迟,绑定编译版本。 | 算子覆盖因版本而异,回退 ONNX CPU 写灰度。 |
| 验收关键词 | 对齐与 hit@k 基线。 | 校准批与温度对分数尺度的影响。 |
模型格式转换
固定流水线:torch 对齐 → ONNX(动态 batch 上限)→ ORT 对比 → Core ML 与黄金样本回归。分辨率与均值方差写变更单;不支持的归一化在 ONNX 侧融合常量再转。.onnx 与 .mlmodelc 分目录存哈希,回滚只切网关指针。
线程数
intra_op 取物理核一半到四分之三,解码与后处理各留一核;多进程勿各自拉满 OMP_NUM_THREADS。网关做进程级线程上限并快照环境变量,远程复跑才可对比。
内存峰值
粗算:批大小 × 激活常驻 × 精度;SigLIP 常比同维 CLIP 更吃中间张量。降 fp16 或量化前,确认距离度量与建索引用同一精度,避免索引与在线各算各的。RSS 用≤一秒间隔抓尖峰,交换一出现先减批再减并发。
批推理队列
在线用有界队列,超水位 429 或单张降级并打丢弃原因;离线用分片提交防堵 ANE。队列深度绑 p95 排队;远程浸泡排除合盖、睡眠与同机 IDE,账单才可比。
远程节点成本验收清单
- 镜像:芯片、系统小版本、ORT/Core ML 与构建机一致;模型哈希进一页纸。
- 机时:固定批阶梯跑满约定小时,记租金、空闲分、溢出次数。
- SLA:p95 端到端与纯推理拆开写。
- 回滚:ONNX/Core ML 双路径,失败指回上一哈希。
总结与购买引导
先小批锁精度,再调线程与队列,机时乘进预算。要可签字的常驻节点:看首页,套餐框配置,购买页下单,细则帮助中心;勿用笔记本当准生产嵌入机,连续浸泡结论才可进变更单。
一句话:格式转换锁口径、线程留解码余量、内存看尖峰、队列绑 p95,远程机时才能对上账并与预算表一并归档。