2026 Mac 多模态嵌入：CLIP SigLIP ONNX Core ML 批大小与远程验收

多模态网关里嵌入常被格式选错与批队列失控拖垮统一内存与机时。下表对照 CLIP 与 SigLIP 在 ONNX 与 Core ML 上的差异，并拆四块：模型格式转换、线程数、内存峰值、批推理队列，附远程签核清单。

三类痛点先对齐口径

1 PyTorch→ONNX→Core ML 若动态轴与容差未锁，检索分数尺会漂移。2 解码与算子并行时 OpenMP 叠乘超物理核，毛刺易被误判为模型劣化。3 只看吞吐不看队列尾延迟，按小时计费的远程机会吃沉默机时。

固定流水线：torch 对齐 → ONNX（动态 batch 上限）→ ORT 对比 → Core ML 与黄金样本回归。分辨率与均值方差写变更单；不支持的归一化在 ONNX 侧融合常量再转。.onnx 与 .mlmodelc 分目录存哈希，回滚只切网关指针。

intra_op 取物理核一半到四分之三，解码与后处理各留一核；多进程勿各自拉满 OMP_NUM_THREADS。网关做进程级线程上限并快照环境变量，远程复跑才可对比。

粗算：批大小 × 激活常驻 × 精度；SigLIP 常比同维 CLIP 更吃中间张量。降 fp16 或量化前，确认距离度量与建索引用同一精度，避免索引与在线各算各的。RSS 用≤一秒间隔抓尖峰，交换一出现先减批再减并发。

在线用有界队列，超水位 429 或单张降级并打丢弃原因；离线用分片提交防堵 ANE。队列深度绑 p95 排队；远程浸泡排除合盖、睡眠与同机 IDE，账单才可比。

总结与购买引导

先小批锁精度，再调线程与队列，机时乘进预算。要可签字的常驻节点：看首页，套餐框配置，购买页下单，细则帮助中心；勿用笔记本当准生产嵌入机，连续浸泡结论才可进变更单。

一句话：格式转换锁口径、线程留解码余量、内存看尖峰、队列绑 p95，远程机时才能对上账并与预算表一并归档。