在 Apple Silicon 上,单基座多 LoRA 的「热切换」本质是统一内存预算与调度问题:换别名不等于换磁盘路径,而是换激活张量与 KV 形状的包络。请把 Ollama 的 Modelfile 当作上线契约,而不是随手拼字符串。💻🚀

目录:决策矩阵 · Modelfile 与 CLI · 上下文碎片整理 · 远程验收 · FAQ · 转化

面向 IDE、Agent 与运维:本文含切换形态对照表、Modelfile 与 ollama 命令片段、上下文整理要点及远程浸泡与机时签核。延伸阅读:M4 推理与 Ollama 矩阵多模型路由成本LangGraph Agent 沙箱购买定价免登录。

翻车点:(1)多别名共 inflight 致首包飙升;(2)会话结构漂移致 KV 碎片;(3)仅本机测切换低估远程机时与带宽。

决策矩阵:单基座、内存与取舍

先冻结基座与 LoRA 目录,再为每条业务线设别名级上下文与并发池;人机与批勿共用排队深度。统一内存下显存预算建议按最坏并发乘最长上下文留余量,避免与系统图形与浏览器争用带宽。

切换形态 单基座多适配器 VRAM 与统一内存 吞吐 vs 延迟 适用
多别名预构建 每套 LoRA 独立 ollama create 别名。 基座共享;峰值按并发乘最长上下文估算。 尾延迟易测;别名多则元数据成本升。 交互式 IDE、客服助手。
单进程轮换 同守护顺序换适配器,少重复加载基座。 峰值低;切换瞬间或有抖动。 换场吞吐好;切换后首 token 单测。 评测集、批处理流水线。
侧车远程推理 本机编排,推理在专用节点。 本地编排内存小;推理按机时与出口单列。 有 RTT;可横向扩并发。 团队共享网关、需稳定 SLA 的 Agent。

可引用口径:(1)num_ctx 与并发池先评审再放量;(2)切换后首 token p95 单列;(3)远程四小时浸泡归档机时与带宽 CSV。

Ollama Modelfile 与可执行 CLI

Modelfile 钉死基座、适配器与停止序列;下例按路径改写可执行。

# Modelfile 示例:my-lora-alias(路径请按本机修改) FROM /path/to/base.gguf ADAPTER /path/to/adapter.gguf PARAMETER num_ctx 8192 TEMPLATE """{{ .System }} {{ .Prompt }}""" SYSTEM """你是业务 A 的助手,输出简洁中文。""" # 创建别名并探活 ollama create my-lora-alias -f ./Modelfile ollama run my-lora-alias "ping" ollama ps # 并行与实验环境(shell 导出示例) export OLLAMA_NUM_PARALLEL=2 export OLLAMA_MAX_LOADED_MODELS=4

验收记三条:create 耗时首次首 token相邻别名切换差值

上下文碎片整理

碎片来自模板漂移:固定 system 前缀,对长对话做摘要或按 token 裁剪,工具 JSON 与正文分区;必要时在新会话压缩历史再续写,避免无效轮次堆高。分层超时见 checkpoint 与沙箱

远程节点成本验收清单

  • 机时:合同粒度与空闲分钟是否单列。
  • 网络:TLS 与区域 RTT 是否写入 SLA。
  • 稳定性:温控与守护固定;切换与 多模型路由 熔断联动。
  • 财务:别名 Token 或时长可对发票,防双花漏计。

FAQ

别名越多越好吗?否,运维面随别名涨;按域合并。

批与交互能共用并行吗?否,分层或分进程,勿共 OLLAMA_NUM_PARALLEL 队列。

远程验收多久?至少覆盖业务高峰段,否则排队模型不可信。

转化与入口

长期在线浸泡节点可看 首页购买定价帮助 均免登录;Agent 文见 博客索引

公开页:定价购买帮助博客索引