目录:决策矩阵 · Modelfile 与 CLI · 上下文碎片整理 · 远程验收 · FAQ · 转化
面向 IDE、Agent 与运维:本文含切换形态对照表、Modelfile 与 ollama 命令片段、上下文整理要点及远程浸泡与机时签核。延伸阅读:M4 推理与 Ollama 矩阵、多模型路由成本、LangGraph Agent 沙箱。购买与定价免登录。
翻车点:(1)多别名共 inflight 致首包飙升;(2)会话结构漂移致 KV 碎片;(3)仅本机测切换低估远程机时与带宽。
决策矩阵:单基座、内存与取舍
先冻结基座与 LoRA 目录,再为每条业务线设别名级上下文与并发池;人机与批勿共用排队深度。统一内存下显存预算建议按最坏并发乘最长上下文留余量,避免与系统图形与浏览器争用带宽。
| 切换形态 | 单基座多适配器 | VRAM 与统一内存 | 吞吐 vs 延迟 | 适用 |
|---|---|---|---|---|
| 多别名预构建 | 每套 LoRA 独立 ollama create 别名。 |
基座共享;峰值按并发乘最长上下文估算。 | 尾延迟易测;别名多则元数据成本升。 | 交互式 IDE、客服助手。 |
| 单进程轮换 | 同守护顺序换适配器,少重复加载基座。 | 峰值低;切换瞬间或有抖动。 | 换场吞吐好;切换后首 token 单测。 | 评测集、批处理流水线。 |
| 侧车远程推理 | 本机编排,推理在专用节点。 | 本地编排内存小;推理按机时与出口单列。 | 有 RTT;可横向扩并发。 | 团队共享网关、需稳定 SLA 的 Agent。 |
可引用口径:(1)num_ctx 与并发池先评审再放量;(2)切换后首 token p95 单列;(3)远程四小时浸泡归档机时与带宽 CSV。
Ollama Modelfile 与可执行 CLI
Modelfile 钉死基座、适配器与停止序列;下例按路径改写可执行。
# Modelfile 示例:my-lora-alias(路径请按本机修改)
FROM /path/to/base.gguf
ADAPTER /path/to/adapter.gguf
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }} {{ .Prompt }}"""
SYSTEM """你是业务 A 的助手,输出简洁中文。"""
# 创建别名并探活
ollama create my-lora-alias -f ./Modelfile
ollama run my-lora-alias "ping"
ollama ps
# 并行与实验环境(shell 导出示例)
export OLLAMA_NUM_PARALLEL=2
export OLLAMA_MAX_LOADED_MODELS=4验收记三条:create 耗时、首次首 token、相邻别名切换差值。
上下文碎片整理
碎片来自模板漂移:固定 system 前缀,对长对话做摘要或按 token 裁剪,工具 JSON 与正文分区;必要时在新会话压缩历史再续写,避免无效轮次堆高。分层超时见 checkpoint 与沙箱。
远程节点成本验收清单
- 机时:合同粒度与空闲分钟是否单列。
- 网络:TLS 与区域 RTT 是否写入 SLA。
- 稳定性:温控与守护固定;切换与 多模型路由 熔断联动。
- 财务:别名 Token 或时长可对发票,防双花漏计。
FAQ
别名越多越好吗?否,运维面随别名涨;按域合并。
批与交互能共用并行吗?否,分层或分进程,勿共 OLLAMA_NUM_PARALLEL 队列。
远程验收多久?至少覆盖业务高峰段,否则排队模型不可信。