単一ベースに複数アダプタを載せ替えるときは、Modelfileで固定し、断片を捨ててからメモリと遅延を数値で承認します。
本ページの構成: 制約 · 表 · リモート · 手順 · 数字 · 質問
ベースは一つにまとめアダプタだけ差し替える構成は扱いやすい一方、文脈長・同時実行・初応答・秒間トークンは常にトレードオフです。ローカル推論マトリクス、エージェントの状態、多モデル意思決定と併読してください。
制約が効く三つの場面
第一 アダプタだけ替えても内部状態が残ると混ざるため、セッション分離か文脈の破棄が要ります。
第二 アダプタが増えると読み込みが増え、ユニファイドメモリでは文脈長・バッチ・同時接続が天井を共有します。
第三 リモート Macへ同じタグを載せる際、遅延・転送・時間あたり推論分が合意を超えればローカルへ戻す線が要ります。
単一ベース・複数アダプタと予算の軸
| 軸 | 単一ベース・複数アダプタの狙い | 注意点・代替 |
|---|---|---|
| メモリ枠 | ベース常駐・アダプタは軽く切替 | 文脈長・バッチ増で内部状態が膨らむ |
| スループット優先 | バッチ厚く秒間トークンを取る | 初トークンが遅く体感が重い |
| レイテンシ優先 | バッチ薄く文脈短く開始を早める | 処理量は落ち行列が溜まる |
リモートノードのコスト・合意品質チェックリスト
- ローカルとリモートのタグ行一致。
- 時間あたり推論分・遅延分位・失敗率を表にし承認。
- 重み同期・ログ転送のデータ量と、超過時のローカル切戻しを明記。
Modelfile・コマンド・検収の流れ
其一 Modelfile にベース・アダプタ・テンプレをスキル単位で分離。
其二 ollama create 後、一覧行を運用カードへ。
其三 文脈長・バッチ・同時本数をカードに数値化。
其四 替える前に新スレッドか文脈破棄で断片整理。
其五 ollama run で同一プロンプトの初応答と秒間トークンを記録。
其六 リモート専用 Mac で同手順を踏みチェックリスト署名。
ollama create my-lora-stack-a -f ./Modelfile.stack-a
ollama run my-lora-stack-a "スモーク用の短い指示です"
ollama ps
ollama show my-lora-stack-a --modelfile運用で残す数字
- カード一行にベース・アダプタ版・文脈長・バッチ・同時スロット。
- スワップ直後は初トークンと秒間トークンを分けトレードオフを数値化。
- 上限超過時の切戻しは、導入部で示したエージェント状態の設計と一体で書く。
よくある質問
混ざる: 新スレッドか指示の分割。
メモリ: 文脈・同時・バッチを一段ずつ下げて切分け。
リモート: 承認後に載せ替え、越えたら即切戻し。