単一ベース複数アダプタを載せ替えるときは、Modelfileで固定し、断片を捨ててからメモリと遅延を数値で承認します。

本ページの構成: 制約 · · リモート · 手順 · 数字 · 質問

ベースは一つにまとめアダプタだけ差し替える構成は扱いやすい一方、文脈長・同時実行・初応答・秒間トークンは常にトレードオフです。ローカル推論マトリクスエージェントの状態多モデル意思決定と併読してください。

制約が効く三つの場面

第一 アダプタだけ替えても内部状態が残ると混ざるため、セッション分離か文脈の破棄が要ります。

第二 アダプタが増えると読み込みが増え、ユニファイドメモリでは文脈長・バッチ・同時接続が天井を共有します。

第三 リモート Macへ同じタグを載せる際、遅延・転送・時間あたり推論分が合意を超えればローカルへ戻す線が要ります。

単一ベース・複数アダプタと予算の軸

単一ベース・複数アダプタの狙い 注意点・代替
メモリ枠 ベース常駐・アダプタは軽く切替 文脈長・バッチ増で内部状態が膨らむ
スループット優先 バッチ厚く秒間トークンを取る 初トークンが遅く体感が重い
レイテンシ優先 バッチ薄く文脈短く開始を早める 処理量は落ち行列が溜まる

リモートノードのコスト・合意品質チェックリスト

  • ローカルとリモートのタグ行一致。
  • 時間あたり推論分・遅延分位・失敗率を表にし承認
  • 重み同期・ログ転送のデータ量と、超過時のローカル切戻しを明記。

Modelfile・コマンド・検収の流れ

其一 Modelfile にベース・アダプタ・テンプレをスキル単位で分離。

其二 ollama create 後、一覧行を運用カードへ。

其三 文脈長・バッチ・同時本数をカードに数値化。

其四 替える前に新スレッドか文脈破棄で断片整理

其五 ollama run で同一プロンプトの初応答と秒間トークンを記録。

其六 リモート専用 Mac で同手順を踏みチェックリスト署名。

ollama create my-lora-stack-a -f ./Modelfile.stack-a ollama run my-lora-stack-a "スモーク用の短い指示です" ollama ps ollama show my-lora-stack-a --modelfile

運用で残す数字

  • カード一行にベース・アダプタ版・文脈長・バッチ・同時スロット。
  • スワップ直後は初トークンと秒間トークンを分けトレードオフを数値化。
  • 上限超過時の切戻しは、導入部で示したエージェント状態の設計と一体で書く。

よくある質問

混ざる: 新スレッドか指示の分割。

メモリ: 文脈・同時・バッチを一段ずつ下げて切分け。

リモート: 承認後に載せ替え、越えたら即切戻し。