바로가기: 왜 조각이 쌓이나 · 핫스왑 대안 표 · 원격 비용 검수 · Ollama 절차 · 인용 체크 · FAQ
Ollama로 다중 LoRA를 쓸 때 베이스 한 벌·어댑터 스왑을 표로 고정합니다. Apple Silicon 통합 메모리 안에서 KV 예산과 지연을 동시에 맞추는 것이 핵심입니다. 함께 읽기: llama.cpp·Ollama, LangGraph, 다중 모델 비용.
문맥 조각이 쌓이면
첫째 어댑터만 바꿔도 KV가 남으면 톤이 섞여 세션 리셋이 필요합니다.
둘째 LoRA가 늘면 로드 비용이 늘고 통합 메모리는 num_ctx·동시 요청 예산에 묶입니다.
셋째 원격에 동일 태그를 올릴 때 지연·송신 비용이 SLA를 깨면 비용 수락이 거절되며 롤백합니다.
단일 베이스·다중 LoRA vs 예산 축
| 축 | 단일 베이스·다중 LoRA 핫스왑 | 대안·주의 |
|---|---|---|
| 통합 메모리·VRAM 예산 | 베이스 한 번만 상주·어댑터는 가벼운 스왑 | num_ctx↑ 또는 배치↑ 시 KV 폭증·OOM 위험 |
| 처리량 우선 | 배치·큐를 키워 초당 토큰 확보 | 첫 토큰 지연·프리필 대기가 길어질 수 있음 |
| 지연 우선 | 배치 축소·문맥 단축으로 응답 시작 빠르게 | 처리량은 낮아지고 큐 적체 가능 |
원격 노드 비용·SLA 수락 체크리스트
- 로컬·원격 ollama create 다이제스트 일치.
- 시간당 추론 분·지연 백분위·실패율을 적어 예산 서명.
- 가중치 동기·로그 송신 데이터 비용 분리.
- 임계 초과 시 로컬 폴백·담당자를 런북에 명시.
Ollama Modelfile·CLI·검수 단계
1) Modelfile에 FROM·ADAPTER·템플릿을 스킬별로 분리합니다.
2) 태그 빌드 후 ollama list로 다이제스트를 기록합니다.
3) num_ctx·num_batch를 카드에 적어 통합 메모리 한도를 추정합니다.
4) 어댑터 교체 시 새 세션 또는 문맥 삭제로 조각 정리.
5) ollama run 스모크로 첫 토큰 지연·초당 토큰을 표에 적습니다.
6) 원격 Mac에서 동일 절차로 체크리스트를 통과시킵니다.
ollama create my-stack-a -f ./Modelfile.stack-a
ollama run my-stack-a "스모크 문장"
ollama ps
ollama create my-stack-lowctx -f ./Modelfile.lowctx운영 인용 체크
- 카드 한 줄에 베이스·LoRA 체크섬·
num_ctx·배치·동시 슬롯. - 핫스왑 직후 첫 지연과 스트림 처리량을 분리해 처리량 대 지연을 수치화.
- 원격이 비용·지연 상한 초과 시 로컬 큐로 되돌리는 조건을 런북에 적습니다.
도구 루프 문맥은 에이전트 매트릭스와 맞추고, 별칭 라우팅은 다중 모델 비용 표를 그대로 재사용합니다.
FAQ: 핫스왑·메모리·원격
톤이 섞임: 새 세션·프롬프트 분할로 KV 파편화를 줄입니다.
메모리 압박: 문맥·배치·동시 요청을 한 축씩 줄여 원인 분리.
원격 비용: 체크리스트 서명 후에만 전환합니다.