M4 추론 배포에 왜 MLX-LM을 먼저 보나요?

MLX는 Apple Silicon 실행 경로에 맞춰 통합 메모리 안에서 예측 가능한 처리량을 내기 쉽습니다. 주간 파인튜닝이 핵심이면 Trainer와 PEFT가 있는 Transformers 스택을 유지하는 편이 낫습니다.

KV 캐시가 커질 때 무엇부터 줄이나요?

모델을 바꾸기 전에 실효 컨텍스트와 동시 시퀀스 수를 줄입니다. 배치를 올리면 가중치 상주와 활성 KV 발자국이 함께 커지므로 곡선을 재지 말고 측정으로 검증하세요.

선행과 디코드 단계의 메모리·동기화 특성이 다릅니다. 동일 프롬프트 분포로 측정하고 패딩과 어텐션 정책을 명시하며 대화형과 오프라인 작업을 한 프로세스 큐에 섞지 마세요.

M4 통합 메모리에서는 배치·컨텍스트·KV가 한 예산입니다. 형태를 고른 뒤 노브를 조여야 데모와 운영이 맞물립니다.

M4급 체크리스트입니다. 연관 글: llama.cpp·Ollama·다중 모델 라우팅·GenAI 관측성·로컬 RAG 쿼터. 운영 전에는 동일 스크립트로 원격 노드를 한 번 더 돌리세요.

리스크. 선행·디코드 피크가 다르고 KV는 길이·레이어에 민감하며 배치는 활성화와 캐시를 동시에 키워 꼬리 지연을 부풀립니다.

워크로드 기하부터 고르세요. 대화형은 첫 토큰·꼬리, 오프라인은 처리량, 파인튜닝은 Trainer·PEFT면 HF 우선. 표는 출발점이며 실측으로 확인합니다.

KV는 길이·레이어에 민감하고 선행은 스파이크를 만듭니다. RAG는 검색·임베딩과 경합하니 쿼터 글을 병행하세요.

출발점이며 보장은 아닙니다. 압력 색·스왑·십 분 안정 구간을 게이트로 삼고 24GB급은 여유 8~12GB를 두는 팀이 많습니다.

MLX-LM. 경로·프롬프트·온도로 치환. 지원 시 --max-kv-size로 캐시 상한.

python -m mlx_lm.generate --model MODEL --prompt P.txt --max-tokens 512 --temp 0.7
python -m mlx_lm.server --model MODEL --port 8080

Transformers+MPS. 폴백·dtype·패딩·마스크 명시.

export PYTORCH_ENABLE_MPS_FALLBACK=1
# AutoModelForCausalLM.from_pretrained(..., device_map="mps") 후 generate

절차. 리비전·토크나이저 고정→대화·오프라인 분리·p50·p95→요청별 토큰·배치·캐시·오류 로그→피크 메모리·스왑→필드를 GenAI 관측성에 맞춤→전용 호스트에서 2~4시간 재생.

지표. time_to_first_token·tokens_per_sec_decode·kv_cache_bytes·mem_pressure_peak·oom_or_fallback_count로 기준선 대비 회귀만 판단.

둘 다 같은 M4에? 프로세스 분리·상한 명시로 대역 경합을 막으세요.

표와 실측이 왜 다르죠? 선행·디코드 병목이 다르고 KV 재사용이 곡선을 바꿉니다.

다음 단계? 런북에 스크립트·메트릭을 커밋한 뒤 원격 mini M4에서 장시간 재검증 후 트래픽을 붙이세요.

요약: 시나리오→스택, 배치·KV→통합 메모리, 스크립트·관측→배포 가능성.