게이트웨이 예시는 LiteLLM 라우팅과, 로컬 한도는 M4 추론, 관측은 GenAI 관측성과 짝을 이룹니다.
요구 분층 · 라우팅 전략 · 비용과 SLA · FAQ · 전환
요구 분층
첫째 대화형은 꼬리 지연이 우선입니다. 둘째 배치 파이프라인은 처리량과 단가가 우선입니다. 셋째 도구 호출은 실패율과 폴백이 우선입니다. 등급별 별칭과 일일 토큰 예산을 나누지 않으면 단일 규칙이 비용을 깨뜨립니다.
라우팅 전략
클라이언트는 단일 OpenAI 호환 베이스 URL만 보게 하고 업스트림은 별칭으로 숨깁니다. 표는 지연·동시성·캐시·폴백을 비교합니다.
| 패턴 | 지연 | 동시성 | 캐시 | 폴백 |
|---|---|---|---|---|
| 단일 업스트림 | 혼잡 시 꼬리 길어짐 | 공유 큐 민감 | 키 단순 | 수동 전환 |
| 가중 라운드로빈 | 분산 큼 | 풀별 워커 분리 | 버전 불일치 주의 | 가중치 조정 |
| 비용 우선 | 저가 모델 지연↑ | 저가 병목 | 히트 시 이득 | 품질 초과 시 상위 |
| 지연 예산형 | 상한 수렴 | 초과 시 강등 | 짧은 TTL | 다단계 강등 |
플레이스홀더를 환경 변수에 채워 스테이징과 원격 노드를 맞춥니다.
OPENAI_BASE_URL=<호환_게이트웨이_URL>
PRIMARY_MODEL_ALIAS=<기본_별칭>
FALLBACK_MODEL_IDS=<쉼표로_구분한_대체_모델>
MAX_CONCURRENT_REQUESTS=<정수>
MAX_BATCH_PROMPT_TOKENS=<정수>
CACHE_TTL_SECONDS=<정수_또는_0으로_비활성>
ROUTING_LATENCY_P99_MS=<허용_꼬리_지연>
DAILY_TOKEN_FAILOVER_BUDGET=<정수>실행 순서 등급 분리, 별칭 고정, 동시성·배치 상한, 캐시 키에 모델·템플릿 버전, 폴백·장애 예산 문서화, 원격 Mac 야간 재생 여섯 단계입니다.
- SDK는 단일 호환 URL로 고정하고 변경은 별칭만
- 배치 큐와 대화형 큐 워커 분리
- 폴백마다 상관 ID 감사 로그
비용과 SLA
수락 기준은 단가뿐 아니라 큐 지연·실패율입니다. 동일 빌드를 렌탈 노드에 올려 야간 부하로 채웁니다. 공개 요금과 문서는 로그인 없이 비교 가능합니다.
- 대화형 p95·p99를 원격·로컬에 병기
- 배치는 시간당 건수·평균 토큰 분리 기록
- 폴백 예산 초과 시 상위 모델 잠금과 알림
FAQ
Q 배치↑면 항상 저렴 A 긴 컨텍스트가 섞이면 큐가 붙습니다. 등급별 상한을 나눕니다.
Q 캐시 안전 A 허용 응답만, 키에 모델·템플릿 버전, 민감 필드 제외.
Q 원격 검수 이유 A 노트북 절전·인덱싱이 분포를 왜곡합니다. 전용 렌탈이 운영에 가깝습니다.
전환
표를 채운 뒤 구매에서 노드를 고르고 동일 리전 스모크를 돌립니다. 공개 정보만으로 비교 가능하고 콘솔은 이후에 열어도 됩니다.
요약: 분층·표 선택·플레이스홀더 채움·원격 재현으로 라우팅 변경을 안전하게 굴립니다.
다음: 원격 Mac mini M4에서 회귀를 돌리고 문서로 SSH 루틴을 맞추세요.