배치·KV는 MLX M4 매트릭스, 스팬은 관측성, 베이스 추론은 M4 llama.cpp와 짝을 맞추세요.
왜 어렵나 · 결정 매트릭스 · 자원 임계 · 실행 절차 · 원격 비용 체크 · FAQ
왜 어렵나
첫째 프롬프트 변경이 토큰·지연을 흔듭니다. 둘째 온라인 로그만으로 회귀 차단이 어렵습니다. 셋째 노트북 최적값과 렌탈 운영이 달라 동일 매니페스트 재생이 필요합니다.
결정 매트릭스
품질·비용·지연 목표별로 전략과 리스크를 표에 고정합니다.
| 시나리오 | 권장 접근 | 감시 지표 | 주의 |
|---|---|---|---|
| 소수 과제 고정 | 소형 시그니처·제약 기반 메트릭 | 주요 점수·제약 위반 최댓값 | 과적합 시 교사 호출 폭증 |
| 다중 도메인 혼합 | 도메인별 가중·스트라타 보고 | 스트라타 최저 분위 | 한 도메인이 전체를 가림 |
| 비용 민감 배치 | 배치 토큰 상한·큐 깊이 동시 게이트 | 시간당 완료 건·평균 선행 토큰 | 긴 컨텍스트가 꼬리 지연 유발 |
| 운영 수락 | 동결 프롬프트·오프라인만 CI | p95 종단 지연·실패율 | 컴파일 루프를 매 커밋에 넣지 않기 |
자원 임계
통합 메모리 압력과 열이 동시에 옵니다. 예시 상한입니다.
| 항목 | 권장 상한 | 초과 시 조치 |
|---|---|---|
| 통합 메모리 압력 | 지속 경고 구간 미만 유지 | 배치·컨텍스트·동시 워커 삼각 절단 |
| 동시 디코드 워커 | 단일 노드 2–4에서 시작 | 큐 길이 알람·우선순위 분리 |
| 열 상태 | 소크 구간 스로틀 이벤트 희소 | 팬 프로파일·야간 재측정 |
실행 절차
한 매니페스트 체크섬 고정. 두 시그니처·옵티마이저·시드 동일. 세 오프라인 하네스가 JSON 리포트. 네 게이트 미달 시 병합 금지. 다섯 원격에서 미러 소크. 여섯 렌탈·토큰·에그레스 요약 승인.
EVAL_MANIFEST_SHA256=<고정값>
DSPY_MAX_OPTIMIZER_ROUNDS=<정수>
DSPY_COMPILE_SEED=<정수>
OFFLINE_EVAL_SEED=<정수>
MAX_BATCH_PROMPT_TOKENS=<정수>
METRIC_PRIMARY_MIN=<실수_또는_백분율>
CONSTRAINT_VIOLATION_MAX_RATE=<실수>
LATENCY_P95_MS_MAX=<정수>
SOAK_HOURS_REMOTE=<정수>- 인용값 매니페스트 해시·주요 점수·최악 제약률·p95 지연·백만 토큰당 렌탈 포함 비용
- 인용값 동결 프롬프트 버전과 모델 리비전 문자열
- 인용값 로컬 대 원격 토큰 처리량 비율과 큐 깊이 피크
원격 비용 체크
동일 리전·스크립트일 때만 비교가 성립합니다. 공개 요금·구매는 로그인 없이 열람됩니다.
- 소크·시간당 렌탈·에그레스를 한 표에
- 꼬리 지연 초과 시 워커·배치 재조정 후 재측정
- 승인 번들에 매니페스트·리포트·서명 첨부
FAQ
Q 컴파일을 CI에 매번 A 교사 호출 큰 작업은 예약 파이프로 분리.
Q 로컬이 더 빠른데 A 전용 렌탈이 지속 처리에 가깝습니다.
Q 게이트와 라이브 A 오프라인은 출하 전 회귀 차단, 라이브는 드리프트. 스팬 ID 정렬.
요약: 매니페스트·게이트·자원·원격 소크·비용으로 DSPy류 변경을 수락합니다.
다음: 문서로 SSH·환경을 맞추고 야간 회귀를 돌리세요.