플랫폼 팀은 OpenWebUI 채팅과 Ollama OpenAI 호환 경로를 통합 메모리 안에 두면서 동시 슬롯·베어러·회로 차단·시간당 비용 임계를 한 번에 검수해야 합니다. 아래 매트릭스와 체크리스트로 원격 Mac 노드까지 동일 기준을 적용합니다.

목차: 제약 · 매트릭스 · 배포 · 라우팅 · 관측 · 수락 · 단계 · FAQ

스트리밍 세션이 늘면 큐·KV가 메모리를 잡아먹습니다.
/v1/chat/completions 앞뒤에 게이트를 두는 위치가 계측·장애 반경을 바꿉니다.
토큰 유출 시 모델 태그가 노출되므로 분당 임계·연속 오류 차단은 게이트 밖이 안전합니다.

토폴로지 매트릭스: 직결 대 게이트웨이 전면

평가 축 직결 게이트 전면
동시 슬롯 단순, 큐 폭주 시 전역 지연 키별 슬롯 캡·대기열
OpenAI 호환 라우팅 기본 경로 의존 별칭·헤더 정규화
토큰·회로 차단 UI 비밀 중심 분당 토큰·연속 오류 차단
비용 임계 사후 대시보드 위주 시간당 상한·웹훅 선제 중단

배포: 동시 세션 슬롯과 프로세스 경계

OpenWebUI와 Ollama를 한 호스트에 두고 활성 스트림 상한을 환경 변수와 리버스 프록시로 이중 고정합니다. 배치 크기를 늘리기 전 슬롯을 숫자로 박제하면 야간 배치가 주간 채팅을 밀지 않습니다.

라우팅: OpenAI 호환 엔드포인트와 베어러 토큰

클라이언트는 Bearer 한 줄만 알면 됩니다. 팀별 키는 게이트에서 발급하고 Ollama는 루프백만 노출하세요. 별칭 표는 OpenWebUI와 게이트 동일 표로 맞춥니다.

관측: 지연·토큰 카운터·회로 차단

첫 토큰 지연·분당 요청·대기 길이를 한 화면에 둡니다. 임계 초과 시 게이트가 오픈되어 신규만 거절합니다. 샘플링 비용은 Langfuse·OTel GenAI 글과 같이 맞춥니다.

원격 노드 비용·안전 수락 체크리스트

검증 항목 합격 기준 증빙
동시 슬롯 피크 시 스트림 ≤상한 85% 게이트 로그
API 라우트 일치 응답 모델 필드=별칭 표 샘플 저장
베어러 토큰 키 회전·폐기 문서 티켓 링크
회로 차단 초과 후 60초 내 신규 차단 알림 캡처
비용 임계 시간당 토큰·USD 상한 준수 과금 CSV

운영 단계

  1. 로컬 LLM 추론 매트릭스로 태그를 고정하고 OpenWebUI 프로필을 맞춥니다.
  2. 게이트에서 팀별 Bearer와 분당 토큰 한도를 발급합니다.
  3. 헬스 프로브와 큐 길이 알림을 연결합니다.
  4. 회로 차단 임계·복구 승인을 런북에 적습니다.
  5. 원격 노드는 시간대별 요금을 표로 승인합니다.
  6. AutoGen 원격 게이트와 에이전트 호출 경로를 교차 검토합니다.

인용 기준 예시

  • 활성 스트림 상한 6, 초과 시 429.
  • 분당 토큰 합이 임계 120%면 차단.
  • 원격 시간당 비용이 추정 대비 15% 초과 시 월간 검토 안건.

FAQ

UI만으로 레이트리밋? 우회가 쉬워 게이트에서 토큰·연결을 한 번 더 거세요.

OpenAI SDK 혼용? 어댑터는 게이트에만 두고 클라이언트는 스키마 단일화.

노트북+원격? UI는 로컬, 무거운 큐는 에서 고른 전용 노드로.

더 읽기: 블로그 · · 구매