바로가기: 리스크 · 지연·비용 · 배치 스윕 · 캐시 · 원격 검수 · 폴백 · FAQ
🔗 맥락
청크·쿼터, CLIP·SigLIP, USearch·FAISS와 스키마를 맞추세요.
핵심 리스크 세 가지
- 차원 혼선 — 축소·풀 차원을 한 인덱스에 섞으면 거리가 깨집니다.
- 배치 과신 — 통합 메모리에서 큰 배치가 순간 스톨을 만듭니다.
- API 누적 — 재시도·중복 청크로 합산 과금이 튑니다.
지연과 비용 임계
bge-m3는 ONNX 스레드·IO와 CoreML EP의 ANE 배치를 따로 튜닝합니다. text-embedding-3-small은 왕복·토큰 과금이 핵심이라 일 호출 상한·분당 청크 상한을 게이트에 박고 알람은 단가가 아니라 누적 토큰에도 걸어 두세요.
| 항목 | API 소형 | bge-m3 ONNX·CoreML |
|---|---|---|
| 비용 트리거 | 토큰 합·재시도 배수 | 전력·시간·엔지니어링 시간 |
| 차원 전략 | 요청 파라미터로 축소 가능 | 그래프 고정 차원 권장 |
| 임계 예시 | 일 임베딩 토큰이 월 예산 추정의 삼십퍼센트 넘으면 로컬 검토 | p95 지연이 목표의 백십퍼센트 넘으면 배치 절반 |
배치 스윕 방법
1 전처리·시드 묶음 고정. 2 배치 일·이·사·팔·십육에서 평균·p95·피크 기록. 3 CoreML 첫 호출 워밍업 분리. 4 무릎점 아래 단계를 운영값. 5 동일 스크립트를 원격 M4 임대에 복사해 열 비교. 6 CSV로 리포 고정.
# 캐시 키 문자열 예: embed|bge-m3|onnx|q8|rev7|sha256(chunk)원격 임대 노드 검수 체크리스트
노트북과 클라우드 미니는 냉각·전력 한계가 달라 같은 배치라도 곡선이 어긋납니다. 벤치 비교용으로 전용 M4 임대를 잡고 아래를 순서대로 확인하세요.
- OS 빌드·Xcode·ONNX Runtime·CoreML 플러그인 버전을 로컬과 동일하게 고정했는지
- 워밍업 제외 후 이십회 반복에서 p95가 스테이징과 십오퍼센트 이내인지
- 디스크 임시 경로와 동시 인덱스 빌드 IO가 임베딩 큐를 밀지 않는지
- 절전·스로틀링 비활성 프로필로 야간 배치 잡을 돌렸는지
- 실패 시 로그에 호스트 식별자와 배치 크기가 함께 남는지
캐시 키 설계
리비전·EP·양자화·전처리 버전을 키에 넣으세요. API는 리전·축소 플래그, 로컬은 스레드 수를 넣어 충돌 없이 재색인 범위를 줄입니다.
- 인용 — 무릎 배치·p95 ms·일 토큰 상한·리비전 해시를 릴리스 노트에.
- 인용 — 차원 단일 소스·실패 코드 열거를 운영 문서 머리에.
- 인용 — 원격 대 로컬 스윕 곡선 오차 이십퍼센트 이내인지.
실패 시 폴백
SLA 초과 시 API→로컬, 과금 한도 시 로컬 고정 등 단방향 스위치를 둡니다. 양자화 전환 시 키 접미사를 바꾸고 스팬에 embed_path 코드를 붙입니다.
FAQ
API만? 소량엔 충분. 백필 몰리면 토큰 합이 급증하니 임계부터.
양자화? 검증 세트 고정. int8·fp16은 키 프리픽스 분리·인덱스 분리.
LLM 동일 머신? 가능. ANE·GPU 경합을 스윕에 기록하고 분리 노드를 검토하세요.