다중모달 임베딩 비용은 모델명보다 실행 공급자배치 큐가 가릅니다. ONNX는 이식·디버그에 유리하고 CoreML EP는 맥에서 꼬리 지연이 줄 때가 많습니다.

바로가기: 통증 · 매트릭스 · 형식 변환 · 스레드 · 메모리 · · 원격 검수 · 절차

로컬 RAG 임베딩·벡터 인덱스와 짝을 이루며 에서 서비스 맥락을 확인하세요.

통증 세 줄

첫째 전처리·해상도 변경은 공간 이동으로 재색인을 부릅니다. 둘째 배치 확대는 통합 메모리 피크를 급격히 올립니다. 셋째 원격만의 열·디스크 미스를 노트북으로 오해하면 비용 검수가 무너집니다.

런타임 대조 매트릭스

항목 CLIP 계열 SigLIP 계열
전형 차원 오백십이 전후 부동소수 백이십팔·칠백육십팔 부동소수
ONNX Runtime CPU EP 재현·배치 계단 실험 긴 블록이면 스레드 상한 예민
CoreML EP 맥에서 분위수 안정 시 유리 무거우면 변환·컴파일 비용 전가
배치 출발 해상도 고정 후 사에서 열여섯 토큰 상한 먼저 이미지 배치 정렬

모델 형식 변환

ONNX로보낼 때 해상도·정규화를 그래프에 고정하고 CoreML은 배치 상한을 명시해 컴파일 캐시를 재사용합니다. 산출물에 체크섬·버전 태그를 붙여 인덱스 메타와 맞춥니다.

스레드 수

성능 코어에서 한두 칸 비우고 ONNX intraop을 맞추면 GUI 지터가 줄고 멀티 프로세스는 스레드 총합 세마포로 한도를 넘기지 마세요. CoreML EP는 내부 스레드가 있어 이중 과할당을 피합니다.

메모리 피크

배치가 커질수록 활성화가 통합 메모리를 한꺼번에 씁니다. 워밍업 피크를 적고 그보다 낮은 상한으로 큐를 잠그고 작은 배치 장시간이 노트북과 공존하기 쉽습니다.

배치 추론 큐

요청 길이가 제각각이면 마이크로 배치 윈도와 최대 대기 밀리초를 함께 두세요. 타임아웃 시 배치를 반으로 나눠 동일 시드로 벤치하고 실패 샤드는 데드레터로 비용을 분리합니다.

원격 노드 비용 수락 체크리스트

검수 항목 수락 기준 예시
지연 웜업 후 백분위 대 중앙값 비 삼 이하
처리량 시간당 임대료 대비 이미지당 마진이 로컬 목표 이십 퍼 이내
재현 동일 ONNX 해시·전처리 문자열로 이십사 시간 소크

운영 절차 다섯 단계

  1. 해상도·정규화·토큰 상한을 환경 변수로 고정합니다.
  2. ONNX에서 배치 계단·스레드·피크 메모리 표를 남깁니다.
  3. CoreML 빌드 후 동일 샘플로 분위수 지연을 비교합니다.
  4. 큐·데드레터를 두고 장시간 소크를 돌립니다.
  5. 원격 Mac 동일 바이너리로 검수표와 시간당 비용을 승인합니다.

인용 가능한 기준선

  • 차원 변경 시 dtype·거리 함수를 함께 맞춥니다.
  • 배치 상한은 피크 팔십 퍼에서 시작해 계단으로 올립니다.
  • 원격 검수는 로컬과 동일 가중치 해시를 강제합니다.

기술 블로그·요금·구매·고객센터는 로그인 없이 열립니다.

요약·구매 안내: 전처리 고정·스레드·피크·큐를 수치로 묶고 원격 검수를 통과하면 장기 운영에 적합합니다. 단기는 요금으로 시간당 부담부터 보고 장기 색인은 구매에서 메모리 여유 티어를 고르세요.