Helicone 글과 무엇이 다른가요?

Helicone 글은 프록시 관측과 라우팅 예산에 집중하고, 이 글은 Braintrust Eval 데이터셋, 점수 JSON Schema, 평가 실패 요약 회신에 집중합니다.

왜 게이트웨이에서 JSON Schema를 검증하나요?

저장 전 동일한 방어선을 두면 잘못된 점수 필드가 실험 테이블과 CI 리포트로 흘러가지 않습니다.

2026 OpenClaw Braintrust Eval 원격 Mac: 토큰 예산·JSON Schema·타임아웃

평가 주도 개발팀은 모델 답변을 릴리스 게이트로 다룹니다. 이 글은 Node 24 원격 Mac에서 OpenClaw 뒤에 Braintrust Eval을 붙이고, 토큰 예산·도구 화이트리스트·JSON Schema 점수 검증·타임아웃 퓨즈·실패 요약 회신을 재현하는 절차입니다.

바로가기: 구분 매트릭스 · 최소 권한 구성 · 평가 데이터셋 마운트 · 타임아웃 퓨즈 · 보고서 회신 · 단계 체크리스트 · FAQ

Helicone 글은 프록시 관측, 모델 목록, RPM/TPM 예산을 다룹니다. 여기서는 평가 수명주기가 핵심입니다. 고정 데이터셋을 읽기 전용으로 두고, scorer JSON을 저장 전 검증하며, 실패를 CI가 읽을 수 있는 봉투로 되돌립니다.

구분 매트릭스: Helicone 경로와 Braintrust Eval 경로

항목	Helicone 중심	Braintrust Eval 중심
목표	프록시 관측과 공급자 비용 추적	재현 가능한 평가 실행과 점수 품질 보호
예산	모델 라우팅별 요청·토큰 카운터	스위트별 토큰 상한, 재시도 상한, schema 실패 상한
실패 처리	프록시 오류를 클라이언트에 노출	평가 중단 사유를 JSON 요약으로 CI에 회신

최소 권한 구성

기본은 전부 거부입니다. OpenClaw 도구 화이트리스트 JSON에는 Braintrust가 필요한 HTTPS 메서드, 호스트 접미사, 로그 경로만 적습니다. 쉘 실행, 파일 쓰기, 범용 fetch는 끕니다. 프로젝트마다 별도 bearer를 발급하면 한 팀의 키 회전이 다른 스위트를 멈추지 않습니다.

{
  "allow": [{ "method": "POST", "hostSuffix": "braintrust.dev", "pathPrefix": "/api/" }],
  "deny": ["shell", "file.write", "fetch.any"]
}

평가 데이터셋 마운트

원격 Mac의 장점은 노트북 절전과 네트워크 변동에서 벗어난다는 점입니다. CSV·JSONL shard를 /var/braintrust/datasets 아래 읽기 전용으로 마운트하고 BRAINTRUST_DATA_ROOT를 export합니다. 체크섬은 git 또는 오브젝트 메타데이터에 남겨 재실행 때 조용한 손상을 잡습니다.

타임아웃 퓨즈

연결, 첫 바이트, 전체 본문 시간을 나눠 둡니다. scorer JSON은 draft 2020-12 schema로 검증하고, 필수 verdict·score 범위·근거 문자열 길이를 제한합니다. 3회 연속 schema 위반이나 지정 토큰 초과가 나오면 게이트웨이는 부분 저장 대신 stage, suite_id, retry_after_ms가 든 실패 봉투를 돌려줍니다.

보고서 회신

원문 프롬프트와 시크릿은 밖으로 내보내지 않습니다. CI에는 스위트 id, 시도 번호, schema path, HTTP 계열, redacted hash만 보냅니다. GitHub Actions의 step summary나 Slack 알림은 짧게 유지하고, 원본 trace는 Mac에 보관해 사후 분석에만 씁니다.

재현 가능한 단계 체크리스트 (Node 24)

원격 Mac에 Node 24를 고정하고 openclaw doctor로 루프백 게이트 상태를 확인합니다.
Braintrust Eval 정의와 같은 커밋에 scorer JSON Schema를 넣고 해시를 기록합니다.
OpenClaw 도구 화이트리스트를 적용한 뒤 단일 row dry run으로 허용 경로를 검증합니다.
데이터셋을 읽기 전용으로 마운트하고 체크섬과 권한을 문서화합니다.
토큰 예산, schema 실패 상한, 연결·본문 타임아웃을 함께 설정합니다.
강제 schema 실패 테스트로 실패 요약이 CI, 블로그 런북, 홈 대시보드 링크까지 이어지는지 확인합니다.

FAQ

Braintrust와 Helicone을 같이 써도 되나요? 가능합니다. 다만 Helicone은 프록시 관측, OpenClaw는 도구 통제, Braintrust는 평가 오케스트레이션으로 책임을 나누세요.

클라이언트 검증도 필요한가요? 네. 게이트웨이 schema는 마지막 방어선이며 SDK 타입 검사를 대체하지 않습니다.

인용 가능한 기준은? 3회 연속 schema 위반 중단, 스위트 시간당 토큰 상한, 체크섬 검증 데이터셋, Node 24 런타임 고정을 설계 문서에 명시하세요.

다음 행동: 더 많은 게이트웨이 런북은 블로그에서 보고, 서비스 개요는 홈, 장시간 eval 노드는 요금과 패키지에서 확인하세요.

2026 OpenClaw 실전: 원격 Mac에서 Braintrust Eval에 토큰 예산·JSON Schema·타임아웃을 붙이는 절차