바로가기: 구분 매트릭스 · 최소 권한 구성 · 평가 데이터셋 마운트 · 타임아웃 퓨즈 · 보고서 회신 · 단계 체크리스트 · FAQ
Helicone 글은 프록시 관측, 모델 목록, RPM/TPM 예산을 다룹니다. 여기서는 평가 수명주기가 핵심입니다. 고정 데이터셋을 읽기 전용으로 두고, scorer JSON을 저장 전 검증하며, 실패를 CI가 읽을 수 있는 봉투로 되돌립니다.
구분 매트릭스: Helicone 경로와 Braintrust Eval 경로
| 항목 | Helicone 중심 | Braintrust Eval 중심 |
|---|---|---|
| 목표 | 프록시 관측과 공급자 비용 추적 | 재현 가능한 평가 실행과 점수 품질 보호 |
| 예산 | 모델 라우팅별 요청·토큰 카운터 | 스위트별 토큰 상한, 재시도 상한, schema 실패 상한 |
| 실패 처리 | 프록시 오류를 클라이언트에 노출 | 평가 중단 사유를 JSON 요약으로 CI에 회신 |
최소 권한 구성
기본은 전부 거부입니다. OpenClaw 도구 화이트리스트 JSON에는 Braintrust가 필요한 HTTPS 메서드, 호스트 접미사, 로그 경로만 적습니다. 쉘 실행, 파일 쓰기, 범용 fetch는 끕니다. 프로젝트마다 별도 bearer를 발급하면 한 팀의 키 회전이 다른 스위트를 멈추지 않습니다.
{
"allow": [{ "method": "POST", "hostSuffix": "braintrust.dev", "pathPrefix": "/api/" }],
"deny": ["shell", "file.write", "fetch.any"]
}평가 데이터셋 마운트
원격 Mac의 장점은 노트북 절전과 네트워크 변동에서 벗어난다는 점입니다. CSV·JSONL shard를 /var/braintrust/datasets 아래 읽기 전용으로 마운트하고 BRAINTRUST_DATA_ROOT를 export합니다. 체크섬은 git 또는 오브젝트 메타데이터에 남겨 재실행 때 조용한 손상을 잡습니다.
타임아웃 퓨즈
연결, 첫 바이트, 전체 본문 시간을 나눠 둡니다. scorer JSON은 draft 2020-12 schema로 검증하고, 필수 verdict·score 범위·근거 문자열 길이를 제한합니다. 3회 연속 schema 위반이나 지정 토큰 초과가 나오면 게이트웨이는 부분 저장 대신 stage, suite_id, retry_after_ms가 든 실패 봉투를 돌려줍니다.
보고서 회신
원문 프롬프트와 시크릿은 밖으로 내보내지 않습니다. CI에는 스위트 id, 시도 번호, schema path, HTTP 계열, redacted hash만 보냅니다. GitHub Actions의 step summary나 Slack 알림은 짧게 유지하고, 원본 trace는 Mac에 보관해 사후 분석에만 씁니다.
재현 가능한 단계 체크리스트 (Node 24)
- 원격 Mac에 Node 24를 고정하고
openclaw doctor로 루프백 게이트 상태를 확인합니다. - Braintrust Eval 정의와 같은 커밋에 scorer JSON Schema를 넣고 해시를 기록합니다.
- OpenClaw 도구 화이트리스트를 적용한 뒤 단일 row dry run으로 허용 경로를 검증합니다.
- 데이터셋을 읽기 전용으로 마운트하고 체크섬과 권한을 문서화합니다.
- 토큰 예산, schema 실패 상한, 연결·본문 타임아웃을 함께 설정합니다.
- 강제 schema 실패 테스트로 실패 요약이 CI, 블로그 런북, 홈 대시보드 링크까지 이어지는지 확인합니다.
FAQ
Braintrust와 Helicone을 같이 써도 되나요? 가능합니다. 다만 Helicone은 프록시 관측, OpenClaw는 도구 통제, Braintrust는 평가 오케스트레이션으로 책임을 나누세요.
클라이언트 검증도 필요한가요? 네. 게이트웨이 schema는 마지막 방어선이며 SDK 타입 검사를 대체하지 않습니다.
인용 가능한 기준은? 3회 연속 schema 위반 중단, 스위트 시간당 토큰 상한, 체크섬 검증 데이터셋, Node 24 런타임 고정을 설계 문서에 명시하세요.