評価駆動開発チームでは、Braintrust の experiment ごとに評点の予算失敗の写しを契約化する必要があります。OpenClaw をループバックの単一公開面に固定し、Node 24 のリモート Mac で再現可能にしましょう。

目次:最小権限 · データセット · 熔断 · 回伝 · FAQ

プロキシ観測の主役は Helicone 稿、構造化出力の契約は Instructor 稿。本稿は評点スキーマexperiment コールバックが主役です。

痛みは三つ。評価器が自由記述で score の単位がブレること。プロンプト本文がログに溶けて監査が崩れること。再試行嵐で experiment 単価が爆発することです。

観点 Helicone 稿 本稿(Braintrust Eval)
主役 プロキシ観測とコスト 評点スキーマと experiment 契約
許可名 chat.proxy / models.list eval.run / dataset.read / scorer.run
JSON RPM・TPM・連敗 score・rationale・cost・latency_ms 強制
回伝 失敗 JSON マスク experiment コールバック短文のみ

最小権限の構成

Node 24 LTS を pin し launchd で固定。 OPENCLAW_HOME と CLAW_GATEWAY_BEARER を分離し平文で残しません。 127.0.0.1 のみで listen し SSH トンネルで接続。 ツールホワイトリストは eval.rundataset.readscorer.run の三本のみ、他は明示的に拒否。 /v1/models で自己診断し起動を可視化、doctor で齟齬を早期検出します。

評価データセットの挂載

Braintrust の dataset は読み取り専用パスへ、出力は scratch/<run_id>/ に隔離します。launchd 環境変数で BRAINTRUST_API_KEY を注入し、ゲートが受け渡すのは dataset_sliceseedモデル別名のみ。プロンプト本文と評点根拠はリポジトリ外に出さず、ローテートしたログにも本文を書き残しません。

タイムアウト熔断

評点 JSON は JSON SchemarequiredadditionalProperties:false)で版付き強制し、Schema Registry に登録します。接続三秒・全体二十秒の二重タイムアウトを分離し、連敗五件で半開遮断、回復は単発成功で閉。再試行は指数バックオフ+ジッターのみ許可し、評価器の自由記述による単位ブレを構造で抑えます。

報告の回伝

experiment コールバックには run_id・dataset_slice・error_class・retry_count・latency_ms の短い JSON のみ返し、Bearer とプロンプト本文と評点根拠は削除します。Braintrust 側ダッシュボードでは合格帯・熔断頻度・第九五分位の三本のみを見て、合格した実験のみ本番比率へ昇格させます。

引用できる目安。Node 24 を pin、許可名は三本、二重タイムアウトは三秒・二十秒、連敗五件で半開、夜間ソークは六時間。第九五分位と請求粒度を突合して合格帯を決めます。

FAQ

Helicone と何が違う。あちらはコスト観測、こちらは評点契約。同じゲートウェイに同居可能です。

スキーマ違反は。ゲートで弾き error_class:schema_violation のみ回伝。

Node のバージョンは。2026 互換は Node 24 LTS、launchd で固定し doctor で齟齬検出。

リモート Mac で夜間ソークを挟むと、experiment の合格帯と請求が揃います。テックブログホーム料金プランはログイン不要。