Auf dieser Seite: Risikoachse · Helicone vs. Braintrust · Minimalrechte · Datensatz-Mounts · Whitelist vs. Schema · Timeouts · Report-Rückkanal · Schrittliste · Kennzahlen · FAQ
Dieses Playbook richtet sich an ML-Plattform- und Sicherheitsverantwortliche, die wiederholbare Nachtläufe auf einem dedizierten Mac mini M4 fahren. Im Gegensatz zum Helicone-Schwerpunkt auf Proxy-Beobachtbarkeit (siehe Helicone am OpenClaw-Gateway) geht es hier um Eval-Artefakte, Scorer-JSON und Datenbindung. Für generische Schema-Zwangsmuster am Gateway lohnt der Abgleich mit PydanticAI- und Tool-Whitelist-JSON sowie die Timeout-Philosophie aus Strands-Agenten hinter OpenClaw.
Drei Risiken ohne Gateway-Leitplanken
1. Tool-Kostenlawine: wiederholte Hilfsaufrufe über teure HTTP-Pfade fressen das Eval-Budget, bevor statistische Signifikanz erreicht ist. 2. Score-Drift: neue rationale Felder landen unvalidiert in JSON und brechen SQL-Auswertungen oder Dashboard-Joins. 3. Blockierte CI: ohne gestaffelte Transport-Deadlines warten Runner endlos auf langsame Completions — besonders schmerzhaft, wenn der Remote-Mac thermisch drosselt.
Entscheidungsmatrix: Helicone-Proxy vs. Braintrust-Eval-Pfad
| Dimension | Helicone-Proxy-Fokus | Braintrust-Eval-Fokus (dieser Artikel) |
|---|---|---|
| Hauptziel | OpenAI-kompatiblen Traffic messen und budgetieren | Wiederholbare Suites mit eingefrorenen Eingaben und Scores |
| Tokenlogik | RPM- oder TPM-Zähler am Provider-Pfad | Suite-Stunden-Deckel am Gateway plus Retries nur innerhalb definierter Caps |
| Schemaebene | Metadaten und Routing-Header | Scorer-Payload gegen eingechecktes JSON Schema Draft 2020-12 |
| Fehlerbild | Proxy- oder Anbieterfehler an Clients | Abbruch mit redigiertem Envelope für Job-Zusammenfassungen |
Minimalrechte-Konfiguration
Arbeitet verweigern-by-default aus: ein OpenClaw-Tool-Allowlist-JSON listet ausschließlich die HTTP-Verben, Host-Suffixe und Pfade, die Braintrust für Logging, optionalen Objektspeicher-Lesezugriff und Telemetrie-Endpunkte benötigt. Kein Shell-Tool, keine generischen Schreibpfade auf goldenen Datensätzen, kein Clipboard-Zugriff ohne expliziten Change-Ticket-Eintrag.
- Pro Eval-Projekt ein eigener Gateway-Bearer, damit Widerrufe isoliert bleiben.
- Die Whitelist als Infrastructure-as-Code versionieren und im Sicherheitsreview diffbar halten.
- SSH-Sessions von Laptops erhalten nur Leserechte auf Shard-Verzeichnisse; Schreibzugriff nur für kontrollierte Scratch-Bäume.
Eval-Datensätze auf dem Remote-Mac mounten
Große, stabile Shards profitieren von read-only-Mounts unter einem festen Pfad wie /var/braintrust/datasets. Exportiert BRAINTRUST_DATA_ROOT und verweist Manifeste ausschließlich darauf, damit keine mehrfachen Multi-Gigabyte-Kopien über VPN laufen. Checksummen (SHA-256) gehören in Git-Metadaten oder Objekt-Tags; weicht ein Shard ab, bricht die Suite vor teuren Modellaufrufen ab.
Zwischenergebnisse landen in einem separaten POSIX-Baum mit enger umask, damit Zwischengenerierungen niemals goldenen Datenmischungen aussetzen.
Tool-Whitelist und JSON-Schema-Gate im Vergleich
| Mechanismus | Schutzziel | Typische Policy | Validierungsort |
|---|---|---|---|
| Tool-Whitelist | Egress- und Kostenkontrolle | Nur allowlistierte Hosts und Pfade | OpenClaw vor dem ersten Byte |
| JSON Schema | Semantische Stabilität der Scores | Pflichtfelder, enums, numerische Grenzen | Gateway vor Persistenz in Braintrust |
| Kombination | Defense in Depth | Whitelist blockiert Missbrauch, Schema fängt Modell-Drift | beide Stufen seriell |
Timeout-Sicherungen und Schema-Fuse
Staffelt Connect-, First-Byte- und Gesamt-Budgets für Upstream-Completions und einen separaten Deckel für die Schema-Validierung. Überschreitet die Validierung den Fuse, wird kein Teilscore persistiert — stattdessen ein strukturierter Fehler mit Stage-Hinweis. Ein Folgefehler-Zähler öffnet den Schaltkreis nach drei Schema-Verletzungen innerhalb eines gleitenden Fensters, analog zu Agent-Pipelines, aber mit Eval-tauglichen Schwellen (höhere Toleranz pro Stunde, härtere Abbruchregeln bei Dateninkonsistenz).
| Phase | Empfohlene Obergrenze | Messgröße | Maßnahme bei Überschreitung |
|---|---|---|---|
| TLS-Connect | 2–4 s | p95 Handshake | Envelope stage=connect |
| First Byte | 15–45 s | TTFT je Modell | Retry nur wenn idempotent |
| Body komplett | Suite-spezifisch | Tokens pro Aufgabe | Abbruch + Summaries |
| Schema-Check | 50–200 ms | CPU-Zeit lokal | Kein Persist, Zähler++ |
// Schichtung: erst Whitelist, dann Schema, dann Persistenz
assertToolAllowed(host, path, method);
validateOrThrow(scorerJson, schemaHash);
if (anyDeadlineExceeded()) return failureEnvelope({ stage, suiteId });Report-Rückkanal: Fehlerzusammenfassungen für Automation
Definiert ein Fehler-Envelope mit Feldern wie suiteId, attemptIndex, gatewayStage, httpFamilie, jsonPointer, snippetHash und redigierten Ursachencodes. CI-Systeme hängen kompakte JSON-Zeilen an Job-Zusammenfassungen; vollständige Traces bleiben auf dem Mac für Forensik. So bleiben Slack- oder E-Mail-Benachrichtigungen lesbar, ohne Geheimnisse zu leaken.
Reproduzierbare Schrittliste unter Node 24
- Node 24 LTS auf dem Remote-Mac installieren, OpenClaw-Release pinnen,
openclaw doctorbis Loopback grün. - Scorer-JSON Schema committen und denselben Hash in CI-Variable und Gateway-Config referenzieren.
- Tool-Allowlist-JSON ausrollen, Gateway neu starten, Ein-Zeilen-Dry-Run gegen Braintrust-CLI.
- Datensätze read-only mounten, Checksummen prüfen, Layout-Snapshot für Auditoren ablegen.
- Timeouts staffeln, Chaos-Test mit absichtlich invalidem Score-JSON für Envelope-Pfad.
- Braintrust-Clients auf Gateway-Basis-URL mit scoped Bearer zeigen, Suite laufen lassen.
- Logs rotieren, Secrets aus allem entfernen, was die CI verlässt.
Zitierfähige Kennzahlen für Design-Dokumente
- Drei aufeinanderfolgende Schema-Fehler als Suite-Halt, sofern kein Maintainer-Override mit Ticket-ID gesetzt ist.
- Gateway-Completion-Tokens pro Suite-Stunde separat von Produktions-Budgets modellieren, typischerweise Faktor 0,3–0,5 gegenüber Live-Traffic.
- Checksummen-pflichtige Shards vor jedem Merge von Prompts, die personenbezogene Klassen berühren.
- Node 24 LTS als einzige unterstützte Runtime für OpenClaw-Hooks und native Bindings im Eval-Cluster dokumentieren.
FAQ
Können Helicone und Braintrust parallel existieren? Ja: Helicone für observierte Provider-Pfade, OpenClaw für Tool-Egress, Braintrust für Harness-Orchestrierung — Verantwortlichkeiten nicht vermischen.
Braucht es clientseitige Validierung zusätzlich? Unbedingt; das Gateway ersetzt keine typisierten SDK-Prüfungen vor der Warteschlange.
Wo Miet-Mac-Pakete prüfen? Öffentliche Preise und Kaufseiten ohne Login; Detailfragen im Hilfezentrum.
Verwandte Artikel: Helicone-Proxy, PydanticAI-Schema-Gateway, Tech-Blog-Übersicht.