Sur cette page : Moindre privilège · Jeux de données · Timeouts et disjoncteur · Rapports · Matrice Helicone · FAQ
Les équipes pilotées par l’évaluation cherchent à rejouer Braintrust Eval sur un hôte Apple Silicon accessible en SSH, avec Node 24 comme socle runtime. Ce guide livre une procédure reproductible : il complète nos articles OpenClaw existants en se concentrant sur les garde-fous de schéma et les résumés d’échec vers CI, sans recouvrir le scénario Helicone centré observabilité proxy (guide Helicone).
Trois frictions typiques avant la première eval nocturne
1. Surface d’attaque élargie : sans allowlist explicite, un agent peut invoquer des outils HTTP vers des hôtes non prévus et mélanger données prod et jeux d’éval.
2. Scores structurés instables : lorsque le modèle émet du JSON partiel ou des champs hors bornes, la passerelle doit échouer avant que Braintrust n’écrive des lignes incohérentes dans le tableau d’expériences.
3. CI silencieuse : un timeout unique masque les causes ; il faut des plafonds imbriqués et une enveloppe JSON lisible par les orchestrateurs GitHub Actions ou équivalents.
Matrice décisionnelle : Helicone vs parcours Braintrust Eval
| Axe | Helicone + OpenClaw (article dédié) | Braintrust Eval + OpenClaw (cette page) |
|---|---|---|
| Objectif principal | Aligner URL proxy, budgets RPM ou TPM, sondes /v1/models |
Fiabiliser harnais eval, scorers, jeux versionnés et rapports CI |
| Contrat données | En-têtes fournisseur, relais erreurs HTTP agrégées | JSON Schema sur charges scorer, refus précoce hors schéma |
| Surface outils | Observabilité requêtes LLM sortantes | Allowlist ciblée fetch Braintrust, logs, rejouabilité |
| Sortie opérationnelle | Résumés d’échec compatibles passerelle OpenAI | Résumé structuré pour étapes CI et tickets post-mortem |
Lecture synthétique : si votre priorité est la facturation proxy et la découverte de modèles, suivez le guide Helicone. Si vous industrialisez Braintrust Eval avec Node 24 sur Mac distant, restez ici pour le montage dataset, la validation JSON Schema et le disjoncteur autour des timeouts.
Configuration de moindre privilège
Isolez un utilisateur système dédié aux evals, sans accès sudo, avec répertoire de travail confiné. La passerelle OpenClaw charge un manifeste JSON listant uniquement les outils autorisés : méthodes HTTP, hôtes suffixés par votre domaine Braintrust, chemins d’API de journalisation, et interdiction explicite d’écriture locale hors cache temporaire borné. Chaque entrée doit porter un identifiant stable pour que les revues de sécurité comparent code et configuration sans ambiguïté.
Montage des jeux d’évaluation
Exposez les fragments CSV ou JSONL via un point de montage en lecture seule, avec quotas de taille documentés. Exportez BRAINTRUST_DATA_ROOT vers ce chemin figé, vérifiez les permissions POSIX pour empêcher la mutation accidentelle, puis validez que le runner Braintrust résout les chemins relatifs comme en préproduction. Sur Mac loué LlmMac, profitez d’une image OS stable pour figer ces montages dans votre runbook interne.
Timeouts imbriqués et disjoncteur
Définissez trois classes de délais : connexion TLS, premier octet de réponse, corps total pour la validation schématique. Lorsque trois échecs consécutifs surviennent sur une même étape scorer, le disjoncteur coupe la suite et renvoie une enveloppe JSON compacte plutôt qu’un hang infini. Ce modèle protège la facturation jetons tout en préservant la lisibilité pour l’équipe qui relève les logs le lendemain matin.
Rapports et retour vers l’automatisation
Après interception par OpenClaw, normalisez les champs d’erreur : code, étape, identifiant d’expérience, extrait de schéma violé, durée observée. Publiez ce fragment dans le résumé d’étape CI tout en laissant les traces complètes sur le Mac pour investigation. Les équipes juridiques apprécient cette séparation entre artefact public et journal détaillé conservé sur machine dédiée.
Liste d’étapes reproductibles
- Installer Node 24 LTS, activer le gestionnaire de versions d’équipe, puis exécuter
openclaw doctorjusqu’à validation loopback. - Publier le fichier JSON Schema des scores dans le dépôt et référencer son URI interne dans la configuration passerelle.
- Fusionner la liste blanche d’outils après revue binôme sécurité et propriétaire produit Braintrust.
- Monter les datasets en lecture seule, vérifier sommes de contrôle et jeux dorés minimaux avant la première nuit.
- Configurer timeouts et seuils disjoncteur, puis simuler deux échecs volontaires pour valider l’enveloppe JSON.
- Brancher la sortie vers votre orchestrateur CI et archiver la capture d’écran thermique du Mac distant pour la revue capacitaire.
# Exemple d’en-tête de politique (pseudo-YAML) — adapter aux clés réelles OpenClaw
eval_policy:
node_runtime: "24.x"
schema_uri: "./schemas/braintrust_scorer_v3.json"
tool_allowlist: "./openclaw/tools.eval.json"
timeouts_ms: { connect: 8000, ttfb: 45000, body: 120000 }
breaker: { failures: 3, cool_down_seconds: 90 }FAQ
Faut-il dupliquer la validation Braintrust côté SDK ? Oui : la passerelle offre une couche réseau uniforme lorsque plusieurs clients ou versions coexistent.
Les jetons comptés ici incluent-ils le proxy Helicone ? Non par défaut : ce guide parle du budget appliqué par OpenClaw aux appels modèle et outils de l’eval, distinct des compteurs Helicone documentés ailleurs.
Peut-on mélanger eval et charge interactive ? Déconseillé : réservez le Mac loué aux pipelines eval pour éviter les collisions thermiques et réseau.
Repères citables pour votre runbook interne :
- Node 24 comme cible LTS commune entre postes développeurs et Mac distant.
- Trois timeouts distincts documentés dans la configuration versionnée plutôt qu’une valeur unique opaque.
- Disjoncteur à trois échecs consécutifs avant suspension automatique de la suite nocturne.
En résumé pour votre prochaine itération : ancrez OpenClaw sur un Mac mini M4 loué, verrouillez Braintrust Eval avec JSON Schema et allowlist, puis renvoyez des résumés d’échec exploitables sans divulguer de secrets. Pour aller plus loin, ouvrez le blog technique, la page d’accueil et les tarifs publics LlmMac.
Pages publiques : parcourez les tarifs, les forfaits sur achat et le centre d’aide — lecture sans compte.