« Quand plusieurs familles de modèles cohabitent, la valeur opposable n’est pas la liste des endpoints : c’est une façade unique avec des alias stables, des budgets de panne explicites et des résumés d’échec auditables — le tout sur un Mac distant qui isole secrets et thermique du portable. »

Sur cette page : ruptures fréquentes · matrice de routage · déploiement · configuration & dépannage · FAQ

Ce guide suppose LiteLLM Proxy en 127.0.0.1 derrière une passerelle OpenClaw sur un nœud Apple Silicon loué : vous obtenez un chemin unique pour agents et IDE, des alias multi-fournisseurs, un disjoncteur budgété et des synthèses d’erreur sans élargir les clés. Croisez avec le playbook OpenClaw · LangGraph, jeton passerelle et retries et la fiche JSON Schema, timeouts et disjoncteur pour les outils ; pour l’inférence locale, ouvrez la matrice llama.cpp vs Ollama.

Où la pile casse sans garde-fous

1. Fuites de surface d’attaque. Lorsque chaque poste développeur porte des clés fournisseur, la surface explose : impossible de révoquer proprement après un incident ni de tracer qui a routé quel alias.

2. Alias instables. Les graphes et outils codent en dur des noms de modèle changeants : chaque rotation amont casse les workflows ; LiteLLM doit présenter des étiquettes d’alias immuables côté client.

3. Bruit d’astreinte. Sans budget de disjoncteur ni schéma de synthèse, les équipes reçoivent des dumps opaques : on mute l’alerte au lieu de réparer. Les résumés doivent rester sans secrets mais actionnables.

Matrice de routage (besoin → levier → risque maîtrisé)

  • Plusieurs fournisseurs ou files locales ? Levier : model_list LiteLLM avec alias stables et quotas de concurrence par famille. Risque : saturation mémoire unifiée si batch agressif — plafonner workers et activer files.
  • Contrôle d’accès outillé ? Levier : passerelle OpenClaw avec jetons à scopes minimaux, tunnel SSH ou overlay privé, jamais d’écoute publique du proxy. Risque : dérive de ports entre environnements — canoniser la paire passerelle proxy.
  • Incidents lisibles ? Levier : disjoncteur sur taux d’erreurs et latence, payloads synthétiques normalisés, corrélation X-Correlation-Id bout à bout. Risque : fuite de prompt dans le résumé — filtrer strictement.

Pourquoi un Mac loué change l’équation. Vous isolez la boucle inférence, proxy et passerelle loin des mises en veille des portables, des réseaux invités et des applications de bureau qui volent des cœurs : la latence de file devient plus prévisible, les journaux restent alignés sur plusieurs jours, et les jetons ne quittent jamais un périmètre serveur que vous pouvez auditer. Cette posture simplifie la documentation d’exploitation : une seule matrice de ports, une paire de jetons par environnement, et des résumés d’échec stockés avec la même politique de rétention que le reste de l’infra Mac cloud.

Déploiement reproductible (aperçu opérable)

1. Créer un utilisateur de service sur le Mac distant, répertoires de journaux dédiés, ports figés pour OpenClaw et LiteLLM, pare-feu local refusant l’entrée WAN.

2. Émettre deux jetons dashboard : l’un invoke étroit pour la passerelle, l’autre read-only pour /health ; fichiers 0600, rotation documentée.

3. Démarrer LiteLLM avec alias multi-modèles, timeouts par backend, limites de tentatives cohérentes avec la politique OpenClaw, logs JSON vers fichier rotatif.

4. Lancer openclaw gateway listen sur la boucle locale, mapper les invocations d’outils vers le proxy via Bearer fichier, propager corrélation et libellé d’alias choisi.

5. Brancher un webhook ou une file interne consommant les résumés d’échec : schéma stable, champs entiers pour codes et durées, hashes pour corréler sans PII.

6. Planifier via launchd une sonde curl authentifiée et un jeu de canaris multi-alias après chaque changement ; archiver les résultats dans le runbook de release.

Configuration fine, dépannage et signaux

Quand les 429 affluent, comparez concurrence LiteLLM, file d’attente fournisseur et pression thermique du Mac : Apple Silicon partage un budget unique entre Metal et CPU. Si OpenClaw renvoie 401 alors que curl fonctionne, vérifiez utilisateur UNIX, chemin du fichier jeton, drift NTP et branches async qui omettent Authorization.

# Gabarit de synthèse d’échec (sans secrets) { "correlation_id": "…", "alias": "stable-chat", "stage": "litellm|openclaw|provider", "http_status": 503, "breaker_state": "open", "latency_ms": 842 }

Gardez les prompts hors bande ; journalisez longueurs et empreintes côté collecteur si vous instrumentez en parallèle, sans recopier de texte utilisateur dans les résumés d’astreinte.

FAQ

Faut-il exposer LiteLLM sur le LAN du bureau ? Non : concentrez l’accès via tunnel ou réseau overlay ; le Mac distant devient la zone déjà durcie pour secrets et audits.

Comment tester le basculement multi-modèle ? Coupez volontairement un backend, observez l’état du disjoncteur et le résumé JSON ; restaurez puis vérifiez la fermeture contrôlée sans rafales de retries aveugles.

Puis-je réutiliser le même jeton pour agents humains et jobs batch ? Déconseillé : scindez scopes et quotas pour éviter qu’un batch épuise le budget d’astreinte des agents interactifs.

Pages publiques sans connexion : comparez les paliers sur la page tarifs, parcourez les SKU sur la page d’achat, puis prolongez avec le centre d’aide et l’index du blog technique.