Soll der Client das Gateway oder LiteLLM direkt ansprechen?

Nur das Gateway. Direktzugriff auf LiteLLM umgeht typischerweise Scope und Mandanten-Korrelation am äußeren Rand; LiteLLM bleibt auf Loopback nur für das Gateway erreichbar.

Alias geändert, Clients nutzen aber noch alte Routen?

LiteLLM-Konfiguration neu laden oder Dienst neu starten, dann zwischengeschaltete Caches prüfen. Empfehlung: alte Aliase eine Release-Zeit lang parallel führen und Traffic in Logs vergleichen, bevor der Legacy-Alias entfällt.

Breaker schlägt zu oft zu — wie tunen?

Zuerst unterscheiden, ob die Ursache Kapazität beim Anbieter oder zu kurze Timeouts ist. Timeouts nur vorsichtig erhöhen, wenn Messwerte echte Lese-Timeouts zeigen; primär Fallback-Modelle oder andere Regionen nutzen und Breaker-Fenster pro Modell oder Mandant entkoppeln, statt eine globale Schwelle zu lockern.

401 ohne Gateway-Logzeile — wo ansetzen?

Pfadpräfix und Reverse-Proxy prüfen, ob Authorization-Header gestrippt wird; lokal mit curl gegen Loopback und extern gegen TLS-Endpunkt vergleichen. Häufig täuscht ein 404 durch falsche Basis-URL ein Secret-Problem vor.

2026 OpenClaw × LiteLLM Proxy: Gateway-Routing, Modell-Aliase, Circuit-Breaker-Budget & Fehlerzusammenfassung auf Remote-Mac

In einer Multi-Modell-Landschaft verteuern sich nicht die Tokens an sich, sondern zerstreute Schlüssel, doppelte Routing-Logik und Breaker ohne Budget. LiteLLM auf Loopback, äußerlich nur OpenClaw: So wird „wer darf welches Modell“ zu einer nachvollziehbaren Policy — nicht zu einem Ratespiel in jedem Microservice.

Dieses Playbook setzt voraus, dass ihr einen dedizierten Remote-Mac mit stabilen Uhren, ausreichend Festplatte für Logs und launchd-gesteuerten Diensten betreibt. Vertiefung zu Gateway-Tokens und Health: OpenClaw LangGraph-Tools & Gateway. Zentrale Retry- und Breaker-Muster: JSON Schema, Timeouts & Retry. Für Telemetrie und Kostenfelder nachgelagert: OpenTelemetry GenAI-Observability.

Motivation · Schichten · Deployment & Konfiguration · FAQ & Störungsanalyse

Warum Gateway plus LiteLLM?

Wenn jede Anwendung eigene Anbieter-Clients pflegt, wachsen Rotationszyklen und Incident-Analysen überproportional. LiteLLM Proxy bündelt model_list, Gewichtungen, Fallbacks und anbieterspezifische Timeouts an einer technischen Stelle. Das OpenClaw-Gateway darüber entscheidet mit minimalen Token-Scopes, welche Alias-Namen und Mandanten-IDs überhaupt erreichbar sind — Schlüssel bleiben auf dem Knoten und werden nicht mit jedem CI-Job vervielfältigt.

Die Fehlerzusammenfassung (strukturierte Felder statt Rohstacktraces) landet idealerweise im Gateway: so bleiben Antworten für Clients konsistent, während LiteLLM detaillierte Upstream-Logs für Betrieb und Abrechnungsabgleich behält — ohne Prompt-Klartext nach außen zu geben.

Schichtenmatrix

Schicht	Aufgabe	Bei Störungen zuerst
OpenClaw-Gateway	AuthZ, Mandant, erlaubte Modell-Aliase, einheitliche Fehler-JSON	Reverse-Proxy strippt `Authorization`?, Scope vs. Alias-Liste
LiteLLM Proxy	Multi-Modell-Routing, Fallbacks, Upstream-Retries, Rate-Limits	503-Quote, Lese-Timeouts, falsche Modell-ID nach Rename
Remote-Mac-Knoten	launchd, Logrotation, freie Ports, keine Sleep-Überraschungen	Plattenfüllstand, konkurrierende Dienste, NTP-Drift

Deployment, Konfiguration und Abnahme

1) Verzeichnisbaum und Rechte. Legt unter ~/llm-edge (oder gleichwertig) Unterordner für config, logs und secrets an. Dateien mit Tokens und Master-Keys chmod 600; Prozesse laufen unter einem dedizierten Benutzerkonto, damit keine interaktive Shell aus Versehen breitere Leserechte erbt.

2) LiteLLM starten und isolieren. Bindet die Admin- bzw. Proxy-API an 127.0.0.1 und dokumentiert den Port im Team-Runbook. Öffentliche Artefakte sind eine versionierte router.yaml (Modellnamen, Aliase, Fallback-Ketten, Budgetparameter); Anbieter-Keys liegen ausschließlich in secrets.env oder eurem Secret-Backend.

3) Multi-Modell-Routing und Aliase. Trägt alle produktiven Pfade in model_list ein — inklusive klarer Priorität bei parallelen Anbietern. Stabile Aufrufnamen (prod-chat, embed-fast) mappt ihr auf interne technische IDs, damit Provider-Umbenennungen keine Client-Releases erzwingen. Änderungen zuerst über einen Canary-Alias ausrollen.

4) Gateway vorschalten. Clients erhalten nur die öffentliche Gateway-URL und Dashboard-Tokens mit kleinstmöglichem Scope (nur erlaubte Aliase und Methoden). Das Gateway proxyt zur LiteLLM-Loopback-Adresse. So bleibt das Least-Privilege-Prinzip erhalten: selbst bei geleaktem Client-Token sind weder Admin-Endpunkte von LiteLLM noch zusätzliche Modelle erreichbar.

5) Breaker-Budget und Parallelität. Definiert pro Mandant Obergrenzen für gleichzeitige Anfragen und QPS. Circuit Breaker an Fehlerfenstern ausrichten, die ihr aus echten Lasttests befüllt — nicht aus Schätzwerten vom Laptop. Wenn ein Modell dauerhaft rot ist, sollte der Fallback greifen, bevor globale Timeouts nur noch Warteschlangen verlängern.

6) Fehlerzusammenfassung und Abnahme. Das Gateway antwortet bei Upstream-Fehlern mit typisierten Feldern (z. B. Kategorie, retryable, Referenz-Hash, empfohlene Wartezeit). Abnahme-Checkliste: widerrufenes Token muss sofort 401 liefern; isoliert deaktivierte Route muss sauberen Alias-Fehler zeigen; künstliches 503 muss Breaker plus Fallback auslösen und die Audit-Zeile im Gateway mit derselben X-Request-ID erscheinen wie im LiteLLM-Log.

Zwei launchd-Jobs: zuerst LiteLLM laden, danach Gateway — verhindert falsche „Upstream down“-Alarme beim Kaltstart.
Logrotation für StandardOutPath und StandardErrorPath aktivieren; Inference-Spitzen füllen sonst die Platte.
Management-Keys von LiteLLM niemals in dasselbe Token wie Client-Bearer legen; Rotation getrennt planen.

# Smoke-Test über Gateway-Alias (Beispiel)
curl -sS "https://<gateway-host>/v1/chat/completions" \
  -H "Authorization: Bearer $OC_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"model":"prod-chat","messages":[{"role":"user","content":"ping"}]}'

FAQ und Störungsanalyse

Client sieht 401, Gateway-Log bleibt leer. Meist falscher Pfad oder ein Proxy entfernt Authorization. Vergleicht direkten curl gegen Loopback mit Aufruf über denselben Ingress wie die Anwendung.

Breaker „zickt“ trotz gesund wirkender Quote. Prüft, ob mehrere Mandanten dieselbe Messlatte teilen — dann blockiert ein Ausreißer alle. Trennt Fenster nach model oder tenant_id.

Alias zeigt noch altes Ziel. LiteLLM neu laden, dann HTTP-Caches und CDN-Regeln prüfen. Für Produktion parallel alte und neue Aliase führen und Trafficanteile logbasiert angleichen.

Hohe Latenz nur über Gateway. TLS- und HTTP/2-Terminierung messen; zusätzlich LiteLLM-Upstream-Zeit im Log mit Gateway-Gesamtzeit joinen — oft liegt der Sprung im zusätzlichen Hop oder in zu kleinen Connection-Pools.

Kurz: LiteLLM konsolidiert Multi-Modell-Routing und Anbieterdetails; OpenClaw konsolidiert Identität, Scope und Fehlerform. Gemeinsam reduziert ihr Schlüsselfläche und Incident-Zeit — Voraussetzung, um LLM-Last productionstauglich zu machen.

Regionen und dedizierte Mac mini M4 Remote-Knoten findet ihr auf der Kauf-/Mietseite — ohne Anmeldung einsehbar. Tarife unter Preise, Feintuning im Hilfezentrum (inkl. OpenClaw-Abschnitte), Bestellung bei Bedarf über die Konsole.

2026 OpenClaw Praxis: Auf dem Remote-Mac LiteLLM Proxy hinter Gateway-Routing — Modell-Aliase, Breaker-Budget, Fehlerzusammenfassung, reproduzierbare Schritte

Warum Gateway plus LiteLLM?

Schichtenmatrix

Deployment, Konfiguration und Abnahme

FAQ und Störungsanalyse

Remote-Mac-Knoten für LiteLLM & OpenClaw reservieren