Für Stack-Vergleiche auf Apple Silicon siehe MLX-LM und Transformers auf M4; für Gateway-Kosten und Routing die Multi-Modell-Routing-Matrix; für Span-Felder und Sampling die OpenTelemetry-GenAI-Matrix; für Offline-Eval und Remote-Knoten-Budgets die DSPy-Eval-Matrix.
Hardwarevoraussetzungen · Methodenvergleich · Parametersweep · Fehlerfall und Fallback · FAQ
Typische Brüche sind dreifach: 1) Es wird nur mittlere Tokens pro Sekunde gemeldet — ohne Akzeptanzrate und Tail-Latenzen verschwindet der Spekulationsnutzen in Marketingkurven. 2) Draft und Verifier teilen sich Quantisierungsstufen oder Chat-Templates nicht — dann sind Abweichungen keine Inferenzartefakte. 3) Kurze Einzelruns ersetzen keinen Soak unter Desktop-Nebenlast; Swap und Speicherdruck brechen p99 erst nach Minuten. Ergänzend: Thermik und Hintergrund-Indexer im Messfenster dokumentieren.
Hardwarevoraussetzungen
Fixiert SoC-Generation, RAM-Größe, Stromlimit und ob GPU- und Neural-Engines parallel beansprucht werden. Dokumentiert zusätzlich macOS-Version und Energiesparprofil, weil beides Thermik und Taktrampen beeinflusst. Auf Unified Memory gilt: gleichzeitige Embedding- oder RAG-Indexer addieren sich zu Draft- und Verifier-Aktivierungen — plant dafür einen Reserveblock von mindestens zwei bis drei Gibibyte für das Betriebssystem und Browser, bevor ihr Speicher-Gates setzt. Für reproduzierbare Nachtläufe empfiehlt sich ein dedizierter Remote-Mac mit dokumentiertem Stundenbudget statt eines geteilten Laptops.
Methodenvergleich
Autoregressiv (AR) generiert sequenziell ein Ziel-Token pro Schritt — einfach zu messen, stabil in der Speicherkurve. Spekulatives Decoding schlägt Tokenblöcke mit einem kleineren Draft vor und lässt einen größeren Verifier in einem Schritt bestätigen oder zurücksetzen; der Gewinn entsteht nur, wenn akzeptierte Ziel-Tokens pro Verifikationsschritt die zusätzlichen Draft-Forward-Pässe überkompensieren.
| Kriterium | Autoregressiv | Spekulativ (Draft + Verifier) |
|---|---|---|
| Primärmetrik | Decode-Latenz pro Ziel-Token, TTFT | Akzeptanzrate, akzeptierte Ziel-Tokens pro Verifikationsschritt |
| Durchsatz | Oft glatter Mittelwert bei moderatem Kontext | Spitzen möglich, stark abhängig vom Prompt-Mix |
| Speicher | Ein Modellpfad im Hot-Path | Zwei Modelle plus temporäre Draft-Zustände — höheres Peak-Risiko |
| Tail-Latenzen | Vorhersagbarer p95 bei fixem Kontext | p99 kann bei niedriger Akzeptanz kippen |
| Operativer Aufwand | Gering — weniger Knöpfe | Höher — Sweep, Telemetrie, Fallback-Pfad Pflicht |
Parametersweep-Schritte
1) Manifest: Checkpoint-Hashes, Quantisierung, Tokenizer-Revision und Stoppsequenzen für Draft und Verifier in einer Zeile. 2) Prompt-Mix: kurze Tool-JSONs, mittlere Zusammenfassungen, langer Kontextausschnitt — Anteile wie in Produktion. 3) Draft-Geometrie: Kandidaten-Tokens pro Verifikationsschritt in groben Stufen erhöhen; nach jeder Stufe Akzeptanz und p95-Zwischen-Token-Latenz notieren. 4) Sampling: Draft- und Verifier-Policies gekoppelt dokumentieren — nicht blind angleichen. 5) Soak: mindestens zehn Minuten gleichmäßiges Decoding mit typischer Nebenlast; Peak-Resident-Set und Speicherdruck-Flag loggen. 6) Baseline: identischer Mix ohne Spekulation messen und End-to-End vergleichen, nicht nur Kernel-Mikrobenchmarks. 7) Observability: dieselben Felder wie bei AR laut GenAI-Matrix ausgeben, damit Dashboards vergleichbar bleiben.
Beispiel-Schwellen (Illustration, an eure Modellfamilie anpassen): Interaktivprofil mit Prompt ≤ 1024 Ziel-Tokens — p95-TTFT ≤ 850 ms, p95-Zwischen-Token-Latenz ≤ 68 ms. Soak zehn Minuten — gleitendes Mittel der verifizierten Ziel-Tokens/s ≥ 28 bei gleichzeitig AR-Baseline ≥ 18. Akzeptanzmittel über den Mix ≥ 0,42; fällt sie unter 0,35 in zwei aufeinanderfolgenden Stufen, Sweep abbrechen. Speicher — Peak aktiv ≤ 24 GiB ohne Swap für ein typisches 7B-Q4-Ziel mit Draft 3B-Q8; überschreitung nur mit dokumentiertem Risikoakzeptanz.
| Checkpoint | Gate (Beispiel) | Nachweis |
|---|---|---|
| TTFT interaktiv | p95 ≤ 850 ms | Drei Serien à fünfzig Requests, Median und p95 |
| Decode-Tail | p99 Zwischen-Token ≤ 120 ms | Gleicher Mix wie Produktion |
| Durchsatz-Soak | ≥ 28 verifizierte Ziel-Tokens/s über 600 s | Zeitreihe gegen AR-Baseline legen |
| Akzeptanz | Mittel ≥ 0,42; kein Satteln unter 0,35 | Pro Sweep-Stufe loggen |
| Unified Memory | Peak ≤ 24 GiB ohne Swap | Aktivitätsanzeige oder Instrumentierung |
| Fallback | Automatisch AR nach zwei Fehlschritten | Runbook-Zeile im Konfigrepo |
- Zitierbar 1: Jede Veröffentlichung nennt Akzeptanzrate und AR-Baseline auf demselben Prompt-Mix.
- Zitierbar 2: Speicherpeak wird immer mit Nebenlastprofil (Browser, IDE, Indexer) dokumentiert.
- Zitierbar 3: Fallback-Trigger sind numerisch — nicht „fühlt sich langsam an“.
Fehlerfall und Fallback
Wenn Akzeptanz einbricht, Verifier-Latenzen steigen oder Speicherdruck häufige Abbrüche erzeugt, schaltet die Produktion deterministisch auf AR um — idealerweise pro Mandant oder Session, ohne globale Dienste neu zu starten. Reduziert vor einem erneuten Versuch Draft-Kandidaten, Kontextfenster oder parallel aktive Streams. Remote-Tests wiederholen dieselbe Sweep-Reihe auf einem Mietknoten, um Laptop-Rauschen auszuschließen; Kostenabgleich über Routing- und DSPy-Artikel oben.
FAQ
Lohnt sich Spekulation immer für Chat? Nein — kurze Antworten und hohe Divergenz zwischen Draft und Ziel senken die Akzeptanz; AR kann insgesamt billiger sein.
Wie vergleiche ich fair mit AR? Identisches Manifest, identischer Prompt-Mix, identische Telemetrie — nur die Decoding-Strategie wechselt.
Welche Rolle spielt Quantisierung? Große — ein aggressiv quantisierter Draft kann mehr Kandidaten vorschlagen, aber die Verifikationsfehlerquote steigt; messt beides.
Muss der Draft kleiner sein? Typisch ja, aber nicht zwingend; entscheidend ist das Verhältnis von Verifikationskosten zu erwarteter Akzeptanz.
Kurz: Spekulatives Decoding ist ein Betriebs- und Messproblem auf Unified Memory: ohne Akzeptanz- und Tail-Kennzahlen sowie numerischen Fallback bleibt es eine Demoschleife — mit klarer Checkliste wird es auf dem M4 reproduzierbar.