Auf dem M4 konkurrieren Verifier, Draft und KV-Caches im selben Unified-Memory-Pool. Diese Matrix ordnet spekulatives Decoding der autoregressiven Baseline zu, liefert eine Abnahme-Checkliste mit messbaren Schwellen — framework-neutral formuliert — und einen Parametersweep, der Akzeptanz, Latenz und Speicher gemeinsam betrachtet.

Für Stack-Vergleiche auf Apple Silicon siehe MLX-LM und Transformers auf M4; für Gateway-Kosten und Routing die Multi-Modell-Routing-Matrix; für Span-Felder und Sampling die OpenTelemetry-GenAI-Matrix; für Offline-Eval und Remote-Knoten-Budgets die DSPy-Eval-Matrix.

Hardwarevoraussetzungen · Methodenvergleich · Parametersweep · Fehlerfall und Fallback · FAQ

Typische Brüche sind dreifach: 1) Es wird nur mittlere Tokens pro Sekunde gemeldet — ohne Akzeptanzrate und Tail-Latenzen verschwindet der Spekulationsnutzen in Marketingkurven. 2) Draft und Verifier teilen sich Quantisierungsstufen oder Chat-Templates nicht — dann sind Abweichungen keine Inferenzartefakte. 3) Kurze Einzelruns ersetzen keinen Soak unter Desktop-Nebenlast; Swap und Speicherdruck brechen p99 erst nach Minuten. Ergänzend: Thermik und Hintergrund-Indexer im Messfenster dokumentieren.

Hardwarevoraussetzungen

Fixiert SoC-Generation, RAM-Größe, Stromlimit und ob GPU- und Neural-Engines parallel beansprucht werden. Dokumentiert zusätzlich macOS-Version und Energiesparprofil, weil beides Thermik und Taktrampen beeinflusst. Auf Unified Memory gilt: gleichzeitige Embedding- oder RAG-Indexer addieren sich zu Draft- und Verifier-Aktivierungen — plant dafür einen Reserveblock von mindestens zwei bis drei Gibibyte für das Betriebssystem und Browser, bevor ihr Speicher-Gates setzt. Für reproduzierbare Nachtläufe empfiehlt sich ein dedizierter Remote-Mac mit dokumentiertem Stundenbudget statt eines geteilten Laptops.

Methodenvergleich

Autoregressiv (AR) generiert sequenziell ein Ziel-Token pro Schritt — einfach zu messen, stabil in der Speicherkurve. Spekulatives Decoding schlägt Tokenblöcke mit einem kleineren Draft vor und lässt einen größeren Verifier in einem Schritt bestätigen oder zurücksetzen; der Gewinn entsteht nur, wenn akzeptierte Ziel-Tokens pro Verifikationsschritt die zusätzlichen Draft-Forward-Pässe überkompensieren.

Kriterium Autoregressiv Spekulativ (Draft + Verifier)
Primärmetrik Decode-Latenz pro Ziel-Token, TTFT Akzeptanzrate, akzeptierte Ziel-Tokens pro Verifikationsschritt
Durchsatz Oft glatter Mittelwert bei moderatem Kontext Spitzen möglich, stark abhängig vom Prompt-Mix
Speicher Ein Modellpfad im Hot-Path Zwei Modelle plus temporäre Draft-Zustände — höheres Peak-Risiko
Tail-Latenzen Vorhersagbarer p95 bei fixem Kontext p99 kann bei niedriger Akzeptanz kippen
Operativer Aufwand Gering — weniger Knöpfe Höher — Sweep, Telemetrie, Fallback-Pfad Pflicht

Parametersweep-Schritte

1) Manifest: Checkpoint-Hashes, Quantisierung, Tokenizer-Revision und Stoppsequenzen für Draft und Verifier in einer Zeile. 2) Prompt-Mix: kurze Tool-JSONs, mittlere Zusammenfassungen, langer Kontextausschnitt — Anteile wie in Produktion. 3) Draft-Geometrie: Kandidaten-Tokens pro Verifikationsschritt in groben Stufen erhöhen; nach jeder Stufe Akzeptanz und p95-Zwischen-Token-Latenz notieren. 4) Sampling: Draft- und Verifier-Policies gekoppelt dokumentieren — nicht blind angleichen. 5) Soak: mindestens zehn Minuten gleichmäßiges Decoding mit typischer Nebenlast; Peak-Resident-Set und Speicherdruck-Flag loggen. 6) Baseline: identischer Mix ohne Spekulation messen und End-to-End vergleichen, nicht nur Kernel-Mikrobenchmarks. 7) Observability: dieselben Felder wie bei AR laut GenAI-Matrix ausgeben, damit Dashboards vergleichbar bleiben.

Beispiel-Schwellen (Illustration, an eure Modellfamilie anpassen): Interaktivprofil mit Prompt ≤ 1024 Ziel-Tokens — p95-TTFT ≤ 850 ms, p95-Zwischen-Token-Latenz ≤ 68 ms. Soak zehn Minuten — gleitendes Mittel der verifizierten Ziel-Tokens/s ≥ 28 bei gleichzeitig AR-Baseline ≥ 18. Akzeptanzmittel über den Mix ≥ 0,42; fällt sie unter 0,35 in zwei aufeinanderfolgenden Stufen, Sweep abbrechen. Speicher — Peak aktiv ≤ 24 GiB ohne Swap für ein typisches 7B-Q4-Ziel mit Draft 3B-Q8; überschreitung nur mit dokumentiertem Risikoakzeptanz.

Checkpoint Gate (Beispiel) Nachweis
TTFT interaktiv p95 ≤ 850 ms Drei Serien à fünfzig Requests, Median und p95
Decode-Tail p99 Zwischen-Token ≤ 120 ms Gleicher Mix wie Produktion
Durchsatz-Soak ≥ 28 verifizierte Ziel-Tokens/s über 600 s Zeitreihe gegen AR-Baseline legen
Akzeptanz Mittel ≥ 0,42; kein Satteln unter 0,35 Pro Sweep-Stufe loggen
Unified Memory Peak ≤ 24 GiB ohne Swap Aktivitätsanzeige oder Instrumentierung
Fallback Automatisch AR nach zwei Fehlschritten Runbook-Zeile im Konfigrepo
  • Zitierbar 1: Jede Veröffentlichung nennt Akzeptanzrate und AR-Baseline auf demselben Prompt-Mix.
  • Zitierbar 2: Speicherpeak wird immer mit Nebenlastprofil (Browser, IDE, Indexer) dokumentiert.
  • Zitierbar 3: Fallback-Trigger sind numerisch — nicht „fühlt sich langsam an“.

Fehlerfall und Fallback

Wenn Akzeptanz einbricht, Verifier-Latenzen steigen oder Speicherdruck häufige Abbrüche erzeugt, schaltet die Produktion deterministisch auf AR um — idealerweise pro Mandant oder Session, ohne globale Dienste neu zu starten. Reduziert vor einem erneuten Versuch Draft-Kandidaten, Kontextfenster oder parallel aktive Streams. Remote-Tests wiederholen dieselbe Sweep-Reihe auf einem Mietknoten, um Laptop-Rauschen auszuschließen; Kostenabgleich über Routing- und DSPy-Artikel oben.

FAQ

Lohnt sich Spekulation immer für Chat? Nein — kurze Antworten und hohe Divergenz zwischen Draft und Ziel senken die Akzeptanz; AR kann insgesamt billiger sein.

Wie vergleiche ich fair mit AR? Identisches Manifest, identischer Prompt-Mix, identische Telemetrie — nur die Decoding-Strategie wechselt.

Welche Rolle spielt Quantisierung? Große — ein aggressiv quantisierter Draft kann mehr Kandidaten vorschlagen, aber die Verifikationsfehlerquote steigt; messt beides.

Muss der Draft kleiner sein? Typisch ja, aber nicht zwingend; entscheidend ist das Verhältnis von Verifikationskosten zu erwarteter Akzeptanz.

Kurz: Spekulatives Decoding ist ein Betriebs- und Messproblem auf Unified Memory: ohne Akzeptanz- und Tail-Kennzahlen sowie numerischen Fallback bleibt es eine Demoschleife — mit klarer Checkliste wird es auf dem M4 reproduzierbar.