Sur cette page : 需求分层 · 路由策略 · 成本与SLA · FAQ · 转化
IDE, harnais d’évaluation et runtimes d’agents veulent tous une surface au format OpenAI, alors que les fournisseurs divergent sur les timeouts, les outils et les courbes de dépense. Une couche d’agrégation aligne l’API, mais une file unique laisse encore le trafic batch affamer le chat, des règles de cache laxistes exposer des prompts sensibles, et des chaînes de repli mal étiquetées doubler la facturation. Ce guide vise les équipes qui opèrent des passerelles LLM : segmentation des besoins, tableau synthétique sur latence, concurrence, cache et repli (fallback), gabarit de variables, et posture d’acceptation sur Mac distant que la finance peut citer. Croisez-le avec OpenClaw et LiteLLM proxy sur Mac distant, la matrice OpenTelemetry GenAI et la matrice llama.cpp vs Ollama avant de figer les alias de production.
1. Une file partagée entre humains et agents masque le risque de queue dans des moyennes trop confortables.
2. Le gain du batch s’érode quand la bande passante mémoire ou les jetons annulés dominent sans plafonds par palier.
3. Un repli sans coût marginal affiché produit des appels doublons que les tableaux de bord financiers ne recollent plus.
需求分层
Commencez par nommer les consommateurs. Le chat interactif exige un budget serré jusqu’au premier jeton, une concurrence modeste par session et des enveloppes d’erreur lisibles pour l’UI. Les agents tolèrent davantage d’appels simultanés, mais exigent des retries outillés avec fusibles et des budgets de mur d’horloge plus larges. Les jobs d’indexation ou d’évaluation hors-ligne privilégient le débit, des micro-batches plus larges et des routes quantifiées moins chères même si la latence instantanée fluctue. Rédigez pour chaque palier un paragraphe SLA : secondes maximales en file, budget d’erreur, obligation de flux token par token, contraintes de résidence et niveau de journalisation — ainsi les politiques de cache restent défendables juridiquement. Mappez enfin chaque palier sur du matériel : portable pour les pics ponctuels, grappe de staging pour l’intégration, et Mac Apple Silicon dédié pour les essais de charge, car thermique et démons système déforment les files d’une manière que le portable du développeur dissimule.
Documentez aussi la sensibilité aux données : certains prompts ne doivent jamais traverser un cache HTTP partagé, d’autres peuvent réutiliser un préfixe système stable. Les agents multi-outils génèrent des rafales corrélées : prévoyez des identifiants de corrélation et des quotas par espace de noms pour éviter qu’un workspace bruyant ne fasse tomber le voisin. Cette granularité alimente ensuite la table de routage et les disjoncteurs, au lieu de laisser un opérateur retoucher des fichiers YAML à chaud lors d’un incident nocturne.
路由策略
Le routage, ce sont des alias, de la santé runtime et des disjoncteurs. Les alias découplent les clients des renommages fournisseur ; la santé doit combiner ratios de timeout, dépassements de plafonds de jetons et pression mémoire locale, pas seulement des sondes ICMP ou des HEAD triviaux. Les disjoncteurs s’ouvrent par alias et par locataire pour qu’un graphe LangGraph bruyant ne brunisse pas tout le cluster. Indiquez clairement quand une session doit rester collée à un hôte « chaud » avec réutilisation KV, versus un mode stateless en tourniquet.
| Schéma | Latence | Concurrence | Cache | Repli (fallback) |
|---|---|---|---|---|
| HTTP direct fournisseur | Peu de sauts ; queues régionales fragiles en extrême queue. | Quotas brutaux par clé ; équité faible entre clients. | Surtout côté fournisseur ; peu de déduplication maison. | Routages manuels ; risque de double dépense si deux chemins vivent en parallèle. |
| API Gateway périphérique | Légère taxe ; handshake TLS plus stable. | Quotas centralisés ; surveiller les hotspots de partition. | Adapté aux lectures idempotentes ; risqué pour les corps de chat bruts. | Politiques de bascule ; chaque saut doit porter une étiquette de coût marginal. |
| Agrégation compatible OpenAI | Petit coût de parse ; gains via batch et localité. | Plus équitable entre alias ; exige des pools par palier. | Caches de gabarit et indices KV si la politique l’autorise. | Échelons de repli budgétés ; audit de chaque maillon de la chaîne. |
| Pile Metal locale | Excellent pour charges locales ; outils distants ajoutent du jitter. | Plafonds de mémoire unifiée ; rafales mono-locataire gérables. | Réutilisation chaude en process ; peu de partage inter-hôtes. | Débordement vers alias cloud au-delà du budget RAM. |
En revue d’architecture, retenez les deux colonnes les plus bruyantes pour votre charge, attachez les métriques du dernier sprint, et assignez un schéma par défaut par palier. Si vous orchestrez déjà des graphes avec état, reliez cette table au guide checkpoints LangGraph et sandbox : le routeur et le stockage d’état partagent souvent les mêmes budgets de latence.
成本与SLA
Le coût total combine jetons facturés, secondes passées en file et retravail causé par des complétions médiocres. Les SLA devraient citer au minimum la latence p95 jusqu’au premier jeton, le nombre d’échecs consécutifs avant ouverture du disjoncteur, et le délai de rétablissement quand une région brunit. Les tableaux de bord doivent découper la dépense par alias, locataire et profondeur de repli pour rapprocher les factures fournisseur sans ouvrir systématiquement une trace distribuée. Pour un nœud distant, ajoutez loyer horaire, egress et minutes à vide — pas seulement la grille tarifaire API affichée sur le site du vendeur.
Extraits de checklist réutilisables dans vos runbooks :
- Chaque alias liste fournisseur, région, niveau de quantification et dollars par million de jetons pour la grille tarifaire en vigueur.
- Les jobs batch publient la fenêtre de micro-batch et la règle d’annulation lorsque le client coupe la connexion.
- Chaque repli émet un code motif plus une estimation du coût marginal avant d’invoquer le modèle de secours.
Les secrets et quotas réels vivent dans un coffre, pas dans l’historique Git ; les blocs ci-dessous ne sont que des placeholders exécutables pour vos pipelines CI ou vos chart Helm.
# Passerelle et pools par palier
OPENAI_BASE_URL=${AGGREGATION_BASE_URL}
ROUTING_TIER_INTERACTIVE_MAX_INFLIGHT=${ROUTING_TIER_INTERACTIVE_MAX_INFLIGHT}
ROUTING_TIER_AGENT_MAX_INFLIGHT=${ROUTING_TIER_AGENT_MAX_INFLIGHT}
ROUTING_TIER_BATCH_MAX_INFLIGHT=${ROUTING_TIER_BATCH_MAX_INFLIGHT}
# Batch et streaming
COMPLETION_MICRO_BATCH_MS=${COMPLETION_MICRO_BATCH_MS}
COMPLETION_MAX_BATCH_TOKENS=${COMPLETION_MAX_BATCH_TOKENS}
STREAM_CHUNK_BYTES=${STREAM_CHUNK_BYTES}
# Cache et repli
PROMPT_CACHE_MODE=${PROMPT_CACHE_MODE}
KV_CACHE_REUSE_POLICY=${KV_CACHE_REUSE_POLICY}
FALLBACK_MODEL_ALIAS_CHAIN=${FALLBACK_MODEL_ALIAS_CHAIN}
FALLBACK_MAX_EXTRA_SPEND_USD=${FALLBACK_MAX_EXTRA_SPEND_USD}
# Hôte d’acceptation distant
REMOTE_MAC_SOAK_HOURS=${REMOTE_MAC_SOAK_HOURS}
REMOTE_MAC_NOTARIZED_CHECKLIST_ID=${REMOTE_MAC_NOTARIZED_CHECKLIST_ID}1. Inventorier les clients et figer routes OpenAI, drapeaux streaming et formats d’outils.
2. Déployer pools de concurrence et timeouts par palier, puis tests de charge à trafic mélangé.
3. Émettre des traces avec alias, profondeur de repli, hits cache et secondes en file avant onboarding large.
4. Canariser sur matériel de préproduction jusqu’à ce que les exercices de disjoncteur réveillent la bonne astreinte.
5. Rejouer des heures de trafic sur un Mac distant loué, comparer p95 et p99 au portable, archiver tableaux de bord et visa finance.
FAQ
Les agents et les humains doivent-ils partager une même table de routage ? Séparez-les : des pools dédiés, des politiques de retry et des enveloppes d’échec distinctes empêchent les boucles d’outils d’aspirer toute la concurrence du chat.
Un batch plus large réduit-il toujours le coût ? Non — surveillez jetons annulés, pression mémoire et longueur des files de préremplissage avant de croire à une moyenne plus « bon marché ».
Pourquoi valider le routage sur un Mac distant plutôt que sur un portable ? Alimentation et réseau stables, moins de veille : les graphiques d’acceptation reflètent un hébergement de passerelle longue durée, pas une session café Wi-Fi.
转化
La crédibilité conditionne le déploiement. Un Mac mini M4 cloud dédié permet d’épingler la passerelle, de rejouer des traces et de figer des graphiques SLA avant d’élargir les alias. Parcourez la page d’achat et les tarifs sans vous connecter, consultez le centre d’aide pour les runbooks, puis poursuivez via l’index du blog technique et les articles liés ci-dessus lorsque l’état partage le même routeur que l’inférence.
Pages publiques : les tarifs, la page d’achat et le centre d’aide sont lisibles sans connexion ; le blog technique recense d’autres guides routage et observabilité.