Sur cette page : matrice de décision · champs & bandes d’échantillonnage · déploiement · checklist d’acceptation · FAQ
Les traces ressemblent souvent à du HTTPS anonyme, les jetons n’atteignent pas la finance, et le portable déforme la queue de latence. Ici : matrice, gabarit d’attributs, plages d’échantillonnage indicatives et checklist après rejouage nocturne. Croisez avec checkpoints LangGraph et quotas sandbox, la matrice llama.cpp vs Ollama et le guide RAG : chunks, embeddings et quotas vectoriels.
Où l’observabilité casse en premier
1. Spans indifférenciés. Sans nom d’opération GenAI, fournisseur, identifiant de modèle et entiers de jetons, impossible de segmenter qualité et budget par locataire ou par famille de modèles.
2. Dérive facturation / traces. Les factures comptent des jetons ou des unités de facturation tandis que les traces ne portent que des phrases résumées : sans champs numériques stables et un pointeur de grille tarifaire, la finance ne peut pas rapprocher.
3. Télémétrie voisine bruyante. Une trace « pleine fidélité » peut saturer disques, files collecteur ou threads d’export et voler de la bande passante mémoire unifiée à Metal : sans superposition tête / queue, vous choisissez entre angle mort et inférence ralentie.
Matrice de décision (questions → signaux → direction)
- Chaque trace complète ? Budget stockage, file collecteur, p95 recherche. Direction : superposer tête / queue — conserver erreurs et gros coûts token, amincir le reste.
- Factures ↔ traces ? Entiers prompt / complétion / total, devise,
billing.rate_card_id. Direction : compteurs typés sur le span racine + même corrélation que la passerelle. - Longues heures ? Spans perdus, retries collecteur, disque, NTP. Direction : rejouer sur un Mac mini distant loué et archiver la checklist horodatée.
Champs d’instrumentation exécutables et bandes d’échantillonnage suggérées
Alignez les noms sur la version sémantique GenAI de votre SDK ; le bloc ci-dessous décrit la forme attendue.
# Ressource / périmètre
service.name deployment.environment cloud.region tenant.id
# Span GenAI (noms logiques — mapper à votre version OTel)
gen_ai.operation.name gen_ai.system gen_ai.request.model
gen_ai.usage.input_tokens gen_ai.usage.output_tokens gen_ai.usage.total_tokens
gen_ai.response.finish_reasons gen_ai.response.idempotency_key
llm.prompt_hash llm.completion_hash llm.cache_hit_bool
billing.unit billing.rate_card_id billing.estimated_cost_usd
# Corrélation
trace.trace_id correlation.request_idPlages indicatives de probabilité d’échantillonnage (fractions de traces ou spans conservés ; à affiner selon vos budgets) :
- Ingénierie locale : conserver typiquement 0,70 à 1,00 pour la boucle rapide, avec plafonds de payload afin qu’aucun prompt brut ne remplisse le disque.
- Staging ou tests de charge maîtrisés : viser 0,20 à 0,50 avec règles obligatoires sur erreurs et sur le décile supérieur des coûts token.
- Production en régime établi : 0,02 à 0,10 ; si le backend crie, glisser vers 0,01 à 0,05 et compenser par agrégats et journaux échantillonnés.
- Lots d’embedding ou d’indexation : 0,05 à 0,20 par span de lot, plus
dataset_id,batch_retry_countet statistiques de chunks pour maîtriser la cardinalité.
Réduisez batch et flush sous charge Metal ; dimensionnez la RAM collecteur si la queue retient des traces coûteuses jusqu’à la fin d’appel.
Déploiement structuré (aperçu opérable)
1–2. Figez service.* et tenant.* par environnement ; propagez un identifiant de requête unique sur modèles, outils et workers vectoriels.
3–4. Span GenAI avec jetons entiers, raisons de fin, hachages ; champs facturation alignés fournisseur, sans null artificiels sur les jetons.
5–6. Versionnez chaque changement d’échantillonnage ; rejouez la nuit sur un Mac distant Apple Silicon loué et joignez la checklist au ticket de release.
Checklist d’acceptation pour longues tâches sur Mac distant
- Le taux de spans perdus correspond aux compteurs de retry et de refus de batch du collecteur — aucun trou silencieux.
- Un échantillon de traces à fort coût token se drill-down par locataire et modèle et se rapproche raisonnablement de contrôles spot sur facture.
- La dérive d’horloge reste documentée sous une seconde ou compensée dans les fenêtres de reporting.
- La rotation des journaux et la rétention des traces sont déterministes ; une alerte synthétique produit une chaîne d’incident traçable.
- Chaque modification d’échantillonnage porte un identifiant de version pour que SRE compare équitablement avant / après.
FAQ
Sémantique vs sécurité ? Non substituable : hacher par défaut, borner les chaînes, texte brut seulement avec approbation et rétention courte.
Même taux chat et batch ? Déconseillé : batch favorise span de lot + cardinalité dataset ; chat exige queue stricte sur erreurs rares.
Mac distant ? Il isole exporteurs et thermique du bureau, rapproche le réseau du quasi-production et stabilise les preuves de coût pour la finance.
Pages publiques : comparez les paliers sur la page tarifs, parcourez les SKU sur la page d’achat (consultation sans connexion), puis prolongez avec le centre d’aide et l’index du blog technique pour d’autres playbooks Mac cloud.