Langfuse は反復分析、OpenTelemetry GenAI は財務と SRE の中立スパイン。両者を サンプリング率評価窓リモート Mac ソークで束ね、夜間もトレースと請求を矛盾なく語る。

本ページの構成: 意思決定マトリクス · 計装戦略 · コスト閾値 · バッチ評価パイプライン · プライバシーと非識別化 · リモート検収

LLM/エージェント開発者向けに、Langfuse 主導と OTLP 主導の棲み分けと検収を短くまとめる。OpenTelemetry GenAI 可観測性マトリクスDSPy オフライン評価マルチモデル料金稿 と併読を。

意思決定マトリクス

主軸は一つ。重要シグナルだけミラーし、二重の真実を避ける。

観点 Langfuse 優先 OpenTelemetry GenAI 優先
セマンティックトレース トレース・スコア・データセット・プロンプト版が一体で摩擦が小さい。 GenAI 属性・エクスポータ・テールサンプリング・既存 APM。
サンプリング率の制御 取り込み上限とクライアント側フィルタ。ホスト枠に注意。 コレクタのヘッド/テール、ポリシーをコード化。
バッチ評価との相性 評価実行と UI がデータセットと一体。 評価ランナーがスパン/ログを出し相関 ID で自前ダッシュへ。
リモート Mac での検証 Apple Silicon でエージェントを動かし Langfuse へリプレイ。 ステージ相当コレクタへ OTLP リプレイしドロップ計数を比較。

計装戦略

安定した 相関 ID を Langfuse メタと OTel baggage に複製。モデル呼び出しは generation か GenAI スパンで包み ID・プロバイダ・トークン整数を揃える。ツール引数はハッシュ子スパン。エクスポータバッチは小さめにし Metal 推論を守る。

コスト閾値

トレースバイト/分・イベント行・検索 p95 の三つで予算化し五分平均でアラート。Langfuse と OTLP 行は分け、リモート Mac の GPU 時間と並記して財務が比較できるようにする。逼迫時はチャットのヘッドを先に締め、エラーと高トークンはテールで残す。

バッチ評価パイプライン

夜間スモーク+週次フルなど 評価窓 を固定し、各行にデータセット版・モデル版・同一相関キーを付ける。分布で合格率を見る。重負荷は オフライン評価稿 に倣いピーク後に回す。

プライバシーと非識別化

既定はテンプレ ID・長さ・ソルト付きハッシュ・スキーマ ID のみ。生文は許可テナントに限定し保持を短く。決済・医療 ID は自由記述に載せず代理キーへ。

リモート Mac コスト検収チェックリスト

  • ドロップ率が拒否バッチ等と整合し静かな欠損がない。
  • サンプリング変更後も上位デシル呼び出しがソーク窓で検索できる。
  • 時刻ずれ一秒未満または補正方針が文書化されている。
  • トレースバッファと Langfuse DB のディスクが合意床を下回らない。
  • 評価窓の合格率がエラースパン・コスト急増と期待レンジで相関する。
  • ランブックに購入・料金などログイン不要の公開 URL が列挙されている。

公開ページ(ログイン不要): SKU は 購入、プラン比較は 料金、運用の細部は ヘルプセンター。関連記事は テックブログ 一覧から。