本ページの構成: 意思決定マトリクス · 計装戦略 · コスト閾値 · バッチ評価パイプライン · プライバシーと非識別化 · リモート検収
LLM/エージェント開発者向けに、Langfuse 主導と OTLP 主導の棲み分けと検収を短くまとめる。OpenTelemetry GenAI 可観測性マトリクス、DSPy オフライン評価、マルチモデル料金稿 と併読を。
意思決定マトリクス
主軸は一つ。重要シグナルだけミラーし、二重の真実を避ける。
| 観点 | Langfuse 優先 | OpenTelemetry GenAI 優先 |
|---|---|---|
| セマンティックトレース | トレース・スコア・データセット・プロンプト版が一体で摩擦が小さい。 | GenAI 属性・エクスポータ・テールサンプリング・既存 APM。 |
| サンプリング率の制御 | 取り込み上限とクライアント側フィルタ。ホスト枠に注意。 | コレクタのヘッド/テール、ポリシーをコード化。 |
| バッチ評価との相性 | 評価実行と UI がデータセットと一体。 | 評価ランナーがスパン/ログを出し相関 ID で自前ダッシュへ。 |
| リモート Mac での検証 | Apple Silicon でエージェントを動かし Langfuse へリプレイ。 | ステージ相当コレクタへ OTLP リプレイしドロップ計数を比較。 |
計装戦略
安定した 相関 ID を Langfuse メタと OTel baggage に複製。モデル呼び出しは generation か GenAI スパンで包み ID・プロバイダ・トークン整数を揃える。ツール引数はハッシュ子スパン。エクスポータバッチは小さめにし Metal 推論を守る。
コスト閾値
トレースバイト/分・イベント行・検索 p95 の三つで予算化し五分平均でアラート。Langfuse と OTLP 行は分け、リモート Mac の GPU 時間と並記して財務が比較できるようにする。逼迫時はチャットのヘッドを先に締め、エラーと高トークンはテールで残す。
バッチ評価パイプライン
夜間スモーク+週次フルなど 評価窓 を固定し、各行にデータセット版・モデル版・同一相関キーを付ける。分布で合格率を見る。重負荷は オフライン評価稿 に倣いピーク後に回す。
プライバシーと非識別化
既定はテンプレ ID・長さ・ソルト付きハッシュ・スキーマ ID のみ。生文は許可テナントに限定し保持を短く。決済・医療 ID は自由記述に載せず代理キーへ。
リモート Mac コスト検収チェックリスト
- ドロップ率が拒否バッチ等と整合し静かな欠損がない。
- サンプリング変更後も上位デシル呼び出しがソーク窓で検索できる。
- 時刻ずれ一秒未満または補正方針が文書化されている。
- トレースバッファと Langfuse DB のディスクが合意床を下回らない。
- 評価窓の合格率がエラースパン・コスト急増と期待レンジで相関する。
- ランブックに購入・料金などログイン不要の公開 URL が列挙されている。