目次:遅延と料金 · 批次元走査 · キャッシュキー · 失敗時 · よくある質問
分割はローカルラグ稿、索引は索引稿へ。ここは写像と課金の芯のみです。
痛みは三つ。往復とレートで第九五分位が伸びること。オーエヌエックスからコアエムエルへ載せ替えると経路差で再現率がズレること。次元差が再インデックスの二乗コストに効くことです。
| 観点 | クラウド小さめ | ローカルビージーイーエンスリーコアエムエル |
|---|---|---|
| 遅延 | 往復とキュー | 統合メモリの山と実行プロバイダ |
| 次元 | 千五百三十六前後 | 千二十四前後と正規化版 |
| 批次元 | 公開上限まで | 二的乗法で尾遅延がベース一割で頭打ち |
| しきい値 | 月次従量が賃率換算の二倍なら併設比較 | 尾遅延九五分位が往復込みを下回る帯まで詰める |
遅延と料金の見切り
オンラインは往復、オフラインは尾遅延。同居で大規模言語モデルが先なら埋め込みは二番手です。九五分位で決め、百万トークン単価と機時を同じ軸へ。
批次元走査の手順
一コーパスと分割器を凍結。二二的乗法で上げ山と九五分位を記録。三上限で一段戻す。四量子化は浮動小数点の帯決め後に別系列。五レンタルマックで六時間ソークし請求と突合。
キャッシュキー設計
モデル版・次元・量子化・前処理ハッシュ・チャンク版を接頭辞に連結し、パーティションへ埋め込み、切替は並列プレフィックスで。正規化だけ変えた再実行が壊しやすいです。
失敗時のフォールバック
コアエムエルがunsupportedなら同一重みの中央処理装置オーエヌエックスへ、次にクラウド小さめへ。同一接頭辞で冪等に戻し、索引は隔離接頭辞へ書き分けてから切替えます。
貼れる目安。九五分位がベースの一割から二割以内ならその批次元を採用。月次従量が賃率二倍超ならローカル併設を本番比率へ。次元差は二乗で見積ります。
よくある質問
量子化は。先に浮動小数点で帯を決め、量子化は別採寸でビット幅と凍結。
コアエムエルが落ちたら。一覧を残し中央処理装置へ限定し最後にクラウドへ。鍵は索引稿の監査に合わせる。
索引との役割。近似最近傍とクォータは索引稿、写像と批次元と課金は本稿。