推測デコードはドラフト先行と検証追認の二段です。標準自己回帰は一本の系列です。ユニファイドメモリでは重みと鍵値と同時セッションが尾部を伸ばすので、実装名ではなく測定列を正にします。
目次:ハードウェア前提 · 方式の対照 · パラメータ走査手順 · 失敗時のフォールバック · よくある質問
バッチと鍵値の検収、多モデル意思決定、リモート検収 と列を揃えてください。
詰まり:毎秒トークン単独では受理率低下に気づきにくい。ドラフト幾何を上げるほど検証器コストが支配する。常駐アプリ無しではピーク常驻を過小評価しがち。
ハードウェア前提
シリコンとユニファイドメモリを前提にし、室温とファンと同時セッションをカード一行に固定して再現します。熱で持続クロックが落ちると尾部が伸びます。
方式の対照
| 観点 | 推測デコード | 標準自己回帰 |
|---|---|---|
| 計算 | ドラフト順伝播が増える | 一本で単純 |
| レイテンシ | 受理良で短く見えやすい | 受理非依存だが絶対値はモデル次第 |
| メモリ | 二系列同居で伸びやすい | 見積りやすい |
パラメータ走査手順
一、改訂行と量子化とひな形を凍結。二、短・中・長のプロンプト束を用意。三、ドラフトトークンだけ粗く増やし受理率と毎秒トークンを同表に。四、十分間連続で常駐併走しピーク常驻と圧を残す。五、自己回帰と同列名で初トークンと九五分位と終了理由を比較。六、可観測性の列へ寄せる。
しきい値例(実装中立)
- 初回トークン到達 五百ミリ秒以内を目安に超過は幾何か同時を疑う
- 安定区間 毎秒四十トークン以上を一時目標に下回れば受理と量子化を先に見る
- ピーク常驻 二十四ギガバイト未満を越え続けたら自己回帰へ戻す
検収チェックリスト
- 二系列改訂行が文書通りか
- 受理率か受理トークンがログに残るか
- 圧が出た瞬間の幾何を表に書いたか
- 自己回帰へワン設定で戻せるか
失敗時のフォールバック
受理が低い・毎秒が自己回帰未満・常驻が越える、のいずれかで直ちに自己回帰へ。リモートは往復を上乗せし リモート検収 で表を再確認します。
よくある質問
ドラフトは小さければよいか。 検証器が重いとき小さすぎは不発です。粗く広げ良帯だけ残します。
受理率の取り方は。 露出列を正に、無ければ受理トークンで近似します。
ログインは必要か。 閲覧は不要です。公開ページから写してください。