推测解码用草稿喂目标做投机采样,会改写前向次数与统一内存曲线;验收若只看均值,尾延迟与交换尖峰仍可能翻车。下文在 M4 上对齐标准自回归与投机路径的合同口径。💻⚡
目录:硬件前提 · 方法对比 · 参数扫描步骤 · 失败回退 · FAQ
硬件前提
基线写死电源模式、合盖、外接分辨率与前台图形负载,否则草稿与目标争用带宽的结论不可比。隐性成本:采样不一致难复现;混池并发拖尾延迟;交换尖峰比均值吞吐更伤体验。建议人机与离线批分队列分进程,日志带版本哈希便于回归对照。
| 检查项 | 阈值示例(栈无关) | 观测 |
|---|---|---|
| 吞吐与延迟 | 稳态不低于四十单位每秒;提示上界四千档首包九五分位不超二点五秒;尾延迟劣化不超基线百分之二十 | 五分钟稳态窗,弃预热;墙钟加分位 |
| 内存与投机 | 七亿参八比特档、上下文八千档峰值驻留不超二十二吉字节、五分钟交换增量为零;接受率不低于百分之五十五且吞吐不低于自回归九成 | 压力色与驻留并记;导出接受率与前向占比 |
方法对比
只锁可观测量与采样周期,合同不写框架私货。
| 维度 | 标准自回归 | 推测解码 |
|---|---|---|
| 算力 | 每步一次目标前向 | 草稿与目标交错,前向随接受率波动 |
| 延迟 | 首包与步进增量稳 | 中段可降,拒绝路径引入尖峰 |
| 内存 | 目标权重与 KV 为主 | 叠加草稿与临时张量,峰值更敏感 |
| 运维 | 回滚面小 | 盯接受率、草稿宽度与回退 |
参数扫描步骤
一冻结权重、量化、上下文上界、采样与并发池。二自回归基线:同提示集的首包、稳态吞吐、峰值驻留。三由小到大扫草稿宽度,每点五分钟稳态弃三十秒预热。四记目标前向占比与接受率,看中段是否被草稿预热放大。五开浏览器或轻图形复测交换。六在租用节点重放高峰,对齐机时再扩面,可与离线评测篇共用 JSONL。
失败回退
阶梯:缩宽→降并发→关投机→切池或远程;每步写原因码与指标快照。网关可把接受率下限与交换增量硬熔断。
- 接受率低于百分之四十五持续两分钟 → 减半草稿宽。
- 尾延迟九五劣于基线百分之二十五 → 关投机。
- 交换大于零或驻留超二十二吉字节 → 降量化或减上下文。
FAQ
接受率高仍慢?查队列争用与带宽,再看九五与九九对基线。
多栈对齐吞吐?合同写明 tok 或等效字词并钉 tokenizer。
合盖可信?优先 Mac mini 形态或租用节点签核再映射笔记本。