speculative-sampling笔记

1 · studyinglover · Sept. 5, 2023, 7:40 p.m.
speculative-sampling笔记speculative-sampling,投机采样是一种加速llm推理的方法。论文arxiv ,参考博客jaykmody.com这个方法需要用到两个模型,一个小模型,称为 draft model,一个大模型,称为target model。speculative-sampling使用了一种直觉,对于一些序列下一个token预测是i很明显的,小模型也可以完成。因此,如果draft model和target model在给定的很明显的序列上的分布之间存在很强的一致性,那么就允许targrt model被调用时一次输出多个token 自回归采样,就是说给一个序列模型预测下一个token。 对于大模型来说,主要是三个部分拖慢了推理速度,线性层,注意力机制和通信。拒绝采样的公式被修改为\[\min\left(1,\frac{q(\tilde{x}_{n+1}|x_1,\ldots,x_n)}{p(\tilde{x}_{n+1}|x_1,\ldots,x_n)}\right)\] 给定一个序列\(x_0,\ldots,x_t\) 和一个\(K\) ,用dr...