LLM本质上是一个概率预测器:给它一段上文,它会计算出下一个 token 在词表中的概率分布。采样(Sampling)就是根据这个概率分布从词表中选出一个token作为本轮输出。 采样方法可以分为确定性采样和随机采样两种 确定性采样 Greedy Search Beam 随机采样