引言 2023年,我第一次使用ChatGPT时,就被它的生成能力、精准的上下文理解能力和多任务处理能力惊艳到了。它不仅能自然地回答问题、总结复杂信息,还能写文章、生成代码、分析 Bug,甚至在连续多轮对话中保持上下文一致性。它不像传统意义上的搜索引擎,也不像我过去接触过的任何自然语言处理模型,更像是
Transformer 的自注意力机制能够直接建模序列中任意两个 token 之间的依赖关系,但其基本计算形式并不显式包含序列的顺序信息。自注意力主要依据 query 与 key 之间的相似度分配注意力权重,并根据这些注意力权重对 value 进行加权聚合。因此,在缺少位置表示信息的情况下,模型虽然