RAG应用中的幻觉 用户提问:“BM25 和 TF-IDF 的主要区别是什么?” 系统返回了一段看似非常专业的回答: “BM25 在计算词频时采用平方项增强高频词的重要性”。 从语言表达上看,这个回答没有明显问题,看起来也很专业,但如果你熟悉BM25算法,会立刻发现这句话是错误的。BM25 并不是通
前言 Embedding 模型能够将文本、图像、音频等非结构化数据转换为高维向量,并将其映射到统一的向量空间中。在这个空间里,语义相近的数据通常会拥有更接近的几何位置,从而使计算机能够通过数学计算衡量不同内容之间的相似性。 以文本为例,人类很容易理解“汽车”、“轿车”和“卡车”之间存在明显关联,但对
在RAG(Retrieval-Augmented Generation)系统中,精确的检索算法是确保生成质量的关键。本文深入探讨了从经典的TF-IDF到现代BM25算法的演进,详细解析了BM25的数学原理、参数调优和实战应用,帮助开发者构建更高效的检索系统。
使用 API 接口调用大语言模型时,经常能看见 temperature 这个参数,阿里云白炼平台对 temperature 参数的解释是这样的: 那么 temperature 是如何影响大语言模型的输出结果的呢? 大模型是如何选择下一个 token 的? 要理解 temperature 参数的作用,