在大模型应用落地的过程中,RAG(Retrieval-Augmented Generation)逐渐成为构建知识型系统的主流范式。然而,一个经常被低估的问题是:我们究竟该如何判断一个 RAG 系统“好不好”?
很多人会下意识地用传统生成任务的评估方式,比如 BLEU 或 ROUGE,去衡量模型输出。但在实际工程中,这类指标往往给出一种“看似合理却完全错误”的信号:模型可能生成了语言流畅、结构完整的答案,却并未基于任何真实知识。这种偏差的根源在于,RAG 并不是一个单纯的生成问题,而是一个由多个环节耦合而成的系统问题。
如果从结构上看,一个典型的 RAG 流程可以被拆解为三个连续阶段:首先通过检索模块从外部知识库中获取相关信息,其次将这些信息作为上下文输入生成模型,最终输出自然语言答案。表面上这是一个简单的流水线,但一旦引入误差传播,就会发现问题远比想象中复杂。检索阶段的偏差会直接影响生成阶段,而生成模型本身又可能选择性忽略上下文,甚至产生幻觉。因此,评估 RAG 系统,本质上是在评估一个“多阶段信息传递系统”的可靠性。
主流评估框架与工具
RAGAS
RAGAS 是一个专为RAG设计的评估框架