Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets Abstract: Real-wor l d document question
RAG是如何产生幻觉的 先看一个在实际系统中非常典型的场景。 用户提问:“BM25 和 TF-IDF 的主要区别是什么?” 系统返回了一段看似专业的回答,但其中出现了这样的描述: “BM25 在计算词频时采用平方项增强高频词的重要性”。 从语言表达上看,这段回答没有明显问题,看起来也很专业,但如果你
单智能体: ReAct Plan-and-Execute Reflection 多智能体: Orchestrator-Subagent Peer-to-Peer 智能体工作流: Agentic Workflows ReAct Plan-and-Excute Reflection
前言 向量数据库是RAG 应用的核心组件,不同于传统关系型数据库,向量数据库中的数据由具有固定维数的向量来表示。 向量数据库的核心目标在于解决这样一个问题:如何存储并管理海量非结构化数据,并对其实现高效的相似性搜索。 针对以上问题,向量数据库通常具备以下三个关键功能: (1)向量嵌入(Vector
在 Retrieval-Augmented Generation(RAG)系统中,模型性能不再仅取决于生成能力,还高度依赖检索质量与上下文利用效率。传统 NLP 评价指标(如 BLEU、ROUGE)已难以全面反映 RAG 系统的真实性与可用性。本文系统梳理 RAG 的评估范式,从检索层、生成层到端到端效果,详细解析关键评价指标,并对主流评估工具进行对比分析,最终给出可落地的评估实践方案。
在RAG(Retrieval-Augmented Generation)系统中,精确的检索算法是确保生成质量的关键。本文深入探讨了从经典的TF-IDF到现代BM25算法的演进,详细解析了BM25的数学原理、参数调优和实战应用,帮助开发者构建更高效的检索系统。
LATE CHUNKING: CONTEXTUAL CHUNK EMBEDDINGS USING LONG-CONTEXT EMBEDDING MODELS Abstract Many use cases require retrieving smaller portions of text, an
使用 API 接口调用大语言模型时,经常能看见 temperature 这个参数,阿里云白炼平台对 temperature 参数的解释是这样的: 那么 temperature 是如何影响大语言模型的输出结果的呢? 大模型是如何选择下一个 token 的? 要理解 temperature 参数的作用,
提示词与提示词工程 什么是提示词 提示词,也叫 Prompt,就是你输入给大语言模型的指令、问题、背景或要求。 它可以是一句话: 请帮我总结这篇文章。 也可以是一段复杂指令: 你是一名产品经理。请阅读下面的用户反馈,提炼出 5 个最重要的问题,并按“问题、影响、建议优先级”的表格输出。不要编造原文中